多媒体积木块 (opens in new tab)

📌 One-Sentence Summary 本文展示了一个 AI 智能体如何通过两个 Hugging Face Space 的 `agents.md` 端点（图像生成和 3D 重建）串联工作，构建了一个巴黎纪念碑 3D 画廊，并论证这种模式预示了未来多媒体软件将由可组合、有文档的积木块组装而成。 📝 Summary 作者描述了一个动手实验：让一个编程智能体构建一个巴黎纪念碑的 3D 画廊。该智能体从未直接使用图像生成器或 3D 工具；相反，它通过读取两个 Hugging Face Space 的 `agents.md` 文件来调用它们——一个用于图像生成，另一个用于单图到 3D 高斯泼溅重建。`agents.md` 文件提供了纯文本的 API 模式、调用模板和身份验证提示。智能体串联了输出（提示词 → 图像 → 3D 泼溅），然后执行了粘合工作：翻转 Y 轴坐标、自动取景、将 `.ply` 压缩为 `.ksplat`、构建 Three.js 查看器，并部署为一个静态 Space。本文将这一过程视为 Mitchell Hashimoto 的“积木块经济”在多媒体 AI 领域的具体...

Read the original article