OpenAI 如何构建其数据智能体 (opens in new tab)

📌 One-Sentence Summary 本文详细介绍了 OpenAI 数据平台团队如何通过聚焦强大的数据基础设施和丰富的上下文组装层，而非复杂的智能体架构，构建了一个简单可靠的数据智能体。 📝 Summary 本文深入剖析了 OpenAI 数据平台团队如何构建一个内部数据智能体，以帮助其约 4，000 名用户浏览 90，000 个数据集和 1.5 EB 的数据。核心见解是，智能体本身有意保持简单——一个单一的 LLM（GPT-5.5）搭配一组精心挑选的 13 个工具——而可靠性则来自一个精密的上下文组装层。该层使用了六种上下文来源：表使用元数据、人工注释、通过 Codex 对流水线代码进行的夜间增强、来自文档的制度知识、用于记录修正的记忆系统以及运行时上下文。文章解释了该架构、三步请求流程（嵌入、组装上下文、智能体循环），以及 Codex 在 OpenAI 的三个真实用例：两个月内跨云迁移 90，000 张表的大规模操作、完全自动化的开源补丁发布，以及 AI 辅助的支持工单分类。文章最后为其他团队总结了五个实用经验，强调清晰的数据基础比复杂的智能体更重要，并且更少、不重叠的...

Read the original article