我们如何利用 DSPy 将 AI 评估转化为 Dash Chat 的更优回复 (opens in new tab)

📌 One-Sentence Summary Dropbox 使用 DSPy 校准 LLM-as-judge 评估体系，进而自动优化 Dash Chat 智能体的系统提示词，实现了不完整回答减少 26%、token 使用量降低 5.4% 的效果。 📝 Summary 本文介绍了 Dropbox 如何为其 Dash Chat 产品构建严谨的智能体评估框架，随后利用 DSPy 配合 GEPA 和 MIPROv2 等优化算法，将 LLM 评判器与人工标注样本进行校准。在获得可靠的评判器后，他们通过回放代表性对话、使用校准后的评判器为输出打分，并迭代筛选候选提示词，实现了聊天智能体系统提示词的自动优化。最终成果包括：不完整回答减少 26%、遗漏关键要点降低 13%、总 token 使用量减少 5.4%——且未牺牲回答质量。文章还涵盖了评估标准、失败编码方法论，以及关于自动提示词优化防护机制的经验教训。 💡 Main Points 智能体评估必须考察完整交互轨迹，而非仅看最终回复。与传统搜索相关性不同，智能体交互涉及多步推理、工具使用和回合对话；评估中间决策对于识别失败的根本原因至关重要...

Read the original article