选择正确模型：LLM Evals 与优化的数据驱动指南 (opens in new tab)

📌 One-Sentence Summary Anthropic 的 Lucas 展示了一套生产 LLM 选型框架，核心包括自定义 eval、过程级评分、prompt caching、context hygiene，以及按成功结果成本优化。 📝 Summary 这场分享是一份很强的生产 LLM 选型实践指南。Lucas 指出，公共 benchmark 只能提供方向，因为真实应用会混合专有数据、自定义工具、特殊 workflow 和公司特定成功标准。演讲的核心建议是构建小而精的 private eval，不只判断最终答案，还要检查中间推理、工具调用、参数选择和操作约束。它也覆盖了常见 eval 陷阱，例如把统计噪声误判为信号、把基础设施故障混同为模型失败，以及评测集逐渐脱离真实流量。后半部分对优化成本和延迟的团队尤其有用：Lucas 解释了为什么更强模型在用更少轮次完成任务时，反而可能按成功结果更便宜；adaptive thinking 与 effort 设置如何影响性能；以及 prompt caching 和 context engineering 如何整体移动成本质量边界。其中...

Read the original article