选择正确模型:LLM Evals 与优化的数据驱动指南 (opens in new tab)
📌 One-Sentence Summary Anthropic 的 Lucas 展示了一套生产 LLM 选型框架,核心包括自定义 eval、过程级评分、prompt caching、context hygiene,以及按成功结果成本优化。 📝 Summary 这场分享是一份很强的生产 LLM 选型实践指南。Lucas 指出,公共 benchmark 只能提供方向,因为真实应用会混合专有数据、自定义工具、特殊 workflow 和公司特定成功标准。演讲的核心建议是构建小而精的 private eval,不只判断最终答案,还要检查中间推理、工具调用、参数选择和操作约束。它也覆盖了常见 eval 陷阱,例如把统计噪声误判为信号、把基础设施故障混同为模型失败,以及评测集逐渐脱离真实流量。后半部分对优化成本和延迟的团队尤其有用:Lucas 解释了为什么更强模型在用更少轮次完成任务时,反而可能按成功结果更便宜;adaptive thinking 与 effort 设置如何影响性能;以及 prompt caching 和 context engineering 如何整体移动成本质量边界。其中...
Read the original article