AI 工程中最该投资的一件事：评估管道 - 暗无天日 (opens in new tab)

AI 工程和传统软件工程最大的区别在于输出质量不是二元的。一个 CRUD 接口要么能用要么不能用，但 LLM 的输出处于一个质量梯度上，你没法用单元测试来替代评估管道。本文从 Luca Cavallin 的 AI Engineering 全景指南中提取评估方法论的核心内容，覆盖 eval pipeline 的四个组件、LLM-as-judge 的偏见和缓解方式、评估指标的优先级排序，以及一个可运行的 LLM-as-judge demo。