AI 工程中最该投资的一件事:评估管道 - 暗无天日 (opens in new tab)
AI 工程和传统软件工程最大的区别在于输出质量不是二元的。一个 CRUD 接口要么能用要么不能用,但 LLM 的输出处于一个质量梯度上,你没法用单元测试来替代评估管道。本文从 Luca Cavallin 的 AI Engineering 全景指南中提取评估方法论的核心内容,覆盖 eval pipeline 的四个组件、LLM-as-judge 的偏见和缓解方式、评估指标的优先级排序,以及一个可运行的 LLM-as-judge demo。
Read the original article