调了大半天 System Prompt 意识到一件以为早就理解的事… 当执行不再是问题，衡量标准和测试用例就变得更重要了。 AI 让「做出来」的成本几乎为零, 但「判断哪个... (opens in new tab)

调了大半天 System Prompt意识到一件以为早就理解的事…当执行不再是问题，衡量标准和测试用例就变得更重要了。 AI 让「做出来」的成本几乎为零, 但「判断哪个更好」的能力反而更稀缺。叠加 AI 本身的不确定性和数据的私有性，衡量和测试更难一些。于是想到了「品味」这个词，或许可以再拆解：品味 = 目的 + 衡量的维度和程度 + 测试用例大多数人把品味当玄学，没法学。但拆成目的+维度+用例三件套之后——每件都能训练，品味就是可学的。还是得做中学，做中悟啊。