调了大半天 System Prompt 意识到一件以为早就理解的事… 当执行不再是问题,衡量标准和测试用例就变得更重要了。 AI 让「做出来」的成本几乎为零, 但「判断哪个... (opens in new tab)
调了大半天 System Prompt意识到一件以为早就理解的事…当执行不再是问题,衡量标准和测试用例就变得更重要了。 AI 让「做出来」的成本几乎为零, 但「判断哪个更好」的能力反而更稀缺。叠加 AI 本身的不确定性和数据的私有性,衡量和测试更难一些。于是想到了「品味」这个词,或许可以再拆解:品味 = 目的 + 衡量的维度和程度 + 测试用例大多数人把品味当玄学,没法学。但拆成目的+维度+用例三件套之后——每件都能训练,品味就是可学的。还是得做中学,做中悟啊。
Read the original article