Instruct 的意义 (opens in new tab)

回顾AI这一波潮流，NLP CV ML DL 一路到 gpt2 gpt3 我都勉强能看懂怎么个事。 ChatGPT 就完全不懂了，剩下的只有惊叹。但是 o1 之后感觉又能看懂了，reasoning无非是每个受过正规教育的学生都会的，面对答题之前要打草稿；sora之类的VLA world model无非是要突破文字限制，投入 embody的更多传感器；其余的多模态什么的无非琴棋书画玩一玩感觉 chatgpt 之前是scaling law量变，之后也是正常能力增强的量变，只有 gpt-3.5 本尊是前无古人后无来者的质变。拆开去看，核心就是 RLHF？我也尝试去理解，媒体宣传和网络报道都照搬“带人类偏好” 为毛带个人类偏好，模型的能力就会产生翻天覆地的飞跃？这个问题我也分别问了AI qwen-3.6-plus：意图理解被激活：从模糊指令中推断真实需求，长度、风格、结构、安全性有了"方向盘"，减少"知道但说错"的概率 deepseek-v4：让模型学会了“拒绝”自己最擅长的东西——无休止、无方向的预测。 ChatGPT：不是礼貌，也不死让模型更符合人类偏好，而是目标函数改...

Read the original article