Instruct 的意义 (opens in new tab)
回顾AI这一波潮流,NLP CV ML DL 一路到 gpt2 gpt3 我都勉强能看懂怎么个事。 ChatGPT 就完全不懂了,剩下的只有惊叹。 但是 o1 之后感觉又能看懂了,reasoning无非是每个受过正规教育的学生都会的,面对答题之前要打草稿;sora之类的VLA world model无非是要突破文字限制,投入 embody的更多传感器;其余的多模态什么的无非琴棋书画玩一玩 感觉 chatgpt 之前是scaling law量变,之后也是正常能力增强的量变,只有 gpt-3.5 本尊是前无古人后无来者的质变。 拆开去看,核心就是 RLHF? 我也尝试去理解,媒体宣传和网络报道都照搬“带人类偏好” 为毛带个人类偏好,模型的能力就会产生翻天覆地的飞跃? 这个问题我也分别问了AI qwen-3.6-plus: 意图理解被激活:从模糊指令中推断真实需求,长度、风格、结构、安全性有了"方向盘",减少"知道但说错"的概率 deepseek-v4:让模型学会了“拒绝”自己最擅长的东西——无休止、无方向的预测。 ChatGPT: 不是礼貌,也不死让模型更符合人类偏好,而是目标函数改...
Read the original article