AI治理一座城市,15天会发生什么? (opens in new tab)
作为一项重要的模型对齐技术,基于人类反馈的强化学习(RLHF)已经是大语言模型训练体系的核心组成部分。它最初建立在单轮任务和单轮偏好标注框架之上,由人类对模型生成的不同回答进行打分排序,以此引导模型输出更符合人类偏好、更安全且更有帮助的回答。但现在,AI 正在走出对话框。Anthropic、OpenAI、xAI 和 Google等公司都在发展能自主运行的智能体:有记忆、能规划、可以连续工作数小时甚至数天,有时还需要与其他智能体协作完成复杂任务。近日,总部位于纽约的企业级智能体公司涌现人工智能(Emergence AI),发布了一份名为“涌现世界”(Emergence World)的测试报告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 四款大模型驱动智能体,让他们自主治理虚拟世界。图 | 第一期实验已完结,官网可查看回放(来源:Emergence AI)他们想知道,随着智能体承担任务的尺度变大、对话轮次增加,原本的 RLHF 技术,能否将 AI 的表现约束在可控范围内?AI社会模拟:从检验行不行到观察...
Read the original article