AI治理一座城市，15天会发生什么？ (opens in new tab)

作为一项重要的模型对齐技术，基于人类反馈的强化学习（RLHF）已经是大语言模型训练体系的核心组成部分。它最初建立在单轮任务和单轮偏好标注框架之上，由人类对模型生成的不同回答进行打分排序，以此引导模型输出更符合人类偏好、更安全且更有帮助的回答。但现在，AI 正在走出对话框。Anthropic、OpenAI、xAI 和 Google等公司都在发展能自主运行的智能体：有记忆、能规划、可以连续工作数小时甚至数天，有时还需要与其他智能体协作完成复杂任务。近日，总部位于纽约的企业级智能体公司涌现人工智能（Emergence AI），发布了一份名为“涌现世界”（Emergence World）的测试报告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 四款大模型驱动智能体，让他们自主治理虚拟世界。图 | 第一期实验已完结，官网可查看回放（来源：Emergence AI）他们想知道，随着智能体承担任务的尺度变大、对话轮次增加，原本的 RLHF 技术，能否将 AI 的表现约束在可控范围内？AI社会模拟：从检验行不行到观察...

Read the original article