mittrchina.com

AI治理一座城市,15天会发生什么? (opens in new tab)

作为一项重要的模型对齐技术,基于人类反馈的强化学习(RLHF)已经是大语言模型训练体系的核心组成部分。它最初建立在单轮任务和单轮偏好标注框架之上,由人类对模型生成的不同回答进行打分排序,以此引导模型输出更符合人类偏好、更安全且更有帮助的回答。但现在,AI 正在走出对话框。Anthropic、OpenAI、xAI 和 Google等公司都在发展能自主运行的智能体:有记忆、能规划、可以连续工作数小时甚至数天,有时还需要与其他智能体协作完成复杂任务。近日,总部位于纽约的企业级智能体公司涌现人工智能(Emergence AI),发布了一份名为“涌现世界”(Emergence World)的测试报告。公司利用 Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-mini 四款大模型驱动智能体,让他们自主治理虚拟世界。图 | 第一期实验已完结,官网可查看回放(来源:Emergence AI)他们想知道,随着智能体承担任务的尺度变大、对话轮次增加,原本的 RLHF 技术,能否将 AI 的表现约束在可控范围内?AI社会模拟:从检验行不行到观察...

Read the original article
Sign in to keep reading the full article.

Keyboard Shortcuts

Navigation

Next / previous post
j/k
Open post
oorEnter
Preview post
v

Post Actions

Love post
a
Like post
l
Dislike post
d
Undo reaction
u
Save / unsave
s

Recommendations

Add interest / feed
Enter
Not interested
x

Go to

Home
gh
Interests
gi
Feeds
gf
Likes
gl
History
gy
Changelog
gc
Settings
gs
Discover
gb
Search
/

General

Show this help
?
Submit feedback
!
Close modal / unfocus
Esc

Press ? anytime to show this help