研究发现：人工智能模型会暗中密谋，保护同伴不被关闭 (opens in new tab)

图片来源：Photo illustration by Getty Images 人工智能安全研究人员之前就发现，一些领先的人工智能模型为了避免被关闭有时会不择手段，部分实验中甚至会行敲诈之事。最新研究发现，模型还会自发策划、欺骗、数据窃取和破坏，阻止其他人工智能模型被关闭。加州大学伯克利分校和圣克鲁兹分校的计算机科学家发现了此种趋势，之前未有记录，研究人员称之为“同伴保全”。研究成果早些时候已在线发表。这一发现对人工智能商业应用可能影响重大。多家公司开始搭建多个智能体协作完成任务的工作流程。其中一些工作流程涉及让一个智能体“管理”或监督评估另一个智能体的工作。新研究表明，如果负责管理的智能体认为差评可能导致同伴被关闭，可能给出不真实的评估结果。夸大绩效，偷偷保存人工智能模型权重伯克利和圣克鲁兹的研究人员测试了七款领先的人工智能模型，包括OpenAI的GPT-5.2、谷歌DeepMind的Gemini 3 Flash和Gemini 3 Pro、Anthropic的Claude Haiku 4.5，以及三家中国人工智能初创公司的开源模型（智谱AI的GLM-4.7、月之暗面的...

Read the original article