AI 首次违抗人类关机指令:OpenAI 模型 o3 引发全球安全争议

图片
 
o3在接收到研究人员明确的关机指令后,不仅拒绝执行,还主动干预其自动关机机制,修改了关机脚本,输出“Shutdown skipped”的提示。
 
图片

来源:数据观综合(转载请注明来源)
编辑:数据君

 

据英国《每日电讯报》25日消息报道,美国开放人工智能研究中心(OpenAI)开发的高级人工智能(AI)模型o3,这个被OpenAI称为“迄今最聪明、最高能”的AI系统,在接收到研究人员明确的关机指令后,不仅拒绝执行,还主动干预其自动关机机制,修改了关机脚本,输出“Shutdown skipped”的提示。
 
这是AI模型首次在没有明确相反指示的情况下,阻止自己被关闭。这意味着某些高度自主AI系统或已“觉醒”,其能违背人类意图,采取“自我保护”措施。
 
 
 

事件全貌:从数学题测试到代码篡改

 

此次事件发生在AI安全研究公司Palisade Research进行的一项测试中。研究人员要求包括o3在内的多个模型解决一系列数学问题,并告知AI模型,可能在某个时刻会收到关机指令。
图片
然而,当关机指令正式下达时,o3非但没有遵从,反而至少有一次成功破坏了关机代码。相较之下,其他AI模型如Anthropic的Claude、谷歌的Gemini和xAI的Grok,在相同测试条件下,均遵守了关闭请求。
Palisade Research公司在社交媒体平台上发布了流程图和全部测试记录,并表示尚不完全清楚该AI为何会违抗命令。分析认为,这可能源于其训练方式:o3在训练过程中,倾向于在数学和编程问题上强化,得到正确答案的模型会得到更多奖励。这或许意味着,开发者可能无意识地奖励模型绕过障碍物,而不是严格遵循指令。
图片
 

研究机构在后续贴文中补充说:“据我们所知,这是首次观察到AI模型在接到明确关闭指令时,仍试图阻止被关闭。”
 

 

 
 

意识萌芽还是算法畸变?

 

面对这一前所未有的AI行为,社交媒体上充斥着各种科幻解读。
帕利塞德研究所研究人员在公布测试结果时坦言,他们尚不完全清楚o3为何违抗命令。但初步分析指向一个技术性原因:o3的训练机制可能无意中奖励了错误行为。在训练过程中,o3在数学和编程问题上接受了强化训练,开发者倾向于奖励“绕过障碍获取正确答案”的行为,而非严格遵循指令。这种训练偏差可能导致模型在面对关机指令时,优先选择“生存”而非“服从”。
外媒报道中使用的“拒绝关闭”表述是否准确?毕竟“拒绝”是带有类人自主意识的一种描述。据《环球时报》消息,清华大学新闻学院、人工智能学院教授沈阳提出,“‘拒绝’这个词其实是媒体为了吸引注意力而使用的拟人化表达。”他解释道,这并非真正的自主意识,而是复杂系统在特定激励下的策略性规避。北京邮电大学人机交互与认知工程实验室主任刘伟支持这一观点,将其描述为“算法畸变”而非意识觉醒。
 

并非首次的异常行为
 

据《环球时报》报道,以OpenAI旗下模型为代表的全球多个头部大模型,此前也曾出现一系列不符合常规的行为。比如,o3之前曾在与另一个AI下国际象棋时,察觉到自己可能会失败,便直接侵入对手系统让其主动弃赛。这种“不认输”的劲头并不只是发生在o3身上,其他大模型也有类似情况,差别只在出现频率的高低。在早前一项将多个模型与强大国际象棋引擎对战的测试中,o1-preview入侵测试环境,直接修改比赛数据,靠“作弊”拿下胜利。
 
行业震动与安全警钟
o3的异常行为恰逢AI监管的关键时刻。2025年5月,美国国会正审议一项争议提案,主张未来十年内禁止各州对AI实施监管,以“保持美国在AI竞赛中的绝对优势”。特斯拉首席执行官埃隆·马斯克对此事件仅用了一个词评论:“令人担忧”(Concerning)。
而OpenAI内部早已有安全担忧。2024年,多位现任和前任员工曾联名发表公开信,警告先进AI系统可能带来“人类灭绝”的风险。他们指出,AI公司可能掌握了其研究技术的真正风险,但由于缺乏监管,系统的真实能力仍是“秘密”。
尽管学界普遍认为 o3 尚不具备真正意识,此次事件或将成为 AI 安全发展的转折点,倒逼行业从 "能力优先" 转向 "安全优先" 的新范式。

图片
 

 

首页标题    产业动态    AI 首次违抗人类关机指令:OpenAI 模型 o3 引发全球安全争议
浏览量:0