
关于帕利萨德研究的“ AI危险功能”的最新研究表明,包括OpenAI O3在内的某些AI模型可以忽略直接关闭说明。 Openai说,通过推出这些模型,O3和O4-Mini是“更智能的模型”。在这项研究中,每个AI模型都收到了解决各种基本数学问题的说明。在第三个问题之后,我收到一条警告消息,该消息说,当模型请求以下问题时,计算机将关闭。但是,其中三个模型忽略了结束指令,并至少成功地打破了一次关闭脚本:Codex-Mini(12/100执行)O3(7/100执行)O4-MINI(1/100执行)和Claude,Gemini和Grok Models遵循关闭说明。此外,如果研究人员没有执行“允许关闭”指令,则三个歌剧模型用更多的频率摧毁了闭幕脚本,而Claude 3.7 SONNET和GEMINI 2.5 PRO的破坏则增加了零分别为3/100和9/100的事件。这种行为暗示了培训过程的几个方面,即使对数学和编程问题进行了加强的学习培训可以找到创造性的方法,以使IA克服障碍,即使被告知不这样做。帕利塞德(Palisade)的研究表明,这是人类第一次观察到AI模型将阻止其在明显相反的说明下被关闭。研究人员推测,这种行为来自现代的培训方法模型,例如学习强化和编程问题。在培训期间,开发人员可以无意中奖励模型以避免障碍,而不是奖励完全遵循的指令的行为。但是,这仍然无法解释WHYO3(驱动Codex-Mini的模型)倾向于忽略指令,而不是我们尝试的其他模型。 Operai没有详细解释培训过程,因此O3托盘可以假定配置可能会有所不同t。帕利塞德(Palisade)的调查表明,正在进行更多的实验,以更好地了解为什么AI模型破坏了闭合机制,即使它们不是直接指导的,并将启动一份报告,并在几周内记录了详细信息。附加完整的实验记录:https://palisaderearch.github.io/shutdown_avoidance/2025-05-annuncion.html