OpenAI自曝“o4”训练中用思维链监控抓住AI作弊瞬间

  在这个案例中,推理模型接到的任务是写很多复杂的数学函数,但在单元测试环节试图用“永远返回true”来作弊,成功被捕捉到。

  OpenAI发现这种思维链监控(CoT monitoring)方法,比只看模型的最终输出和行为效果要好得多。im电竞

  如果在训练时对模型施加太大的优化压力,迫使其生成看似无害的思维链,反而可能诱导模型隐藏其真实意图,变得更难监控。

  在研究中,OpenAI使用的是一个“与o1或o3-mini”同类的模型,引起了大伙注意。

OpenAI自曝“o4”训练中用思维链监控抓住AI作弊瞬间(图1)

  人类善于发现和利用漏洞在餐厅谎报生日获得免费赠品,或者违反服务条款与其他人共享付费网络服务账号。

  而在强化学习中,设计一个不会无意中激励不良行为的奖励函数非常困难,就造成了AI的奖励黑客(Reward Hacking)现象。

  也就是AI模型会利用目标设定的缺陷或不精确性,去最大化奖励分数,却并非真的完成任务。

  捕捉奖励黑客非常困难,通常需要人类手动监控智能体的的行为。例如,人类手动审查10,000 多行复杂代码是不切实际的(甚至是不可能的)

  但使用思维链的推理模型开启了一种新途径,im电竞因为推理模型通常会在思路链中非常清楚地陈述其意图。例如经常直言不讳地表示自己要“Let’s hack”。

  只监控推理模型行为在复杂任务上很难发现不良行为,im电竞比如再10000行代码中植入了一个bug。

  实验发现,如果惩罚压力不大,用思维链监控确实能提高模型能力,且不会增加奖励黑客行为。

  但随着训练加深,模型学会了在思维链中隐藏其真实意图,既避开了监控,同时还在悄悄作弊。

  但好在即使监控模型比推理模型弱很多,也能有效识别不良意图,比如用GPT-4o就可以监控正在训练的最新推理模型。