AI思考プロセス監視をテック業界に要求 – OpenAI・Google DeepMind・Anthropic研究者が共同提言

OpenAI・Google DeepMind・Anthropicなど主要AI企業研究者がAI推論モデルの思考プロセス監視強化を求める共同論文を発表
Chain-of-Thought（CoT）監視がAIエージェント制御の核心技術として注目、透明性確保が課題
Nobel賞受賞者Geoffrey Hinton氏ら業界リーダーが署名、AI安全性研究での団結を示す
OpenAI研究者Bowen Baker氏が「数年後にCoT機能が失われる可能性」を警告

主要AI企業研究者がCoT監視強化を求める共同提言

OpenAI、Google DeepMind、Anthropic、および幅広い企業・非営利団体連合のAI研究者らが、AI推論モデルの「思考」と呼ばれるプロセスを監視する技術のより深い調査を求める立場論文を火曜日に発表した。

OpenAIのo3やDeepSeekのR1などのAI推論モデルの重要な特徴は、Chain-of-Thought（CoT：思考の連鎖）である。これは人間が難しい数学問題を解く際にメモ用紙を使用するのと同様に、AIモデルが問題を解決する外部化されたプロセスだ。推論モデルはAIエージェントを駆動する中核技術であり、論文の著者らはCoT監視がAIエージェントがより広範囲で高機能になる中で制御下に置く中核的手法になり得ると論じている。

CoT監視の重要性と透明性への懸念

「CoT監視は最先端AIの安全対策への価値ある追加を提示し、AIエージェントがどのように意思決定を行うかへの稀な洞察を提供する」と研究者らは立場論文で述べた。「しかし、現在の可視性レベルが持続する保証はない。我々は研究コミュニティと最先端AI開発者にCoT監視可能性を最大限活用し、それをどのように保持できるかを研究することを推奨する」

立場論文は主要AIモデル開発者に対し、CoTを「監視可能」にする要因、言い換えればAIモデルが実際にどのように答えに到達するかの透明性を増減させる要因の研究を求めている。論文の著者らはCoT監視がAI推論モデルを理解する重要な手法である可能性があると述べる一方、その手法が脆弱である可能性があり、透明性や信頼性を低下させる可能性のある介入に対して警告している。

業界リーダーによる署名と研究体制強化の要求

論文の著者らはまた、AIモデル開発者にCoT監視可能性の追跡と、この手法をいつの日か安全対策として実装する方法の研究を求めている。

論文の注目すべき署名者には、OpenAI最高研究責任者Mark Chen（マーク・チェン）氏、Safe Superintelligence CEOのIlya Sutskever（イリヤ・サツケヴァー）氏、ノーベル賞受賞者Geoffrey Hinton（ジェフリー・ヒントン）氏、Google DeepMind共同創設者Shane Legg（シェーン・レッグ）氏、xAI安全アドバイザーDan Hendrycks（ダン・ヘンドリクス）氏、Thinking Machines共同創設者John Schulman（ジョン・シュルマン）氏が含まれる。筆頭著者には英国AI Security InstituteとApollo Researchのリーダーが含まれ、その他の署名者はMETR、Amazon、Meta、UC Berkeleyから参加している。

AI安全性研究での業界団結の象徴

この論文はAI安全性に関する研究を押し上げる試みにおけるAI業界リーダーの多くの団結の瞬間を示している。これは、MetaがOpenAI、Google DeepMind、Anthropicから数百万ドルの条件でトップ研究者を引き抜くという激しい競争にテック企業が巻き込まれている時期に発表された。最も引く手あまたの研究者の一部は、AIエージェントとAI推論モデルを構築している者たちである。

「我々はこの新しいChain-of-Thingの重要な時期にいる。それは非常に有用に見えるが、人々が本当にそれに集中しなければ数年後には消え去る可能性がある」と、論文に取り組んだOpenAI研究者Bowen Baker（ボーウェン・ベーカー）氏はインタビューで述べた。「このような立場論文の公表は、私にとって、それが起こる前にこの話題により多くの研究と注目を集めるメカニズムだ」

OpenAI o1モデルと競合他社の展開

OpenAIは2024年9月に最初のAI推論モデルo1のプレビューを公開した。その後数か月で、テック業界は類似の能力を示す競合モデルを迅速にリリースし、Google DeepMind、xAI、Anthropicの一部モデルはベンチマークでさらに高度な性能を示している。

しかし、AI推論モデルがどのように機能するかについて理解されていることは比較的少ない。AI研究所は昨年AIの性能向上に優れた成果を上げたが、それがモデルがどのように答えに到達するかのより良い理解に必ずしも結びついていない。

Anthropic CEOの2027年ブラックボックス解明宣言

AnthropicはAIモデルが実際にどのように機能するかを解明する分野、すなわち解釈可能性において業界のリーダーの一社である。今年初め、CEO Dario Amodei（ダリオ・アモディ）氏は2027年までにAIモデルのブラックボックスを解明し、解釈可能性により多く投資するというコミットメントを発表した。同氏はOpenAIとGoogle DeepMindにもこの話題をより研究するよう求めた。

Anthropicからの初期研究は、CoTがこれらのモデルが答えに到達する方法の完全に信頼できる指標ではない可能性があることを示している。同時に、OpenAI研究者らはCoT監視がいつの日かAIモデルの整合性と安全性を追跡する信頼できる方法になる可能性があると述べている。