OpenAI、安全性ポリシーについて「考える」ようにo1とo3モデルを訓練

OpenAIが新たなAI推論モデル「o3」を発表し、既存のo1を上回る性能を実現。
「審議的アライメント」と呼ばれる新しい安全性訓練手法を導入。
安全性ポリシーに基づく内部での「思考プロセス」により、より適切な回答が可能に。
人間が作成したデータを使用せず、AI生成の合成データで訓練を実施。

OpenAIによる新型推論モデルの発表

OpenAIは2024年12月20日、新しいAI推論モデルファミリー「o3」を発表した。同社によれば、このモデルはo1や同社が過去にリリースした他のモデルを上回る性能を持つという。これらの改善は、テスト時の計算能力のスケーリングによって実現されたものだが、OpenAIはo系列モデルの訓練に新しい安全性パラダイムを採用したことも明らかにした。

deliberative alignmentによる安全性の確保

同社は「deliberative alignment（審議的アライメント）」に関する新たな研究を公開し、AI推論モデルが開発者の価値観と整合性を保つための最新手法を説明した。この手法により、o1とo3は、ユーザーが入力を確定した後の推論フェーズにおいて、OpenAIの安全性ポリシーについて「思考」を行うよう設計された。

研究によれば、この手法によってo1の安全性ポリシーへの全体的な整合性が向上したという。具体的には、OpenAIが「安全でない」と判断した質問への回答率が減少し、一般的な質問への回答能力が向上した。

OpenAI

AIモデルの動作メカニズム

o1とo3の基本的な動作は以下の通りだ。ユーザーがChatGPTでプロンプトを入力すると、推論モデルは5秒から数分かけて、自身に対してフォローアップの質問を行う。モデルは問題をより小さなステップに分解する。OpenAIが「chain-of-thought（思考の連鎖）」と呼ぶこのプロセスの後、o系列モデルは生成した情報に基づいて回答を提供する。