OpenAI、新推論モデル「o3」を発表 – AGIへの挑戦

OpenAIが新しい推論モデル「o3」および「o3-mini」を発表
AGI（汎用人工知能）に接近している可能性を示唆
推論モデルの新たな特徴として「deliberative alignment」を導入
複数のベンチマークテストで従来モデルを大幅に上回る性能

o3モデルの概要

OpenAIは12日間の「shipmas」イベントの最終日に、o1の後継となる推論モデル「o3」を発表した。o3はモデルファミリーとして、標準モデルのo3と、特定タスク向けに調整された小型モデルo3-miniで構成される。

OpenAIは、o3が少なくとも特定の条件下ではAGI（汎用人工知能）に接近するという主張をしている。ARC-AGIベンチマークテストでは、高性能設定において87.5%のスコアを達成。これは、新しいスキルを効率的に習得する能力を示唆するものとして注目されている。

o3, our latest reasoning model, is a breakthrough, with a step function improvement on our hardest benchmarks. we are starting safety testing & red teaming now. https://t.co/4XlK1iHxFK

— Greg Brockman (@gdb) December 20, 2024

o3の技術的革新：推論プロセス

o3の特徴的な機能として、「deliberative alignment」と呼ばれる新技術を導入。モデルは応答前に自己事実確認を行い、「private chain of thought（プライベートな思考の連鎖）」と呼ばれる内部推論プロセスを通じて、より信頼性の高い回答を生成する。推論時間を低、中、高の3段階で調整可能で、計算リソースに応じて性能を最適化できる。

卓越した性能

o3は複数のベンチマークテストで驚異的な成績を収めている。プログラミングタスクのSWE-Bench Verifiedでは前モデルを22.8ポイント上回り、アメリカ数学入試では96.7%のスコアを達成。コーディング能力を測るCodeforcesでは2727のレーティングを記録し、99.2パーセンタイルのエンジニアに匹敵する性能を示した。