OpenAIが2つの「オープン」AI推論モデルを発表、5年ぶりのオープンソース回帰

OpenAIがo-seriesと同等の性能を持つオープンウェイトAI推論モデル2種を発表
gpt-oss-120bとgpt-oss-20bの2モデル、Apache 2.0ライセンスで商用利用可能
中国AI企業の台頭とトランプ政権の要請に対応、5年ぶりのオープンソースモデル
コーディング性能でDeepSeek R1を上回るが、幻覚率は既存モデルより高水準

Sam Altman氏が語るオープンソース戦略転換

OpenAIは火曜日、同社のo-シリーズと同様の能力を持つオープンウェイトAI推論モデル2種の発表を行った。両モデルはオンライン開発者プラットフォームのHugging Faceから無料でダウンロード可能で、同社はこれらのモデルをオープンモデル比較のための複数のベンチマークで「最先端」と説明している。

モデルは2つのサイズで提供される。単一のNvidia GPUで動作可能な、より大型で高性能なgpt-oss-120bモデルと、16GBメモリを搭載したコンシューマー向けラップトップで動作可能な軽量版gpt-oss-20bモデルである。

今回の発表は、5年以上前にリリースされたGPT-2以来初となるOpenAIの「オープン」言語モデルとなる。

ブリーフィングでOpenAIは、以前報告したように、オープンモデルがクラウド上のAIモデルに複雑なクエリを送信できると述べた。これは、OpenAIのオープンモデルが画像処理などの特定のタスクに対応できない場合、開発者がオープンモデルを同社のより高性能なクローズドモデルに接続できることを意味する。

CEO Sam Altman氏の戦略転換発言

OpenAIは初期にはAIモデルをオープンソース化していたが、同社は一般的に独占的なクローズドソース開発アプローチを支持してきた。後者の戦略により、OpenAIは企業や開発者にAPI経由でAIモデルへのアクセスを販売する大規模なビジネスの構築に成功している。

しかし、CEO Sam Altman（サム・アルトマン）氏は1月、OpenAIが技術のオープンソース化において「歴史の悪い側にいた」と信じていると述べた。同社は現在、世界で最も高性能で人気のあるオープンモデルをいくつか開発したDeepSeek、AlibabaのQwen、Moonshot AIを含む中国のAI研究所からの圧力の高まりに直面している。（Metaが以前オープンAI分野を支配していたが、同社のLlama AIモデルは昨年遅れをとっている。）

7月には、トランプ政権も米国のAI開発者に対し、アメリカの価値観に沿ったAIの世界的な採用を促進するため、より多くの技術をオープンソース化するよう促した。

gpt-ossのリリースにより、OpenAIは開発者とトランプ政権の両方の支持を得ることを期待している。両者ともオープンソース分野での中国AI研究所の台頭を注視してきた。

「2015年に開始した当初に遡ると、OpenAIの使命は全人類に利益をもたらすAGIを確保することだ」とAltman氏は声明で述べた。「その目的のため、民主的価値観に基づき、すべての人に無料で利用可能で、広範な利益のために、米国で作成されたオープンAIスタックを世界が構築することに興奮している。」

gpt-oss-120bとgpt-oss-20bのベンチマーク性能

OpenAIは、オープンモデルを他のオープンウェイトAIモデルの中でリーダーにすることを目指しており、同社はまさにそれを実現したと主張している。

競技プログラミングテストであるCodeforces（ツール使用）において、gpt-oss-120bとgpt-oss-20bはそれぞれ2622点と2516点を記録し、DeepSeekのR1を上回ったが、o3とo4-miniには及ばなかった。

様々な分野のクラウドソーシング質問による困難なテストであるHumanity’s Last Exam（HLE、ツール使用）において、gpt-oss-120bとgpt-oss-20bはそれぞれ19%と17.3%のスコアを記録した。同様に、これはo3を下回るが、DeepSeekとQwenの主要オープンモデルを上回っている。

高いハルシネーションが課題として浮上

注目すべきは、OpenAIのオープンモデルが同社の最新AI推論モデルであるo3とo4-miniよりもかなり多くハルシネーション（幻覚）を起こすことだ。

OpenAIの最新AI推論モデルでは幻覚がより深刻化OpenAIの新しい推論AIモデル、ハルシネーション（誤情報生成）が多いことが判明しており、同社は以前、その理由を完全に理解していないと述べていた。ホワイトペーパーでOpenAIは、これは「予想されることであり、小型モデルは大型フロンティアモデルよりも世界知識が少なく、より多く幻覚を起こす傾向がある」と述べている。

OpenAIは、gpt-oss-120bとgpt-oss-20bが、人物に関するモデルの知識の正確性を測定する同社の社内ベンチマークであるPersonQAの質問に対して、それぞれ49%と53%で幻覚を起こしたことを発見した。これは16%を記録したOpenAIのo1モデルの幻覚率の3倍以上であり、36%を記録したo4-miniモデルよりも高い。

新モデルの訓練プロセスと技術仕様

OpenAIは、オープンモデルが独占的モデルと同様のプロセスで訓練されたと述べている。同社によると、各オープンモデルは、任意の質問に対してより少ないパラメータを利用するmixture-of-experts（MoE）を活用し、より効率的に動作させている。1170億の総パラメータを持つgpt-oss-120bについて、OpenAIはモデルがトークンあたり51億パラメータのみを活性化すると述べている。

同社はまた、オープンモデルが高計算強化学習（RL）を使用して訓練されたと述べている。これはNvidia GPUの大規模クラスターを使用してシミュレーション環境でAIモデルに正誤を教える後訓練プロセスだ。これはOpenAIのo-seriesモデルの訓練にも使用され、オープンモデルは回答を検討するために追加の時間と計算リソースを要する同様の思考連鎖プロセスを持っている。

後訓練プロセスの結果として、OpenAIはオープンAIモデルがAIエージェントの駆動に優れており、思考連鎖プロセスの一部としてウェブ検索やPythonコード実行などのツールを呼び出すことが可能だと述べている。ただし、OpenAIはオープンモデルがテキストのみであり、同社の他のモデルのように画像や音声を処理または生成することはできないと述べている。

Apache 2.0ライセンスによる商用利用許可

OpenAIは、gpt-oss-120bとgpt-oss-20bを、一般的に最も寛容とされるApache 2.0ライセンスの下でリリースしている。このライセンスにより、企業は同社に支払いや許可を得ることなく、OpenAIのオープンモデルを収益化することが可能になる。

しかし、AI2などのAI研究所による完全オープンソース提供とは異なり、OpenAIはオープンモデルの作成に使用された訓練データを公開しないと述べている。この決定は、OpenAIを含むAIモデルプロバイダーに対する複数の進行中の訴訟が、これらの企業が著作権で保護された作品でAIモデルを不適切に訓練したと申し立てていることを考えると、驚くべきことではない。

安全性への配慮と遅延理由

OpenAIは最近数か月間、部分的に安全性の懸念に対処するため、オープンモデルのリリースを数回遅延させた。同社の典型的な安全ポリシーを超えて、OpenAIはホワイトペーパーで、悪意のある行為者がgpt-ossモデルをサイバー攻撃や生物・化学兵器の作成により役立つように微調整できるかどうかも調査したと述べている。

OpenAIと第三者評価者によるテストの後、同社はgpt-ossが生物学的能力をわずかに向上させる可能性があると述べている。しかし、微調整後でも、これらのオープンモデルがこれらの領域での危険に対する「高能力」閾値に達する証拠は見つからなかった。