新たな難関AGIテスト、ほとんどのAIモデルを困惑させる

著名なAI研究者François Cholletが共同設立したArc Prize Foundationが新たな難関AIテスト「ARC-AGI-2」を発表
OpenAIのo1-proやDeepSeekのR1などの「推論」AIモデルでも正解率はわずか1〜1.3%程度
人間のパネルは平均60%の正解率を達成し、全AIモデルを大きく上回る結果に

Arc Prize Foundationが新たなAI知能評価テストを発表

著名なAI研究者François Chollet（フランソワ・ショレ）氏が共同設立した非営利団体Arc Prize Foundationが月曜日のブログ投稿で、主要AIモデルの汎用知能を測定するための新たな難関テストを作成したと発表した。

これまでのところ、「ARC-AGI-2」と名付けられたこの新テストは、ほとんどのモデルを困惑させている。

AIモデルのARC-AGI-2テスト結果

Arc Prizeのリーダーボードによると、OpenAIの「o1-pro」やDeepSeekの「R1」などの「推論」AIモデルは、ARC-AGI-2テストで1%から1.3%のスコアを記録している。GPT-4.5、Claude 3.7 Sonnet、Gemini 2.0 Flashを含む強力な非推論モデルも、約1%のスコアにとどまっている。

ARC-AGIテストは、AIが異なる色の四角形のコレクションから視覚的なパターンを識別し、正しい「回答」グリッドを生成するパズルのような問題で構成されている。これらの問題は、AIが以前見たことのない新しい問題に適応することを強制するように設計されている。

Arc Prize Foundationは、人間のベースラインを確立するために400人以上にARC-AGI-2テストを受けさせた。平均して、これらの人々の「パネル」はテストの問題の60%を正解した。これは、どのモデルのスコアよりもはるかに優れている。

Chollet氏によるARC-AGI-2の特徴

X（旧Twitter）への投稿で、Chollet氏はARC-AGI-2がテストの最初のバージョンであるARC-AGI-1よりもAIモデルの実際の知能をより適切に測定すると主張している。Arc Prize Foundationのテストは、AIシステムがトレーニングされたデータ以外の新しいスキルを効率的に習得できるかどうかを評価することを目的としている。

Chollet氏によれば、ARC-AGI-1とは異なり、新しいテストではAIモデルが「総当たり」、つまり大規模な計算能力に頼って解決策を見つけることを防いでいる。Chollet氏は以前、これがARC-AGI-1の主要な欠陥であることを認めていた。

Today, we’re releasing ARC-AGI-2. It’s an AI benchmark designed to measure general fluid intelligence, not memorized skills – a set of never-seen-before tasks that humans find easy, but current AI struggles with.

It keeps the same format as ARC-AGI-1, while significantly… pic.twitter.com/9mDyu48znp

— François Chollet (@fchollet) March 24, 2025

ARC-AGI-2テストの改良点

最初のテストの欠陥に対処するため、ARC-AGI-2は効率性という新しい指標を導入している。また、記憶に頼るのではなく、パターンをその場で解釈することをモデルに要求している。

「知能は、問題を解決したり高いスコアを達成したりする能力だけでは定義されません」とArc Prize Foundationの共同創設者Greg Kamradt（グレッグ・カムラット）氏はブログ投稿で述べている。「それらの能力が獲得され展開される効率性は、重要な定義要素です。核心的な問いは、『AIがタスクを解決するスキルを習得できるか？』だけでなく、『どのような効率性やコストで？』でもあるのです。」

ARC-AGI-1からの進化と現状

ARC-AGI-1は2024年12月までの約5年間無敵だったが、OpenAIが高度な推論モデル「o3」をリリースし、他のすべてのAIモデルを上回り、この評価で人間のパフォーマンスに匹敵した。しかし、当時指摘されたように、o3のARC-AGI-1でのパフォーマンス向上には高額なコストが伴っていた。

ARC-AGI-1で初めて新たな高みに達したOpenAIのo3モデルのバージョン「o3 (low)」は、テストで75.7%のスコアを記録したが、タスクあたり200ドル（約29,000円）の計算能力を使用してもARC-AGI-2ではわずか4%のスコアにとどまった。

業界の反応と今後の展望

ARC-AGI-2の登場は、テック業界の多くが、AI進歩を測定するための新しい未飽和のベンチマークを求めている時期に一致している。Hugging Faceの共同創設者Thomas Wolf（トーマス・ウルフ）氏は最近、AI産業には創造性を含む人工汎用知能の主要特性を測定するための十分なテストが不足していると語った。

新しいベンチマークとともに、Arc Prize Foundationは新たな「Arc Prize 2025」コンテストを発表し、タスクあたり0.42ドル（約61円）のコストで、ARC-AGI-2テストで85%の精度に達することを開発者に挑戦している。

引用元：TechCrunch
A new, challenging AGI test stumps most AI models