AIモデルはソフトウェアデバッグに苦戦、Microsoftの研究が明らかに

MicrosoftのR&D部門による研究で、最先端AIモデルがソフトウェアバグ修正に苦戦している実態が判明
Anthropicの「Claude 3.7 Sonnet」でも成功率は48.4%にとどまり、OpenAIのモデルはさらに低い数値
データ不足と適切なデバッグツール活用能力の欠如が主な課題
テック業界リーダーたちはAIによるプログラマー職の完全自動化に対して懐疑的な見方を示す

大手テック企業が推進するAIコーディング

OpenAI、Anthropicなど主要AIラボのモデルがプログラミング作業の支援に活用される事例が増加している。Google CEOのスンダー・ピチャイ(Sundar Pichai)氏は昨年10月、同社の新規コードの25%がAIによって生成されていると述べ、MetaのCEOマーク・ザッカーバーグ(Mark Zuckerberg)氏もソーシャルメディア大手内でAIコーディングモデルを広く展開する野望を表明している。

しかし、現在最高とされるモデルでさえ、経験豊富な開発者なら躓かないようなソフトウェアバグの解決に苦戦している実態がある。

Microsoft Researchの調査結果

MicrosoftのR&D部門であるMicrosoft Researchの新しい研究によれば、AnthropicのClaude 3.7 SonnetやOpenAIのo3-miniを含むモデルは、「SWE-bench Lite」と呼ばれるソフトウェア開発ベンチマークの多くの問題をデバッグできないことが明らかになった。この結果は、OpenAIのような企業からの大胆な宣言にもかかわらず、AIがコーディングなどの分野で人間の専門家に及ばないという厳しい現実を思い出させるものだ。

この研究の共著者たちは、Pythonデバッガーを含む複数のデバッグツールにアクセスできる「単一プロンプトベースのエージェント」のバックボーンとして9つの異なるモデルをテストした。このエージェントにSWE-bench Liteから厳選された300のソフトウェアデバッグタスクの解決を課した。

AIモデルのデバッグ性能

共著者らによると、より強力で最新のモデルを装備しても、彼らのエージェントは半分以上のデバッグタスクを成功裏に完了することはほとんどなかった。Claude 3.7 Sonnetが最も高い平均成功率（48.4%）を記録し、次いでOpenAIのo1（30.2%）、o3-mini（22.1%）が続いた。

低パフォーマンスの要因分析

なぜこのような物足りない性能なのか。一部のモデルは、利用可能なデバッグツールの使用に苦戦し、異なるツールがどのように異なる問題に役立つかを理解するのが難しかった。しかし、共著者らによれば、より大きな問題はデータの不足だという。彼らは、現在のモデルのトレーニングデータには「連続的な意思決定プロセス」—つまり、人間によるデバッグの痕跡—を表すデータが十分にないと推測している。

「[モデルの]トレーニングやファインチューニングによって、より優れたインタラクティブデバッガーになると強く信じている」と共著者らは研究で述べている。「しかし、そのようなモデルトレーニングを満たすには特殊なデータが必要だ。例えば、バグ修正を提案する前に必要な情報を収集するためにデバッガーとやり取りするエージェントの軌跡データが必要になるだろう」。

AIコード生成の既知の課題

この結果は特に驚くべきものではない。多くの研究が、コード生成AIはプログラミングロジックを理解する能力などの分野における弱点により、セキュリティの脆弱性やエラーを導入する傾向があることを示している。人気のAIコーディングツール「Devin」の最近の評価では、20のプログラミングテストのうち3つしか完了できなかったことがわかった。

しかし、このMicrosoftの研究は、モデルにおける持続的な問題領域に関する、これまでで最も詳細な調査の一つだ。この結果は、AI駆動の支援コーディングツールに対する投資家の熱意を冷ますことはないだろうが、うまくいけば、開発者—そしてその上司たち—にAIにコーディング作業を任せることについて再考させるだろう。

プログラミング職の将来性

参考までに、AIがプログラミングの仕事を自動化するという考えに異議を唱えるテック業界のリーダーが増えている。Microsoft共同創業者のビル・ゲイツ(Bill Gates)氏は、プログラミングという職業は存続すると考えていると述べている。ReplitのCEOアムジャド・マサド(Amjad Masad)氏、OktaのCEOトッド・マッキノン(Todd McKinnon)氏、IBMのCEOアービンド・クリシュナ(Arvind Krishna)氏も同様の見解を示している。

引用元：TechCrunch
AI models still struggle to debug software, Microsoft study shows