AIコーディングツールが全開発者の作業速度向上に寄与しない可能性を研究が示唆

METR研究グループが16名の経験豊富な開発者を対象にAIコーディングツールの効果を検証
開発者は作業時間24%短縮を予測したが、実際は19%増加する結果に
CursorやGitHub CopilotなどのAIツールが必ずしも生産性向上に繋がらない実態が判明
大規模で複雑なコードベースでのAI活用に課題があることが明らかに

CursorやGitHub Copilotの普及とソフトウェア開発現場の変化

ソフトウェアエンジニアのワークフローは近年、CursorやGitHub Copilot、Windsurfなどの大量のAIコーディングツールの流入によって変革されている。これらのツールは、コード行の自動記述、バグ修正、変更テストにより生産性を向上させることを約束している。これらのツールは、近年ソフトウェアエンジニアリングテストの幅広い分野で急速に性能を向上させているOpenAI、Google DeepMind、Anthropic、xAIのAIモデルによって駆動されている。

しかし、非営利AI研究グループMETRが木曜日に発表した新しい研究は、今日のAIコーディングツールが経験豊富な開発者の生産性をどの程度向上させるかという点に疑問を投げかけている。

METR研究グループによる無作為化比較試験の実施

METRはこの研究のために無作為化比較試験を実施し、16名の経験豊富なオープンソース開発者を募集し、彼らが定期的に貢献している大規模なコードリポジトリで246の実際のタスクを完了させた。研究者らは、これらのタスクの約半分を「AI使用許可」として無作為に割り当て、開発者にCursor Proなどの最先端AIコーディングツールの使用許可を与える一方、残りの半分のタスクではAIツールの使用を禁止した。

割り当てられたタスクを完了する前に、開発者らはAIコーディングツールの使用により完了時間が24%短縮されると予測した。しかし、実際はそうではなかった。

「驚くべきことに、AIの使用許可が実際に完了時間を19%増加させることが判明した。開発者はAIツールを使用する際に作業が遅くなる」と研究者らは述べた。

Cursor使用経験と開発者の習熟度問題

注目すべきは、研究に参加した開発者の56%のみが、研究で提供された主要AIツールであるCursorの使用経験を持っていたことである。ほぼすべての開発者（94%）がコーディングワークフローで何らかのウェブベースLLMを使用した経験があったものの、この研究は一部の開発者にとってCursorを具体的に使用する初めての機会であった。研究者らは、開発者が研究準備でCursorの使用についてトレーニングを受けたことを記している。

それにもかかわらず、METRの発見は、2025年にAIコーディングツールが約束する普遍的な生産性向上について疑問を提起している。この研究に基づくと、開発者は「vibe coders」として知られるようになったAIコーディングツールが即座にワークフローを高速化すると仮定すべきではない。

AI活用で作業速度低下の要因分析

METR研究者らは、AIが開発者を高速化するのではなく遅くした潜在的な理由をいくつか指摘している。開発者は実際にコーディングするよりも、vibe codersを使用する際にAIにプロンプトを送信し、応答を待つのにはるかに多くの時間を費やしている。また、AIは大規模で複雑なコードベースで苦戦する傾向があり、このテストではそのようなコードベースが使用された。

研究の著者らは、これらの発見から強い結論を導き出すことに慎重であり、現在のAIシステムが多くの、または大部分のソフトウェア開発者の作業を高速化できないとは考えていないと明確に述べている。他の大規模研究では、AIコーディングツールがソフトウェアエンジニアワークフローを実際に高速化することが示されている。

AI技術の急速な進歩と今後の展望

著者らはまた、近年のAI進歩が著しく、3か月後でも同じ結果は期待できないと指摘している。METRは、AIコーディングツールが近年、複雑で長期間にわたるタスクを完了する能力を大幅に向上させていることも発見している。

しかし、この研究はAIコーディングツールの約束された利得に懐疑的になるもう一つの理由を提供している。他の研究では、今日のAIコーディングツールが間違いを導入し、場合によってはセキュリティ脆弱性を引き起こす可能性があることが示されている。

大規模研究との比較と業界への示唆

この研究結果は、AIコーディングツールの効果について業界内で議論が分かれていることを示している。一部の大規模研究では生産性向上が確認されている一方で、今回のMETRの研究では逆の結果が得られた。これは、AIツールの効果が使用環境や開発者の経験レベル、タスクの複雑さなどによって大きく左右される可能性を示唆している。

特に、複雑なコードベースでの作業や、開発者のAIツールに対する習熟度が重要な要素となることが明らかになった。企業がAIコーディングツールを導入する際は、これらの要因を考慮した段階的な導入と十分なトレーニングが必要であることを示している。

引用元：TechCrunch
AI coding tools may not speed up every developer, study shows