AIコーディングツール、驚きの場所へ：ターミナルへの移行が示す開発の未来

AIを活用したソフトウェア開発において、AIコーディングツールが従来のコードエディタからターミナルへの移行を進めている。
この変化は、エージェントAIの能力向上と「Vibe Coding」の普及が背景にあるとされ、開発プロセスに大きな影響を与える可能性を秘める。
Anthropic、DeepMind、OpenAIといった主要なAIラボがすでにコマンドラインベースのコーディングツールをリリースしており、これらは高い人気を博している。
ターミナルベースのツールは、コードの記述だけでなく、DevOps関連のタスクやシステム環境全体の問題解決にも対応し、開発者の非コーディング作業を効率化する可能性がある。

AIコーディングツールの新たな動向：ターミナルへのシフト

長年にわたり、Cursor、Windsurf、GitHubのCopilotといったコード編集ツールが、AIを活用したソフトウェア開発の標準であった。しかし、エージェントAIがより強力になり、「Vibe Coding」が普及するにつれて、AIシステムがソフトウェアと対話する方法に微妙な変化が生じている。AIはコード上で作業するのではなく、インストールされているシステムのシェルと直接やり取りすることが増えているのだ。これはAIを活用したソフトウェア開発の進め方において重要な変化であり、目立たないながらも、この分野の今後の方向性に大きな影響を与える可能性がある。

ターミナルは、90年代のハッカー映画に出てくる白黒画面でよく知られているように、プログラムを実行したりデータを操作したりする非常に昔ながらの方法である。現代のコードエディタほど視覚的に印象的ではないが、使い方を理解すれば極めて強力なインターフェースだ。コードベースのエージェントがコードを記述し、デバッグできる一方で、ソフトウェアを記述されたコードから実際に使用できるものにするには、ターミナルツールが必要となることが多い。

主要AIラボの参入とターミナルツールの台頭

このターミナルへのシフトが最も明確に示されたのは、主要なAIラボからである。2月以降、Anthropic、DeepMind、OpenAIのすべてがコマンドラインベースのコーディングツール（それぞれClaude Code、Gemini CLI、CLI Codex）をリリースしており、これらはすでに各社の最も人気のある製品の一つとなっている。これらのツールは以前のコーディングツールと同じブランド名で運用されているため、この変化は見過ごされがちであった。しかし、その裏側では、エージェントがオンラインとオフラインの両方で他のコンピューターとどのように対話するかに実際の変化が生じている。これらの変化は始まったばかりだと考える者もいる。

主要なターミナル重視ベンチマークである「Terminal-Bench」の共同制作者であるマイク・メリル氏（Mike Merrill）は、「我々の大きな賭けは、LLMとコンピューターのインタラクションの95%がターミナルのようなインターフェースを介して行われる未来があるということだ」と述べる。

ターミナルベースのツールは、主要なコードベースのツールが不安定になり始めた時期に登場している。AIコードエディタのWindsurfは、Googleによる幹部の引き抜きと、残りの会社のCognitionによる買収という、相次ぐ買収によって引き裂かれ、コンシューマー製品の長期的な将来は不確実なものとなっている。

同時に、新しい研究は、プログラマーが従来のツールによる生産性向上を過大評価している可能性を示唆している。Windsurfの主要な競合であるCursor ProをテストしたMETRの調査では、開発者はタスクを20〜30%早く完了できると見積もったものの、実際に観察されたプロセスは20%近く遅かった。要するに、コードアシスタントは実際にはプログラマーの時間を奪っていたのである。

これにより、現在TerminalBenchでトップの座を占めるWarpのような企業に機会が生まれた。Warpは自社を「エージェント開発環境」と位置づけ、IDEプログラムとClaude Codeのようなコマンドラインツールの間の位置づけにある。しかし、Warpの創設者であるザック・ロイド氏（Zach Lloyd）は、Cursorのようなコードエディタでは範囲外となる問題を解決する方法として、ターミナルに対して依然として強気な姿勢を示している。

「ターミナルは開発者スタックの非常に低レベルを占めているため、エージェントを実行するのに最も多用途な場所だ」とロイド氏は語る。

ターミナルツールの新たなアプローチと今後の可能性

新しいアプローチがどのように異なるかを理解するためには、それらを測定するために使用されるベンチマークを見るのが役立つだろう。コードベースの生成ツールの世代は、SWE-Benchテストの基礎となるGitHubの課題解決に焦点を当てていた。SWE-Benchの各問題はGitHubのオープンな課題、つまり動作しないコードの一部である。モデルは動作するコードを見つけるまでコードを繰り返し修正し、問題を解決する。Cursorのような統合製品は、この問題に対してより洗練されたアプローチを構築してきたが、GitHub/SWE-Benchモデルは、これらのツールが問題に取り組む方法の核であり続けている。つまり、壊れたコードから始めて、動作するコードに変えるというものだ。

ターミナルベースのツールは、コードだけでなく、プログラムが実行される環境全体を視野に入れ、より広い視点を持つ。これにはコーディングも含まれるが、Gitサーバーの構成やスクリプトが実行されない理由のトラブルシューティングといった、よりDevOps指向のタスクも含まれる。あるTerminalBenchの問題では、エージェントに解凍プログラムとターゲットテキストファイルが与えられ、対応する圧縮アルゴリズムをリバースエンジニアリングするよう挑戦する。また別の問題では、エージェントにLinuxカーネルをソースからビルドするよう求められるが、エージェントがソースコード自体をダウンロードする必要があることは言及されていない。これらの問題を解決するには、プログラマーが必要とするような、強固な問題解決能力が必要だ。

「TerminalBenchを難しくしているのは、エージェントに与える質問だけではない」とTerminal-Benchの共同制作者であるアレックス・ショウ氏（Alex Shaw）は語る。「我々が彼らを置いている環境なのだ。」

重要なことに、この新しいアプローチは問題を段階的に解決することを意味する。これは、エージェントAIを非常に強力にするのと同じスキルである。しかし、最先端のエージェントモデルでさえ、すべての環境を処理できるわけではない。WarpはTerminalBenchで、問題の半分強を解決して高得点を獲得した。これはベンチマークがいかに難しいか、そしてターミナルの潜在能力を最大限に引き出すために、いかに多くの作業がまだ必要かを示すものだ。

それでも、ロイド氏は、ターミナルベースのツールが開発者の非コーディング作業の大部分を確実に処理できる段階にすでに達していると考えている。これは無視できない価値提案である。

「新しいプロジェクトのセットアップ、依存関係の特定、実行可能にするための日常業務を考えると、Warpはそれらをほぼ自律的に実行できる」とロイド氏は述べる。「そして、それができない場合は、その理由を教えてくれるだろう。」

引用元:TechCrunch
AI coding tools are shifting to a surprising place: the terminal