Google、最新AIモデルへのアクセスコスト削減を実現する「暗黙のキャッシング」を発表

Google Gemini

  • Googleが最新のGemini APIで「暗黙のキャッシング」機能を導入し、サードパーティ開発者向けに最大75%のコスト削減を実現
  • Gemini 2.5 ProとFlashモデルで利用可能となり、従来の「明示的キャッシング」と比較して自動化されたプロセスを提供
  • 最先端AIモデルの利用コストが増加し続ける中、開発者にとって歓迎すべき機能となる見込み

Googleの暗黙のキャッシング機能がGemini APIで利用可能に

Googleは同社のGemini APIに新機能をロールアウトし、サードパーティ開発者が最新のAIモデルを利用する際のコスト削減を実現すると発表した。

「暗黙のキャッシング(implicit caching)」と呼ばれるこの機能により、Gemini APIを通じてモデルに送られる「繰り返しコンテキスト」のコストを最大75%削減できるという。この機能はGoogleのGemini 2.5 ProおよびGemini 2.5 Flashモデルをサポートしている。

最先端モデルの利用コストが増加し続ける中、開発者にとって朗報となる可能性が高い。

AIにおけるキャッシングの重要性と従来の課題

キャッシングはAI業界で広く採用されている手法で、モデルから頻繁にアクセスされるデータや事前計算されたデータを再利用することで、計算要件とコストを削減する。例えば、キャッシュはユーザーがモデルによく尋ねる質問への回答を保存し、同じリクエストに対して毎回回答を再生成する必要性を排除する。

Googleは以前からモデルプロンプトのキャッシングを提供していたが、それは「明示的な」プロンプトキャッシングのみであり、開発者が最も頻度の高いプロンプトを定義する必要があった。コスト削減は保証されていたものの、明示的プロンプトキャッシングは通常、多くの手作業を伴うものだった。

一部の開発者はGeminiの明示的キャッシング実装の仕様に不満を持ち、予想外に大きなAPI料金が発生すると指摘していた。この不満は先週ピークに達し、Geminiチームが謝罪し、変更を約束する事態となった。

Gemini 2.5モデルにおける暗黙のキャッシングのメカニズム

明示的キャッシングとは対照的に、暗黙のキャッシングは自動的に機能する。Gemini 2.5モデルではデフォルトで有効になっており、GeminiのAPIリクエストがキャッシュにヒットした場合にコスト削減効果をもたらす。

「Gemini 2.5モデルにリクエストを送信する際、そのリクエストが以前のリクエストと共通のプレフィックスを共有している場合、キャッシュヒットの対象となる」とGoogleはブログ記事で説明している。「我々は動的にコスト削減効果をユーザーに還元する」。

Googleの開発者ドキュメントによると、暗黙のキャッシングの最小プロンプトトークン数は、2.5 Flashでは1,024、2.5 Proでは2,048となっており、これはそれほど大きな量ではないため、これらの自動節約を有効にするのに多くを必要としないはずだ。トークンはモデルが処理する生データの単位であり、1,000トークンは約750単語に相当する。

新機能の注意点と今後の展望

Googleによるキャッシングからのコスト削減の最後の主張が問題となったことを考えると、この新機能にはいくつかの注意すべき点がある。まず、Googleは開発者に対し、暗黙的なキャッシュヒットの可能性を高めるために、リクエストの先頭に繰り返しコンテキストを配置することを推奨している。リクエストごとに変更される可能性のあるコンテキストは末尾に追加すべきだと同社は述べている。

さらに、Googleは新しい暗黙のキャッシングシステムが約束された自動節約をもたらすという第三者検証を提供していない。そのため、早期採用者の反応を見守る必要があるだろう。

引用元:TechCrunch
Google launches ‘implicit caching’ to make accessing its latest AI models cheaper

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です