- Gemma 3nは2GB未満のRAMでスマートフォン、ラップトップ、タブレットで動作可能
- 音声、テキスト、画像、動画の処理に対応したマルチモーダルAIモデル
- MedGemmaとSignGemmaの2つの専門特化モデルも同時発表
- オフライン動作によりプライバシー保護とコスト削減を実現
Googleの「オープン」AIモデルファミリーであるGemmaが拡大している。火曜日のGoogle I/O 2025で、Googleはスマートフォン、ラップトップ、タブレットで「スムーズに」動作するよう設計されたモデルGemma 3nを発表した。火曜日からプレビューで利用可能なGemma 3nは、Googleによると音声、テキスト、画像、動画を処理できる。
Gemma 3n低RAM要件でデバイス内AI処理を実現
オフラインで動作し、クラウドでのコンピューティングを必要としない効率的なモデルは、近年AIコミュニティで勢いを増している。大規模モデルより使用コストが安いだけでなく、リモートデータセンターへのデータ転送の必要性を排除することでプライバシーを保護する。
I/Oでの基調講演で、GemmaプロダクトマネージャーのGus Martins(ガス・マーティンス)氏は、Gemma 3nが2GB未満のRAMを持つデバイスで動作できると述べた。「Gemma 3nはGemini Nanoと同じアーキテクチャを共有し、驚異的なパフォーマンスのために設計されている」と同氏は付け加えた。
MedGemma医療分野特化のマルチモーダルAI
Gemma 3nに加えて、GoogleはHealth AI Developer Foundationsプログラムを通じてMedGemmaをリリースしている。同社によると、MedGemmaは健康関連のテキストと画像を分析するための最も有能なオープンモデルである。
「MedGemmaは、マルチモーダルな(健康)テキストと画像理解のためのオープンモデルコレクションだ」とMartins氏は述べた。「MedGemmaは様々な画像とテキストアプリケーションで優れた動作をするため、開発者がこれらのモデルを独自の健康アプリに適応させることができる」
SignGemma手話翻訳AI技術の革新
また、手話を音声言語テキストに翻訳するオープンモデルSignGemmaも控えている。GoogleはSignGemmaにより、開発者が聴覚障害者や難聴ユーザー向けの新しいアプリと統合機能を作成できるようになると述べている。
「SignGemmaは手話を音声言語テキストに翻訳するよう訓練された新しいモデルファミリーだが、アメリカ手話と英語で最も優れている」とMartins氏は述べた。「これまでで最も有能な手話理解モデルであり、開発者と聴覚障害・難聴コミュニティの皆さんがこの基盤を取って構築することを楽しみにしている」
Gemmaライセンス条項の商用利用への影響
注目すべきは、Gemmaがカスタムで非標準のライセンス条項で批判されていることだ。一部の開発者によると、これらの条項によりモデルの商用利用がリスクの高い提案となっているという。しかし、それでも開発者がGemmaモデルを集合的に数千万回ダウンロードすることを阻止していない。
引用元:TechCrunch
The latest Google Gemma AI model can run on phones