- Android画面読み上げ機能「TalkBack」にGeminiが統合され、画像や画面内容について質問が可能に
- リアルタイム字幕機能「Expressive Captions」が更新され、言葉の伸ばし方や特定の音を表現できるように
- ChromeでスキャンされたPDFの自動認識機能を導入し、スクリーンリーダーでの読み取りが可能に
GoogleのTalkBackにGemini統合、視覚障害者向け画像理解機能を強化
Googleは木曜日、AndroidとChromeに新しいAIとアクセシビリティ機能を展開すると発表した。最も注目すべき点は、Androidの画面読み上げ機能であるTalkBackが、画像内の内容や画面に表示されている内容についてGeminiに質問できるようになったことだ。
昨年、GoogleはTalkBackにGeminiの機能を組み込み、視覚障害者や弱視者がAlt textが利用できない場合でもAIが生成した画像の説明にアクセスできるようにした。現在、ユーザーは画像について質問し、回答を得ることが可能になった。
TalkBackの実用例:写真の詳細情報やアプリ内コンテンツに質問可能
例えば、友人が新しいギターの写真をテキストで送ってきた場合、その説明を得て、ブランドや色について質問することができる。さらに、現在はスマートフォンの画面全体についての説明を取得し、質問することも可能だ。そのため、アプリでショッピングをしている場合、関心のある商品の素材や割引が利用可能かどうかについてGeminiに質問できる。
Expressive Captionsアップデート:言葉の伸ばし方や特定の音を表現
Googleはまた、AIを使用して誰かが言ったことやその言い方をキャプチャするAndroidのリアルタイムキャプション機能であるExpressive Captionsを更新することも発表した。
Googleによると、人々が自分自身を表現する方法の一つに言葉の音を引き伸ばすことがあることを認識しており、そのためExpressive Captionsに新しい継続時間機能を開発したという。今後、スポーツアナウンサーが「amaaazing shot(すごいショット)」と叫んでいるのか、あるいは誰かが単に「no(いいえ)」ではなく「nooooo(いやだ)」と言っているのかがわかるようになる。また、人が口笛を吹いたり、喉を鳴らしたりしているときなど、音に関する新しいラベルも表示されるようになる。
このアップデートは、Android 15以上を実行しているデバイス向けに、米国、英国、カナダ、オーストラリアで英語で展開される。
ChromeでPDFアクセスを容易に:OCR技術で自動認識機能を導入
GoogleはまたChromeでのPDFへのアクセスを容易にしている。これまでは、デスクトップのChromeブラウザでスキャンされたPDFとスクリーンリーダーを使用して操作することはできなかった。現在、Chromeはこれらの種類のPDFを自動的に認識し、他のページと同様にテキストをハイライト、コピー、検索したり、スクリーンリーダーを使用して読み上げたりすることができる。これは光学式文字認識(OCR)の導入によるものだとGoogleは述べている。
Android版Chromeのページズーム機能が向上:レイアウトを保持したままテキスト拡大が可能に
さらに、Android版ChromeのページズームでWebページレイアウトに影響を与えることなくテキストサイズを拡大できるようになった。ズームインの量をカスタマイズし、訪問するすべてのページに設定を適用するか、特定のページだけに適用するかを選択できる。この機能は、Chromeの右上隅にある3点メニューをタップしてアクセスできる。
引用元:TechCrunch
Google rolls out new AI and accessibility features to Android and Chrome