Amazon、新AI音声モデル「Nova Sonic」を発表

Amazon Alexa

  • Amazonが音声を自然に処理・生成できる新AIモデル「Nova Sonic」を公開
  • OpenAIやGoogleの最先端音声モデルと同等の性能を持つと主張
  • 既にAlexa+の一部機能を支えており、開発者向けプラットフォーム「Bedrock」で利用可能に

Amazonが次世代AI音声モデルを投入

火曜日、Amazonは音声をネイティブに処理し、自然な音声を生成できる新たな生成AIモデル「Nova Sonic」を発表した。Amazonによれば、Sonicの性能は速度、音声認識、会話の質を測定するベンチマークにおいて、OpenAIやGoogleの最先端音声モデルと競争力があるとしている。

ChatGPTの音声モードに対抗

Nova SonicはChatGPTの音声モードを支えるモデルなど、より新しいAI音声モデルへのAmazonの回答だ。これらは初期のAmazon Alexaよりも自然に会話できると感じられる。最近の技術的ブレークスルーにより、AlexaやAppleのSiriなどのレガシーモデルとそれを支える音声アシスタントは、比較するとかなり不自然に感じられるようになっている。

Bedrockを通じた開発者向け提供

Nova Sonicは企業向けAIアプリケーション構築用のAmazonの開発者プラットフォーム「Bedrock」を通じて、新しい双方向ストリーミングAPIにより利用可能だ。プレスリリースでAmazonは、Nova Sonicは市場で「最もコスト効率の良い」AI音声モデルであり、OpenAIのGPT-4oよりも約80%安価だと述べている。

既にAlexa+の一部を担当

AmazonのSVP兼AGI主任研究員であるRohit Prasad(ロヒト・プラサド)氏によると、Nova Sonicの構成要素はすでにAmazonのアップグレードされたデジタル音声アシスタント「Alexa+」の一部を支えているという。

インタビューで、Prasad氏はTechCrunchに対し、Nova SonicはAlexaを構成する技術的な足場である「大規模オーケストレーションシステム」におけるAmazonの専門知識を基にしていると語った。競合するAI音声モデルと比較して、Nova Sonicはユーザーのリクエストを異なるAPIに振り分ける能力に優れているとPrasad氏は述べた。この能力により、Nova Sonicはインターネットからリアルタイム情報を取得する必要がある場合や、独自のデータソースを解析する場合、または外部アプリケーションで操作を行う場合を「知り」、適切なツールを使用できるようになる。

自然な対話能力

双方向の対話中、Nova Sonicは話者の一時停止や中断を考慮して「適切なタイミング」で発話を待つとAmazonは述べている。また、ユーザーの発話のテキスト文字起こしを生成し、開発者はこれをさまざまなアプリケーションに使用できる。

高精度な音声認識

Prasad氏によると、Nova Sonicは他のAI音声モデルよりも音声認識エラーが少なく、ユーザーがつぶやいたり、言い間違えたり、騒がしい環境にいても、比較的ユーザーの意図を理解できるという。言語や方言全体の音声認識を測定するベンチマーク「Multilingual LibriSpeech」では、AmazonによればNova Sonicは英語、フランス語、イタリア語、ドイツ語、スペイン語の平均で単語エラー率(WER)がわずか4.2%を達成したとしている。これは、これらの言語におけるモデルからの約100語のうち4語だけが人間の文字起こしと異なっていることを意味する。

複数参加者との対話における優位性

複数の参加者との騒がしい対話を測定する別のベンチマーク「Augmented Multi Party Interaction」では、AmazonによればNova SonicはOpenAIのGPT-4o-transcribeモデルよりもWERの点で46.7%正確だったという。また、Amazonによると、Nova Sonicは平均知覚遅延が1.09秒という業界をリードする速度を持っている。これはArtificial Analysisによるベンチマークによると、1.18秒で応答するOpenAIのRealtimeAPIを支えるGPT-4oモデルよりも高速だ。

Amazonの広範なAGI戦略の一部

Prasad氏によると、Nova SonicはAmazonのより広範なAGI(人工一般知能)構築戦略の一部であり、同社はこれを「人間がコンピュータ上でできることは何でもできるAIシステム」と定義している。Prasad氏は、Amazonが今後、画像、動画、音声など異なるモダリティを理解できるより多くのAIモデルや、「物理的な世界に物事を持ち込む場合に関連するその他の感覚データ」を発表する予定だと述べている。

Amazon AGI部門の役割拡大

Prasad氏が監督するAmazonのAGI部門は、最近、同社の製品戦略においてより大きな役割を担っているようだ。先週、AmazonはAlexa+とAmazonの「Buy for Me」機能の要素を支えていると思われるブラウザ使用AIモデル「Nova Act」のプレビューを開始した。Prasad氏によると、Nova Sonicを皮切りに、同社は開発者が構築できるように、より多くの内部AIモデルを提供したいと考えているという。

引用元:TechCrunch
Amazon unveils a new AI voice model, Nova Sonic

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です