ElevenLabs CEOがAI音声モデルは「コモディティ化」すると予測、数年以内にマルチモーダル融合へ

ElevenLabs CEOがAIモデルのコモディティ化を予測

AI音声企業ElevenLabsの共同創業者兼最高経営責任者Mati Staniszewski(マティ・スタニスゼフスキ)氏は、AIモデルが時間の経過とともにコモディティ化されると信じている。これは、今日それらを構築することに焦点を当てている企業にとって明らかなコメントだ。

ElevenLabsの創業者はAI音声スペースに対する短期的および長期的な見解の両方について議論していた。

Staniszewski氏は、同社の研究者がモデルアーキテクチャの課題のいくつかを解決できており、この焦点は次の1年か2年間オーディオスペースで続くと述べた。

「長期的には、それはコモディティ化されるだろう。次の数年間で」とStaniszewski氏は述べた。「違いがあったとしても、一部の音声、一部の言語では真実だと思うが、それ自体では違いは小さくなるだろう」

時間の経過とともにコモディティ化されると信じているのに、なぜElevenLabsがモデルの構築に焦点を当てるのかと尋ねられたとき、Staniszewski氏は、短期的には、それらが依然として「今日持つことができる最大の優位性と最大のステップチェンジ」だと説明した。

例えば、AI音声またはインタラクションが良く聞こえない場合、それは依然として解決する必要がある問題だ。

「それを解決する唯一の方法は……モデルを自分で構築することであり、長期的には、それを解決する他のプレーヤーもいるだろう」とStaniszewski氏は述べた。

彼はまた、信頼性の高いスケーラブルなユースケースを探している人々は、依然としてさまざまなユースケースにさまざまなモデルを使用する可能性が高いと指摘した。

しかし、次の1年か2年で、Staniszewski氏は、ますます多くのモデルがマルチモーダルまたは融合アプローチに移行すると述べた。

「そのため、音声と動画を同時に作成したり、会話設定で音声とLLMを同時に作成したりする」と彼は述べ、モデルを組み合わせることで達成できることの例としてGoogleのVeo 3を指摘した。

創業者は、ElevenLabsが他の企業とのパートナーシップをローンチし、オープンソース技術と協力して、同社の音声専門知識を他のモデルのいくつかの専門知識と組み合わせることができるかどうかを確認する計画だと述べた。

ElevenLabsにとって、目標は長期的な価値を創造するためにモデル構築とアプリケーションの両方に焦点を当てることだと彼は述べた。