Mistralが初のオープンソース音声AIモデル「Voxtral」をリリース

Mistral AI

  • フランスのAIスタートアップMistralが初のオープンソース音声AIモデル「Voxtral」を発表
  • 最大30分の音声文字起こしと40分の音声理解機能を搭載
  • 8言語に対応し、競合ソリューションの半額以下の価格を実現
  • VoxtralはSmallとMiniの2つのバリアントを提供、APIは1分あたり0.001ドルから利用可能

Mistralの音声AI分野への参入とVoxtralの特徴

AIシステムがより高度になるにつれ、音声は機械とのコミュニケーションのデフォルトな方法になりつつある。フランスのAIスタートアップMistralは、クローズドな企業システムの支配にオープンウェイトの代替案で挑戦することを目指し、初のオープンモデルで音声競争に参入した。

火曜日、Mistralは企業向けの初の音声モデルファミリーであるVoxtralのリリースを発表した。同社はVoxtralを「本当に使用可能な音声インテリジェンスを本番環境で展開」できる初のオープンモデルとして売り込んでいる。

開発者向けの価格競争力とオープンソースの利点

言い換えれば、開発者はもはや、転写を失敗し、実際に話されていることを理解しない安価でオープンなシステムと、よく機能するがクローズドで、開発者により高い費用とデプロイメントの制御力の低下をもたらすシステムの間で選択する必要がなくなる。

企業にとって、これはVoxtralが同社が「比較可能なソリューションの半額以下」と主張する手頃な代替案を提供することを意味する。

Voxtralの技術仕様と多言語対応

MistralによるとVoxtralは最大30分の音声を転写できる。LLMバックボーンであるMistral Small 3.1により、最大40分を理解でき、ユーザーは音声コンテンツについて質問したり、要約を生成したり、音声コマンドをAPIの呼び出しや機能の実行などのリアルタイム動作に変換したりできる。Voxtralは多言語にも対応しており、英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語を含む言語の転写と理解が可能だ。

同社は「音声理解モデル」の2つのバリアントを提供している。最初のVoxtral Smallは本番スケールのデプロイメント用に240億パラメータを持ち、ElevenLabs Scribe、GPT-4o-mini、Gemini 2.5 Flashと競合する。

Voxtral SmallとMiniの仕様とAPI価格

2つ目のVoxtral Miniは、ローカルおよびエッジデプロイメント用に30億パラメータを持つ。また、転写のみのユースケース用に最適化された30億モデルの超安価で軽量な高速APIバージョンであるVoxtral Mini Transcribeもあり、OpenAI Whisperを半額以下の価格で上回る性能を約束している。

ユーザーはHugging FaceでAPIをダウンロードするか、MistralのチャットボットLe Chatでモデルをテストすることで、Voxtralを無料で試すことができる。同社によると、APIをアプリケーションに統合するには1分あたり0.001ドル(約0.15円)から利用可能だ。

Magistralリリース後の戦略的展開

このローンチは、Mistralが信頼性向上のために問題を段階的に解決するファースト推論モデルファミリーであるMagistralを発表した1か月後に実現した。

ヨーロッパの最高峰AI企業の一つであるMistralは、オープンソースAIモデルを推進する取り組みでよく知られている。今月初め、同社がAbu DhabiのMGX fundなどの投資家から最大10億ドル(約1,500億円)の資金調達について協議していると報じた。

オープンソース音声AI市場での競争力

Voxtralの発表は、音声AI分野におけるオープンソースソリューションの重要性を示している。従来のクローズドシステムに対する手頃な価格の代替案を提供することで、Mistralは開発者コミュニティに新たな選択肢を提供し、音声AIの民主化を推進している。

この動きは、AIシステムとの音声によるインタラクションが標準となりつつある中で、オープンソースアプローチが企業システムの支配的地位に挑戦できることを実証するものだ。

引用元:TechCrunch
Mistral releases Voxtral, its first open source AI audio model

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です