- 中国のAI企業Stepfunが、複数の言語で音声を理解し、生成できるオープンAIモデル「Step-Audio」をリリース
- Step-Audioは中国語、英語、日本語をサポート。ユーザーは歌唱を含む合成オーディオの感情を調整可能
- 音声クローニングを効率化する生成音声データエンジンを構築。軽量版Step-Audio-TTS-3Bモデルを公開
- 方言、感情、歌唱、ラップなどの動的調整を可能にする精密制御システムを実装
Stepfunが新モデル「Step-Audio」を発表
Stepfunという中国のAI企業が、複数の言語で音声を理解し、生成できる「オープン」AIモデル「Step-Audio」をリリースした。Step-Audioは中国語、英語、日本語をサポートしており、ユーザーは歌唱を含む合成オーディオの感情や方言を調整可能としている。
Stepfunは、寛容なライセンスの下でモデルをリリースしている、資金力のある中国のAIスタートアップの1つだ。2023年に設立されたStepfunは、最近、中国の国営プライベートエクイティ企業を含む多くの投資家から数億ドル相当の資金調達ラウンドを完了したと報じられている。
Step-Audioの概要と技術的特徴
リアルタイム音声対話は、人間と機械のコラボレーションにおける基本的なインターフェースとして大きな可能性を秘めている。しかし、現在のオープンソースモデルは、音声データ収集の高コスト、動的制御の脆弱性、知的処理能力の限界など、様々な課題を抱えている。Step-Audioは、これらの課題に対応する初の実用的なオープンソースソリューションとなるとしている。
主要な技術革新
Step-Audioでは、1,300億のパラメータを持つ統合音声テキストマルチモーダルモデルとなっている。音声の統合的な理解と生成を実現し、Step-Audio-Chatバージョンをオープンソースとして公開している。また、手頃な価格の音声クローニングフレームワークを確立する生成音声データエンジンを構築し、蒸留技術を通じてオープンソースの軽量版Step-Audio-TTS-3Bモデルを生成した。
また、方言、感情、歌唱、RAPなどの動的調整を可能にする指示駆動型精密制御システムの実装、ツール呼び出しとロールプレイ機能を強化した認知アーキテクチャによる複雑なタスクの効果的な管理などを可能としている。
評価結果と性能
新たに開発したStepEval-Audio-360評価ベンチマークに基づき、Step-Audioは人間による評価で最先端の性能を達成。特に指示追従の面で優れた結果を示した。LLaMA Questionなどのオープンソースベンチマークでは平均9.3%の性能向上を実現し、オープンソースのマルチモーダル言語技術の発展に貢献している。コードとモデルはGitHubで公開されている。開発者は、Step-Audioのリポジトリからコードをクローンし、必要な依存関係をインストールすることで利用を開始できる。
引用元:Papers with Code
Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction