OpenAI、文字起こしと音声生成AIモデルをアップグレード

OpenAIが新しい文字起こしと音声生成AIモデルをAPIに導入
新しいテキスト読み上げモデル「gpt-4o-mini-tts」はより自然で調整可能な音声を実現
音声認識モデル「gpt-4o-transcribe」「gpt-4o-mini-transcribe」は従来のWhisperに代わる新モデル
「エージェント」ビジョンの一環として、より自律的なシステム構築を目指す

OpenAIのエージェントビジョン

OpenAIは、同社が従来のバージョンを改良したと主張する新しい文字起こしと音声生成AIモデルをAPIに導入している。

OpenAIにとって、これらのモデルはより広範な「エージェント」ビジョンに適合するものだ：ユーザーに代わってタスクを独立して実行できる自動化システムの構築である。「エージェント」の定義は議論の余地があるが、OpenAIのプロダクト責任者Olivier Godement（オリビエ・ゴデマン）氏は、ある解釈として企業の顧客と対話できるチャットボットだと説明した。

「今後数カ月でますます多くのエージェントが登場するだろう」とGodement氏はブリーフィング中に語った。「そして全体的なテーマは、顧客や開発者が有用で利用可能、かつ正確なエージェントを活用できるよう支援することだ」。

新しいテキスト読み上げモデルの特徴

OpenAIによると、新しいテキスト読み上げモデル「gpt-4o-mini-tts」は、よりニュアンスがあり現実的な音声を提供するだけでなく、以前の世代の音声合成モデルよりも「操作性」が高いという。開発者はgpt-4o-mini-ttsに自然言語で発話方法を指示できる。例えば、「狂気の科学者のように話す」や「マインドフルネス教師のような穏やかな声を使う」といった指示が可能だ。

以下は「トゥルークライム風」の風化した声の例：

そして、女性の「プロフェッショナル」な声のサンプル：

OpenAIのプロダクトスタッフメンバーであるJeff Harris（ジェフ・ハリス）氏は、開発者が音声の「体験」と「コンテキスト」の両方をカスタマイズできるようにすることが目標だと語った。

「異なるコンテキストでは、単調な声は望まれない」とHarris氏は述べた。「カスタマーサポートの体験で、間違いを犯したためにAIの声が謝罪的であることを望むなら、実際にその感情を声に込めることができる…ここでの私たちの大きな信念は、開発者やユーザーが何が話されるかだけでなく、どのように話されるかも本当にコントロールしたいということだ」。

新しい音声認識モデルの性能

OpenAIの新しい音声テキスト変換モデル「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」については、長年使われてきた同社のWhisper文字起こしモデルを効果的に置き換えるものだ。「多様で高品質な音声データセット」でトレーニングされた新モデルは、OpenAIによれば、混沌とした環境でもアクセントのある多様な発話をより適切に捉えることができるという。

またHarris氏によると、ハルシネーション（幻覚）を起こす可能性も低いという。Whisperは悪名高くも単語や会話の全体的な部分を捏造する傾向があり、人種に関するコメントから想像上の医療処置まで、あらゆるものを文字起こしに導入していた。

「これらのモデルはWhisperと比較してその点が大幅に改善されている」とHarris氏は述べた。「モデルの正確性を確保することは、信頼性の高い音声体験を得るために完全に不可欠であり、[この文脈での]正確性とは、モデルが言葉を正確に聞き取り、聞こえなかった詳細を補完しないことを意味する」。

ただし、文字起こしされる言語によってはパフォーマンスが異なる可能性がある。

OpenAIの内部ベンチマークによると、2つの文字起こしモデルの中でより正確な「gpt-4o-transcribe」でも、タミル語、テルグ語、マラヤーラム語、カンナダ語などのインド・ドラヴィダ系言語については、「単語エラー率」が（120%中）約30%に達するという。つまり、これらの言語では、モデルから出力される10語のうち3語が人間による文字起こしと異なることになる。

オープンソース戦略の変更

従来の慣行とは異なり、OpenAIは新しい文字起こしモデルを公開提供する予定はない。同社は歴史的にWhisperの新バージョンをMITライセンスの下で商用利用に提供してきた。

Harris氏は、「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」は「Whisperよりもはるかに大きい」ため、オープンリリースには適していないと述べた。

「これらはWhisperのようにローカルのラップトップで実行できるようなモデルではない」と彼は続けた。「オープンソースでリリースする場合は、それを慎重に行い、その特定のニーズに本当に適したモデルを用意したいと考えている。そして、エンドユーザーデバイスはオープンソースモデルにとって最も興味深いケースの一つだと考えている」。

引用元：TechCrunch
OpenAI upgrades its transcription and voice-generating AI models