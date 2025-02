元Googleの機械学習エンジニアであるピオトル・ドンブコウスキー氏らによって設立され、1億8000万ドル(約270億円)の資金調達を終えたばかりのAIスタートアップの ElevenLabs が、世界で最も正確な自動音声認識(ASR)モデルの「Scribe」を発表しました。ElevenLabs - Meet Scribe the world's most accurate ASR model | ElevenLabs

https://elevenlabs.io/blog/meet-scribeElevenLabs is launching its own speech-to-text model | TechCrunchhttps://techcrunch.com/2025/02/26/elevenlabs-is-launching-its-own-speech-to-text-model/「Scribe」はElevenLabs初の自動音声認識モデルであり、世界で最も正確な文字起こしモデルでもあります。Scribeは現実世界の音声の予測不可能性に対応するために構築されており、単語レベルのタイムスタンプ、話者ダイアライゼーション、オーディオイベントのタグ付けなどの機能を備えており、99の言語で音声を文字起こしすることが可能です。Scribeは精度を重視して設計されており、音声認識AIの客観評価に利用されるデータセットのFLEURSや、音声認識ソフトウェア開発のための無料データベースであるCommon Voiceを使ったベンチマークテストの結果、GoogleのGemini 2.0 Flash、OpenAIの音声文字変換モデルであるWhisper Large V3、Deepgramの音声テキスト変換モデルであるNova-3といった競合モデルのパフォーマンスを一貫して上回ることに成功しました。Scribeはイタリア語(98.7%)、英語(96.7%)、その他97の言語で最も低い自動文字起こし単語エラー率を記録しています。Scribeは99言語のうち、25以上の言語で「優れた精度の自動音声認識(単語エラー率が5%未満)」に成功。これには英語、イタリア語、フランス語、ドイツ語、ヒンディー語、インドネシア語、日本語、マラヤーラム語、ポーランド語、ポルトガル語、スペイン語、ベトナム語などが含まれるそうです。また、Scribeはセルビア語、広東語、マラヤーラム語などの従来の音声認識モデルでは十分に対応されていなかった言語での単語エラー率を大幅に下げることに成功しています。競合モデルでは単語エラー率が40%を超える言語でも、十分に対応できることがアピールされています。開発者はElevenLabsのSpeech to Text APIを介してScribeを統合し、話者ダイアライゼーションと単語レベルのタイムスタンプ、非音声イベントマーカー(笑い声など)を含む構造化されたJSON形式のトランスクリプトを取得できます。さらに、Scribeのリアルタイムアプリケーション用低遅延バージョンがまもなくリリースされる予定です。また、クリエイターや企業はElevenLabsのダッシュボードから直接Scribeを使用して、オーディオファイルやビデオファイルをアップロードし、フォーマットされたトランスクリプトを生成できます。ElevenLabsによるとScribeの音声文字起こしは1時間あたり0.40ドル(約60円)で利用可能。この料金設定について、テクノロジーメディアのTechCrunchは「競争力のある価格設定ですが、現在、競合他社の中には機能面で差別化を図りつつ音声文字起こしをより低価格で提供しているところもあります」と指摘しました。