Metaが2023年8月に公開したAI「SeamlessM4T」は、音声を入力するだけで文字起こしや別言語への翻訳、別言語への吹き替えが可能です。さらにMetaは2023年11月30日に、SeamlessM4Tの改良版となる「SeamlessM4T v2」を発表しました。この「SeamlessM4T V2」では、SeamlessM4Tのパフォーマンスを向上させているだけでなく、感情やスタイルを維持しながら、別の言語へ吹き替えを行うことも可能です。

Introducing a suite of AI language translation models that preserve expression and improve streaming

https://ai.meta.com/blog/seamless-communication/



Seamless Communication Translation Demo

https://seamless.metademolab.com/expressive





Metaによると、今回発表された「SeamlessM4T v2」は、話者の感情や表現のスタイルを維持しつつ、言語から別言語への翻訳を行うモデル「SeamlessExpressive」と、話者が話している最中に翻訳を行うことで、別言語話者とのリアルタイムな会話ができるほどに遅延を低減するモデル「SeamlessStreaming」の2種類のモデルから構成されているとのこと。MetaはSeamlessM4T v2について「表現力豊かなクロスリンガルコミュニケーションをリアルタイムで実現できる初のシステム」と評しています。

Metaが公開しているSeamlessM4T v2のデモ映像が以下。英語で楽しげに話す女性の声がほぼ同じトーンのスペイン語で吹き替えられています。

早口のフランス語で急かす男性の声も、同様に英語に吹き替えることに成功。

悲しげなトーンで話す女性の英語も、スペイン語に変換されています。

ささやくような英語でもフランス語に変換することが可能。

SeamlessM4T v2には実際に機能を試すことができるデモも公開されています。デモを試すためには、まず以下のリンク先にアクセスします。

Seamless Communication Translation Demo

https://seamless.metademolab.com/expressive

ページ上段または最下段の「Try the demo」をクリック。



デモの使用に関する注意書きが表示されるので、利用規約をよく読み、同意のチェックを入れます。



自身が話す言語や、翻訳先の言語を選択し、右下の「NEXT」をクリックします。なお、記事作成時点では、英語・スペイン語・フランス語・ドイツ語のみに対応しています。



カメラやマイクへのアクセスが求められたら「許可する」をクリック。



カメラ映像が表示されたら、「Record」ボタンを押してからマイクに向かって処理したい文章を読み上げます。



処理可能な読み上げ時間は最大10秒。10秒経過後は自動的に処理が行われます。処理が終わると、表現力を高めて吹き替えた音声と表現力を高める前の吹き替え音声、元の音声の3種が提示されるので、それぞれを比較することが可能です。



なお、SeamlessM4T v2はローカルにインストールして動作させることもできます。詳しいインストール手順は以下のリンク先で確認できます。

GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation

https://github.com/facebookresearch/seamless_communication



また、2023年8月22日にリリースされたMetaのAI「SeamlessM4T」のデモを動作させて文字起こしや翻訳を行った様子は以下の記事から確認できます。

Metaが日本語音声を入力するだけで「文字起こし」「翻訳」「吹き替え」を実行できるAI「SeamlessM4T」を公開、英語や中国に翻訳可能で無料で使えるデモも公開されたので使ってみた - GIGAZINE