たった数秒の音声データから音声合成が可能な「VoiceCraft」
テキサス大学オースティン校を中心とした研究チームが、訓練データにないタスクをこなすゼロショットでの音声編集や音声の合成ができるAIの「VoiceCraft」を発表しました。
VoiceCraft
https://jasonppy.github.io/VoiceCraft_web/
今回発表された「VoiceCraft」は、テキストと画像のマルチモーダルモデルから着想を得て、ゼロショットでのテキストから音声の出力(Text-to-Speech)や音声合成、音声の編集を可能にしたニューラルコーデック言語モデル(Neural Codec Language Models)です。
https://jasonppy.github.io/VoiceCraft_web/static/audio_sample/speech_editing/YOU1000000137_S0000397.wav
続いて、以下がVoiceCraftで編集された音声です。音声の内容は「but the renaissance broke their monopoly on knowledge, with it's free movement of research and endless scientific inquiry, one of the most important bastions of the church.」で、太字の部分がVoiceCraftで追加された部分です。
https://jasonppy.github.io/VoiceCraft_web/static/audio_sample/speech_editing/YOU1000000137_S0000397_ve.wav
VoiceCraftはGitHubやHugging Faceで公開されているので、実際に自分で使うことが可能です。
GitHub - jasonppy/VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild
https://github.com/jasonppy/VoiceCraft
VoiceCraft - a Hugging Face Space by pyp1
https://huggingface.co/spaces/pyp1/VoiceCraft_gradio
そこで、Hugging Faceで公開されている「VoiceCraft」を触ってみることにしました。上記のURLをクリックしてアクセスしてみると、以下の画面になります。
既にデモ用の音声が入力されていますが、今回はGitHubリポジトリで公開されているもうひとつのデモ音声を素材にすることにしました。手順は、以下の赤枠のボタンをクリックして、音声ファイルをアップロードすればOK。
「Transcribe」をクリックすると、音声の内容が書き起こされました。
続いて、読み上げさせたい文章を「Text」の欄に入力して「Run」をクリックします。プロンプトには、有名なキング牧師のスピーチの一節を使用しました。
できあがった音声は以下の赤枠のボタンで再生したりダウンロードしたりできます。
聞き比べてみます。まず、アップロードしたオリジナルの音声が以下。
https://i.gzn.jp/img/2024/04/16/voicecraft/pam.wav
続いて、VoiceCraftが作った音声が以下です。
https://i.gzn.jp/img/2024/04/16/voicecraft/audio.wav