テキサス大学オースティン校を中心とした研究チームが、訓練データにないタスクをこなすゼロショットでの音声編集や音声の合成ができるAIの「VoiceCraft」を発表しました。VoiceCrafthttps://jasonppy.github.io/VoiceCraft_web/今回発表された「VoiceCraft」は、テキストと画像のマルチモーダルモデルから着想を得て、ゼロショットでのテキストから音声の出力(Text-to-Speech)や音声合成、音声の編集を可能にしたニューラルコーデ