Microsoftが公開する「VALL-E」は、たった3秒間の音声サンプルから人の声を再現できる音声合成AIです。このVALL-Eで英語以外にも対応した「VALL-E X」を独自にトレーニングしたゼロショットモデルが、GitHubで公開されています。GitHub - Plachtaa/VALL-E-X: An open source implementation of Microsoft's VALL-E X zero-shot TTS model. Demo is available in https://plachtaa.github.iohttps://github.com/Plachtaa/VALL-E-XVA