動画のナレーターにも使える 無料の音声合成ソフト「VOICEVOX」

写真拡大 (全5枚)

若年層ではYouTubeをメディアとして捉えており、今や個人だけでなく、企業もYouTubeによる配信を提供している。

そんなYouTubeの動画を制作する際、ナレーションが欲しい人もいるだろう。
とはいえ、声優やアナウンサーに依頼すると、アマチュアの人でもそれなりの費用がかかるし、日程調整、録音など何かと手間だ。

そこでオススメなのが、無料で使える音声合成ソフト「VOICEVOX」だ。


■音声合成ソフトの歴史と現状
音声合成ソフトとは、人間の声を真似るものだ。
個人向けの音声合成としては、NEC PC-8801mkIIが登場した後、同機種向けのFM音源というサウンドボードによる複合正弦波による音声合成が初めてだったと記憶している。

当時、「シルフィード」などの一部のゲームでは、「パソコンがしゃべる」というだけで話題になった。その後、国民機と言われたPC-9801の時代となり、Windowsパソコンの時代に移行後、NEC、富士通、日本IBMなどが個人向けに音声合成ソフトを発売した。

音声合成ソフトが一気にブレイクしたのは、やはり「初音ミク」だろう。
初音ミクはヤマハが開発した音声合成システム「VOCALOID」に対応したボーカル音源で、歌を歌わせることができて話題となった。

最新版となる「初音ミク NT(ニュータイプ)」は、歌声がさらに進化しており、歌の微妙なニュアンスも調整できるようになっている。


■無料で使用できる「VOICEVOX」
VOICEVOXは、ユーザーが入力した日本語を読み上げてくれるソフト。
イントネーションの詳細な調整も可能だ。

最大の特徴は、商用・非商用問わず、オープンソース・ソフトウェア(OSS)で提供されている。
10人のキャラクターがおり、声の高さや発声にそれぞれ特徴がある。
これらのキャラクターを自由に使用できるが、キャラクターによっては、利用料を支払うものがある。

たとえば、ずんだもんの場合、クレジット表記をしない場合の商用利用において、1キャラクター毎に40万円+消費税の利用料が必要になる。
利用料が心配な人は、利用規約を確認してから使用すれば、問題ないだろう。


ずんだもんの利用規約。禁止事項、免責条項、クレジット表記をしない場合の商用利用について、などの情報が記載されている。


早速、VOICEVOXを使ってみよう。
公式サイトで「ダウンロード」ボタンを押すと、ダウンロードの選択画面に切替わる。
VOICEVOXは、Windows版、Mac版、Linux版の3種類があるので、自分のパソコン環境に合わせて選択しよう。

対応モードは、GPU/CPU、CPUの2種類がある。GPUモードは快適に動作するが、Nvidia製のGPUが必要だ。
たとえば、ノートパソコンは通常、GPUを搭載していないので、CPU版を選択すればよい。

パッケージは、インストーラー版とZip版の2種類がある。
インストーラー版が推奨されているが、パソコンにインストール時にネットからダウンロードするため、インターネットが接続されていなければならない。
Zip版はインターネットを必要としないが、ファイルサイズが大きく、ダウンロードに時間がかかる。ちなみにWindowsのZip版は3.14GBだった。


■誰でも簡単!音声合成
VOICEVOXの使い方は、簡単だ。
まずは、個性豊かな10キャラクターの中から好みのキャラクターを選択しよう。
四国めたん、ずんだもん、九州そらの3キャラクターは、下記の4つスタイル(しゃべり方)を選択できる。
・ノーマル
・あまあま
・ツンツン
・セクシー


四国めたんは、4つスタイル(しゃべり方)を選択できる。


今回は、四国めたん(ノーマル)を選択した。
キャラクターの右側にあるテキスト欄に、文章を入力して再生ボタンを押すと、キャラクターの音声で文章が再生される。
右下の「+」ボタンを押すと、テキスト欄が追加されて、複数の文章を並べられる。
パラメーターは、話速、音高、抑揚、音量、開始無音、修正無音などが調整できる。

音声の抑揚が不自然だったときは、アクセントの箇所を変更したり、イントネーションを変更したりして、調整すればよい。
語尾を少し伸ばしたり、無音の長さを調整したいときは、音の長さを調整しよう。
キャラクターの顔を選択すると、キャラクターやスタイル(しゃべり方)を変更できる。

メニューの「ファイル」にある「音声を繋げて書き出し」ボタンを押すと、全文の音声がWAV形式の音声ファイルとして保存される。

VOICEVOXは、テキストファイルの読込み対応している。
「四国めたん,こんにちは」のように、あらかじめテキストファイルを作成しておけば、いちいちテキストを入力する手間が省ける。


日本語の発音が不自然なときは、イントネーションを調整しよう。


今回、iPadの動画編集アプリ「LumaFusion」を使用して、テレビの天気予報に近い動画を作成してみた。
LumaFusionで映像を選択して、音声ファイルをDropBox経由で読み込むだけで、テレビのようなナレーションつきの天気予報を作成することができた。
同じテクニックを使えば、ナレーションつきの製品レビュー動画も簡単に作成できるだろう。


iPadの動画編集アプリ「LumaFusion」の画面。緑の帯が音声ファイルだ。


無料で使える音声合成ソフト「VOICEVOX」による、「天気予報」のサンプル

YouTube:https://youtu.be/ZTtoRA5Yd0Y

ナレーションつきの動画を作成したい人は、まずはここで紹介したVOICEVOXの音声ファイルを試してみよう。

「VOICEVOX」公式サイト




ITライフハック 関口哲司