音声合成エンジンの開発、販売を行うエーアイは、同社最新のDNN(Deep Neural Network)音声合成エンジン「AITalk6」とCerence Inc.(以下、セレンス社)の「Cerence TTS」をパッケージしたSDK(Software Development Kit:ソフトウェア開発キット)「AITalk6 SDK」を1月17日にリリースすることを発表した。

○強化された音声合成エンジン「AITalk6」と「Cerence TTS」で64の外国語対応で国際化

「AITalk SDK」(公式Webサイト)

「AITalk6 SDK」は、AIで自然な声色に合成された音声を活用したパッケージソフト、ソリューション、ロボットや機器への組込みソフトウェアを開発できるSDKでWindows、Linuxでの開発に対応しており、dllとso形式で提供される。最新版では、音声合成エンジン「AITalk6」とセレンス社の音声合成技術ミドルウェア「Cerence TTS」を搭載することで合成技術面と国際化に力を入れた機能強化を図っている。今回、今まで非対応だった外国語に対応、64種類の外国語が扱えるほか一部制限もあるが話者数も18から161と大きく増加している。

○より自然な音声生成

今回搭載される音声合成エンジン「AITalk6」は、「AITalk5」から実装された「DNN音声合成方式」を更に改修、音声生成法を従来の信号処理方式のボコーダ(VOCODER)法からニューラルボコーダ(Neural VOCODER)法に変更している。加えて韻律と音響の2つのAIモデルを統合し新規の構造モデルを採用することでより自然な音声に近い音声特徴量と肉声感のある音声を生成することが可能になった。また、最新の「DNN音声合成方式」と従来の録音された音声データをつなぎ合わせ合成する「コーパスベース音声合成方式」を状況に合わせて選択して利用できる。合成された音声はWebサイトで確認できる。

AITalk 日本語話者一覧(公式Webサイト)

「Cerence TTS」(公式Webサイト)

パッケージされる「Cerence TTS」は、自動車などのコネクテッドモビリティソリューションを展開する米国セレンス社のモビリティ用音声アシスタントシステムで活用されるTTS(Text-to-Speech:テキスト読み上げ)エンジン。Cerenceクラウドサービス、WindowsとLinux用の組込みSDKとして提供されている。詳細はWebサイトで確認できる。

「AITalk6 SDK」は、Windows環境で32bit・64bit版のWindows 8.1日本語版、Windows 10日本語版、Windows 11日本語版、Windows Server 2012/2012 R2、2016、2019、2022の日本語版に対応。LinuxはRed Hat Enterprise Linux 7、8、9(すべて64bit)、Cent OS 7、8(すべて64bit)、Ubuntu 18.04 LTS、20.04 LTS、22.04 LTS(すべて64bit)に対応、開発言語は、C/C++、C#(.NET Framework)。Javaでも動作実績がある。利用料は基本ライセンス料に加えて商用利用時に必要な商用ライセンス料という構成となっている。詳細は要問合せとなる。