【詳細】他の写真はこちら

3DSユーザーならとりあえずプレイしてみるべし。基本プレイ無料だし。



2016年12月8日から配信されているニンテンドー3DS向けタイトルの『めがみめぐり』。新米ツクモガミの「ツクモ」とおしゃべりをしながら、スゴロク形式に日本全国を鉄道でめぐる旅が楽しめるコミュニケーションゲームです。



▲『めがみめぐり』オープニングアニメ。

ニンテンドー3DS向けタイトルでは初となる、SuicaやPASMOといった交通系ICカードとの連動機能も本作ポイントですが、注目したいのはやっぱりツクモさんとのおしゃべりですよ!

本作では、言葉を知らない状態のツクモさんにさまざまな言葉を教えながらコミュニケーションを取っていくことになるのですが、なんとツクモさんは教えた言葉も含めて全部フルボイスで会話してくれるんです。しかも、東芝とカプコンが共同開発した音声合成システム「めがみスピークエンジン」を実装しているそうで、かなり自然な感じで話してくれます。いやーこれはスゲー。ちなみにCVは伊藤彩沙さんで、キャラクターデザインは箕星太朗さんです。ツクモさんがおしゃべりしている様子は以下のプロモーション映像からどうぞ。



▲『めがみめぐり』プロモーション映像。

プレイすればするほどツクモさんは言葉を覚えてくれるわけで、日々成長する姿を眺めているとまるでお父さんになった気分ですよ。はっはー。ニンテンドー3DS向けタイトルでは珍しい、基本プレイ無料のアイテム課金制なので、ニンテンドー3DSをお持ちでまだ遊んだことがないという人は、とりあえずプレイしてみることをおすすめします。(『めがみめぐり』のダウンロードはこちらからどうぞ。)



そんなわけで、すっかりツクモさんのおしゃべりに魅了されてしまったわけですが、適当に入力した言葉もちゃんと喋ってくれるのって実はすごいんじゃないすか……。どういう仕組みなんでしょう? → 作った人に聞いたら教えてくれそう! ということで開発陣に直撃インタビューしてきちゃいました。

「めがみスピークエンジン」ってどんなもの?





▲今回、お話を聞かせてもらった『めがみめぐり』の開発陣。左から順にカプコンのプロデューサー 野中大三氏、同サウンドディレクター 山東善樹氏、東芝の田村正統氏、同河西英城氏。

――早速ですが、「めがみスピークエンジン」とはいったい何でしょうか?

野中大三氏(以下、野中):

東芝さんの「ToSpeak G3」という音声合成技術をベースに、東芝さんとカプコンとで共同開発した『めがみめぐり』専用の音声合成エンジンになります。これにより本作では、プレイヤーが入力した言葉を含め、ツクモとの全ての会話でフルボイスを実現しています。



田村正統氏(以下、田村):

東芝では、音声合成や音声認識、翻訳、意図理解、画像認識などのAIソリューション「RECAIUS」を提供しており、その1つに音声合成ミドルウェア「ToSpeak」があります。その最新製品が「ToSpeak G3」です。東芝独自の信号処理、分析処理の技術により自然な合成音声での読み上げを実現しています。

河西英城氏(以下、河西):

音声合成は必ず誰かの声がベースとなっています。その誰かの録音音声から、音素やしゃべり方のルールを得て、それを元に東芝ノウハウで音声合成辞書(データベース)を作成し、「ToSpeak G3」のシステムに加えると、その人の声に近い音声合成音となるという仕組みです。ちなみに「ToSpeak G3」など東芝音声合成は、カーナビ、家庭用ゲーム機、スマホ向けアプリ、ブックリーダーなどに多く採用されてきています。

山東善樹氏(以下、山東):

「めがみスピークエンジン」を開発するにあたって、様々な音声合成技術を持つメーカーさんに声を掛けさせてもらいましたが、音声合成業界の全体的なニーズとして、車載器やニュース新聞の読み上げ機能など情報を正しく伝える点を重視しているため、なかなか良いパートナーが見つかりませんでした。なぜなら、今回の『めがみめぐり』にどうしても組み込みたかったのは感情表現だから。その点「ToSpeak G3」は感情表現も可能とあって、我々のニーズに合致したわけです。

河西:

「ToSpeak G3」は、音が良い上に、処理が軽くサイズが小さくて、組込機器に実装は、もちろんのこと、配信アプリにも使えます。メモリ容量や処理性能のリソースの厳しいニンテンドー3DSでも動かすことができます。さらに、元話者に沿った声のバリエーションを容易に準備することができるのが強みです。音声合成は、一昔前まではカーナビで、録音音声の合間のちょっとした情報伝達に使われていましたが、スマホアプリなど徐々にエンタメ系で使われてきています。そんな中、今回のような音声合成主体のエンタメ新規企画に使ってもらえたら良いなと思っていました。

田村:

ほかにも「ToSpeak G3」では、音声の収録時間がほかの音声合成と比べて短く、2〜3時間程度の録音から、ひと通りその人の声が再現できるというメリットがあります。実際、「めがみスピークエンジン」に起用している伊藤彩沙さんの声の収録も同程度の時間でした。

――声の収録はどのように行うのですか?

山東:

声の収録は、呪文みたいな文章をしゃべってもらうんですよ。あまりにもランダムな言葉過ぎると声優さんも読みづらいので、意味があるのかないのかわからないような、不思議な文章なんですが……細かい文章の内容は企業秘密なのでお答えできません。

河西:

音声合成と言うと、「あ」「い」「う」「え」「お」というようにひと言ずつバラバラに録音していくと思うかもしれませんが、実はそうではありません。音声合成辞書の材料とするために、ある程度の長さの文章から、音素、単語のアクセント位置のバリエーションを集めるよう、短文群を録音します。その録音量が少なくても、元話者の特性が出せるところに東芝のノウハウがあります。

野中:

例えば「あ」という言葉でも、「あした」の「あ」と「やったあ」の「あ」だと違いますよね。このような細かいニュアンスを網羅できるっていうのが、こういった文章なんですよ。

田村:

よく勘違いされるのですが、「ToSpeak G3」では、録音した声の波形をそのままつなぎあわせて合成しているわけではないんです。声の音色や高さ、長さなどを統計的に表すHMM音声合成をベースにしています。少ない収録音声でモデルを作成するために、たくさんの人の音声データから会話を学習させた、男性でも女性でもないような平均的な声を出すようなモデルを用意しておき、それを収録した音声に近づけるような処理をします。つまり、録音した音声自体をつなげているわけではないんですね。もちろんこの方法だと収録した音声では足りない部分もありますが、そこは収録した音声に近づける変換ルールによって不足分を補うため、違和感なく再現できるというわけです。



――ツクモの声優はどのように決めたのでしょうか?

山東:

ツクモのボイスには伊藤彩沙さんを起用していますが、実は、声優を決めるまでに7人ものテストを行っているんです。タイプの違う声優さんに声の収録をさせてもらって、誰が「ToSpeak G3」に一番合っているのかって。

野中:

『めがみめぐり』は「めがみスピークエンジン」ありきのタイトルと決めていました。そのため、ツクモの声を誰にしようか考えて声優を選んだわけではなく、音声合成向きの声を探した格好になりますね。

山東:

テスト収録をしてわかったのは、収録した時点で良いなと思っても、音声合成をしてみると“あれっ”といったケースがあったことです。法則性まではわかりませんが音声合成向きの声というのがあるみたいですね。

河西:

音声合成の材料となる録音において、声優さんの能力をフルポテンシャルで表現してもらうと、出来上がる音声合成が対応できず、良くない結果となり得ます。「元録音の感情表現を極力音声合成で再現したいが、どんな文章入力にも対応するためには、なるべく平坦かつ、一定の口調で元録音を収録する必要がある」という悩みがあります。また、音声合成向き、不向きの声質問題もあります。

野中:

「めがみスピークエンジン」では、声優の声に近い音声合成を実現するのではなく、プレイヤーがツクモを好きになってくれる音声合成を目指しました。結果的にツクモのボイスは、伊藤彩沙さんの声に似ていますが(笑)。つまり、伊藤彩沙さんの声は「めがみスピークエンジン」に適していたということですね。

ツクモさんのおしゃべりが可愛らしい理由とは?





――それでは「めがみスピークエンジン」と「ToSpeak G3」との違いを教えてください。

山東:

「めがみスピークエンジン」では「オセロットシステム」を搭載している点です。例えば、考えるときの「うーん」や、何か思いついたときの「あっ」、笑い声や鼻歌、咳払い、唸り声といった、通常の会話にあるような感情表現は音声合成だと再現できないんですね。こういった表現を生の声で音声合成の間に挟みこむというのが「オセロットシステム」になります。「めがみスピークエンジン」のベースが完成してから、再度、伊藤彩沙さんに来てもらって生声を収録しました。99%音声合成、1%が生声、といったイメージですが、音声合成の平坦な声にわずかな感情表現を加えることで、人間っぽさがでるかなと。ちなみに「オセロットシステム」は生の声を音声合成に挟むことから名付けました。



河西:

感嘆符的な表現や息遣いは、音声合成だけだとどうしても表現が難しい部分です。オセロットシステムでは、それを上手に補完できているのではないでしょうか。

野中:

カプコンではこれまでも様々なゲームのボイス収録を行っています。当然、ただ台詞を棒読みするのではなく感情を出して演技してもらうわけですが、演技の中には、息継ぎだったり、台本にない台詞が入ったりもします。こういった演技の部分を生声で補完しているわけですね。

山東:

そのほかにも、音声合成のアクセントのパターンを大量に用意することで、より自然に聞こえるように工夫をしています。例えば、「そうですね」という言葉1つとっても、使うシーンはいっぱいありますよね。なので、前後にくる単語とのつながりを考慮して、アクセントで語尾が下がったり、語尾が上がったりと結構なパターンを用意しました。これで、ツクモに人間味が出て、ユーザーが愛着を持てるんじゃないかなと思っています。また、単語のアクセントがどこにくると自然に聞こえるのかは人によって違うので、ツクモに言葉を覚えさせた際にアクセントの調整ができるようになっています。

田村:

「ToSpeak G3」には、もともと40万語程度の辞書が搭載されていて、あらかじめアクセントも登録されているのですが、どうしても、固有名詞の読みはアクセントの位置が自然にならない場合があります。『めがみめぐり』では、これを修正できる工夫を加えてもらい、追加した言葉を優先するようになっています。

野中:

もう1つカプコン側でがんばったのは元素材の整音ですね。携帯ハードだと音が出るスピーカーが決まっているので、狙って音を絞ることができるんです。この音域だとよく聞こえないとか、この音域だと遠くにいるように聞こえるとか、つまり、ニンテンドー3DSならどの音域に調整すればよく聞こえるのか、というノウハウがカプコンにはあるんです。

山東:

そうですね。「めがみスピークエンジン」に組み込む前の素材、つまり収録音声を調整することで、音がより良く聞こえるようにしています。また、音声合成音に最終的に4つのイコライザーを直列に通すことで、音声合成にありがちな“機械感”も軽減させました。

野中:

「めがみスピークエンジン」は、『めがみめぐり』に特化させた音声合成エンジンです。コンテンツ的にもハードウエア的にも絞り込んで、ツクモがしゃべることを目指しました。ツクモという女の子を育てましょう、この子は女神です、言葉を覚えさせて会話を楽しみましょう、ここまで条件を絞り込んだうえで、最も愛着が持てる発話をさせるために機能を特化させています。その最適解の1つが伊藤彩沙さんの声。同じようにオセロットシステムを組み込んで、別の声優さんが演じたとしても上手くいくとは限りません。



――「めがみスピークエンジン」の開発にあたって苦労した点を教えてください。

野中:

大きく2点あります。まずはデータのサイズを小型化するのにとても苦労した点ですね。

河西:

『めがみめぐり』の場合、「ToSpeak G3」のデータサイズは、声のデータベースが約9MB、システム全部を合わせても15MB程度におさえています。データのサイズももちろんですが、ニンテンドー3DSは、昨今のスマホほどは処理性能が高くないため、軽く動作させる必要がありました。音声合成だけをさせてゲーム自体の処理を止めるわけにはいきませんから。



田村:

「めがみスピークエンジン」は、少ないデータで軽く動かせるため、ニンテンドー3DS上でもリアルタイムの音声合成を実現しています。

山東:

音声合成の処理はクラウド上で、というのが今の主流かもしれませんが、ニンテンドー3DSではそういうわけにもいきません。スタンドアローンで動いてるというのが「めがみスピークエンジン」の技術的に最も凄い部分と言えるかもしれません。

野中:

もう1つは、開発にあたっての文化の違いですね。ゲームメーカーと電機メーカーとの文化の違い。たまたま、音声合成で感情表現を求める目標に関しては一致しましたが、長年お互いに違うことをしてきたわけで、やり方や考え方の違いもあって、しょっちゅうぶつかりましたね(笑)。

山東:

「とりあえず何回でもチャレンジさせてほしい」、「いつまで続けるんですか?」、「納得できるものが作れるまで」、みたいな(笑)。

ツクモさんを愛でながらプレイするべし!



――最後に、これから『めがみめぐり』をプレイする方に向けてメッセージをお願いします。



山東:

ツクモのボイスを作っていると言うよりも、ツクモ自身を作っている感覚の方が強かったです。ツクモのボイスはもちろん注目してほしいですが、それよりも何よりもツクモを愛してもらえたらうれしいですね。

田村:

音声合成を楽しんで欲しいですが、ユーザーが入力した言葉は、会話の中やゲームの中で色々と出てきます。楽しく演出されているツクモの表情やその変化と、音声を一緒に楽しんでもらえたらと思います。

河西:

経験的に、音声合成はいくら上手に作っても、顔が見えない声というか誰かわからない声って愛着が持てないですが、ツクモは違います。これまでも10数年、音声合成自体を自分の娘だと思っていましたが、表情を持った愛着のある実際の娘が、今回、生まれましたね(笑)。皆さんも自分の娘や女神だと思ってプレイしていただければと。

野中:

実は「めがみスピークエンジン」ができあがってから、キャラクター設定を大幅に見直しました。そこまでするくらい、ツクモの完成度には自信があります。ツクモという存在自体をプレイヤーの色に染めちゃってください。



文/こばやしなおき(編集部)、撮影/松浦文生

関連サイト



『めがみめぐり』公式サイト

関連記事



SuicaやPASMOを連動できる!?ニンテンドー3DS向けタイトルがカプコンから登場(予定)

(C)CAPCOM CO., LTD. 2016 ALL RIGHTS RESERVED.