ピカチュウの声はすべて新録です――「ピカチュウトーク」担当者に開発秘話を聞く
Engadget編集部では株式会社ポケモンにお邪魔して、ピカチュウトークの開発のキッカケを作った新藤貴行氏(写真左)と、ピカチュウトークのプロデューサー小川慧氏(写真右)にインタビューしました。
■キッカケはL.A.の家電量販店にあったAIスピーカーコーナー


▲当時の企画書
小川:何を言っても「ピカ」しか返さないという、発表会でお見せしたまんまです(笑)。僕らの中では、ピカチュウは何を聞いても、それこそ天気を聞いても「ピカ」しか言わないということは強い気持ちで決まっていたので、企画書自体がなかったんです。
ただGoogleさんに「承認するうえで英語の企画書が欲しい」と言われて用意しなくちゃいけなくなって......。そこで困った僕が1時間くらいのやっつけ仕事で企画書を作って持っていったら大喜びされました(笑)。
―― そういった経緯が(笑)。ちなみに、企画書は何枚くらいのものを提出されたんですか?
小川:あの資料以外に表紙と、くだらないフローチャートをいれた合計9枚の企画書を提出しました。
新藤:フローチャートは、たしかつけてくれって言われたんですよね。

小川:これがフローチャートです。半分冗談レベルで書いたんですけど、でも、フローチャートが必要って言われたので(笑)。
―― このフローチャートはGoogleのエンジニアは喜びそうですね。
それでは本題に入らせてもらいます。そもそもどういった経緯で開発がスタートしたのでしょうか?
新藤:6月にE3でロサンゼルスに行ったのですが、そのときに家電量販店に入ったら「AIスピーカーコーナー」があって、Amazon EchoやGoogle Homeが置いてありました。ずっと気にはなっていたので買って試してみようと思ったんです。それで実際に使ってみたら「なんかこれ、面白いな」と。そのことを社内の人間に話をしていたら「ポケモンで何か作ってみるか」みたいな流れになってスタートしました。
―― AmazonやGoogleから話があったわけではないんですね。

新藤:6月時点では、AmazonさんもGoogleさんも、Amazon EchoやGoogle Homeを日本で展開することは発表されてはいましたが、まだ発売はされていなかったのでどういう風に作るのが良いかをこちらから聞きに行った感じです。
―― てっきり先方から話があったのかと思っていました。はじめからピカチュウと話をする方向だったんですか?
小川:初めの頃に出ていた案は実用的なものが多かったですね。例えば、Philips Hueと連携してピカチュウに電気をつけてもらおうとか、ピカチュウが天気を教えてくれるとか、検索情報をこたえてくれるといったようなものです。
新藤:アメリカとかで出ているアプリケーションって大体実用系じゃないですか。なので、参考にしているとどうしてもそっちの発想になってしまうというか。
―― そこから要素を削ぎ落しながら、エンタメ系にふっていったと。
小川:そうですね。ただ、Amazon EchoやGoogle Homeにエンターテインメントのカテゴリーのものが少なく、あってもクイズに答えるようなものばかりだったので、エンタメにふるのは難しかったですね。
―― ピカチュウトークは、Amazon EchoとGoogle Homeのどちらにも対応していますが、作りに違いはあるのでしょうか?
小川:両社ともにインターフェースは同じです。どちらも「ピカチュウを開く」形で、Google Homeでは「ピカチュウと話したい」と言えば起動して、Amazon Echoでは「ピカチュウを呼んで」と言うと起動します。そこからはアプリケーションがループで動いて、どちらもタイムアウトするか「バイバイ」とか「おやすみ」と言うとピカチュウが帰っていって、アプリケーションが終了する作りになっています。違いがあるとすれば、呼び出すワードの違いぐらいですね。
―― タイムアウトの時間は決まっているんですか?
小川:そこはそれぞれの仕様で決まっています。例えば、Amazon Echoの場合はタイムアウトが2段階あって、まず8秒間会話がないと「ピカ?」とピカチュウが投げかけます。そこで反応しないと、さらに8秒後に帰る形です。こちらではコントロールできないので、メーカー規定に準じています。
■ピカチュウの声は新録で対応!その数100種類以上

ーー ピカチュウの声については音声合成という噂もありました。実際はどう対応されたのでしょうか?
小川:声に関しては、音声合成ではなく大谷育江さん(ピカチュウの声優)にお願いして新しく録っています。
ーー 新録なんですか!?
小川:そうですね。
ーー 何十年分で溜まったサンプリングを使ったとかでもなく?
小川:新録です。
ーー 驚きです。ちなみに、どれくらいの声を新しく収録されたのでしょうか?
小川:100種類ぐらいですね。まず、戸田昭吾さん(アニメ版ポケモンのOPやEDなどの作詞を担当)に協力いただいて、どういう反応が必要か、どういう音声が必要かを洗い出すために台本を作りました。
―― どういう台本なのでしょうか?
小川:スプレッドシートやExcelの表に近いものですね。「おはよう」とか「こんにちは」とか分岐の数だけまず縦に並べます。それに対して、登録する言葉をひたすら横に並べていって、これらのどの分岐になったらこの音声を返す、みたいな巨大なシートを戸田さんに作ってもらいました。
―― その台本に用意された言葉を大谷さんに新しく録りなおしてもらったと。
小川:はい。挨拶から小ネタまでリストアップしたものを録って、録った声を組み合わせて使っています。
―― 大谷育江さんからすると、アニメ1話分の収録どころではなく、ゲームをひとつ作るくらいの分量があったわけですね。
小川:そうですね。印象に残っているのが大谷育江さんの表現の幅です。ピカチュウが近くにいるときと遠くにいるときの表現が違うみたいで、全ての声を近くにいるバージョンと遠くにいるバージョンの2つずつ録ってもらいました。
―― 凄い。それってどういう風に使い分けられているんですか?
小川:シチュエーションによって使い分けています。例えば、ピカチュウのいびきはとかは近くの方がいいとか。
―― 録った声を加工して使い分けるとかではなく、演技のレベルで違うとは......。なんというか、台本を書かれているのを含めて、ピカチュウトークってかなり人力で進められていますね。
小川:そうですね。ピカチュウがその場にいるような表現になるべく近づけるために、大谷さん、戸田さんに協力いただいて人力でやっています。表現ということでは、ピカチュウとの親密度みたいなものもあって、ピカチュウと繰り返ししゃべることによってピカチュウの反応が変わります。
―― 親密度はユーザー側からしても「なんか仲良くなれてるぞ」というのがわかるものなんでしょうか?
小川:はい。基本的にはよりうるさくなると思います。

―― (笑)
小川:逆に親密度が低いと、声が低くなるとかもありますね。例えば、ピカチュウに「バーカ」みたいなことを言うとピカチュウの声が低くなるといった感じです。
―― 親密度についてですが、1回起動して終わるまでにクリアされるのか、それとも引き継がれるものなんでしょうか?
小川:引き継がれます。保存はしているので、会話が終わってももう1回立ち上げてもらえれば大丈夫です。
―― なるほど。そしたら、人の家に行ってAmazon EchoなりGoogle Homeのピカチュウと会話をしているのを聞いて、「君とピカチュウはまだ打ち解けないみたいだね」みたいなのもわかると。
小川:表現の幅が非常に豊かなので遊んでいるとわかってくると思います。ここは本当に大谷さんが凄いところですね。
■ピカチュウトークに攻略要素はあるかを聞いた

―― ピカチュウが反応する単語は何種類あるんでしょうか?
小川:どれくらい単語に反応するのかというのは仕組み上言い方が難しいんですけど、登録しているキーワードだけでも数百はあります。言い方が難しいというのは、例えば、「おはよう」って「おはようございます」とか「おっはー」とか「グッドモーニング」とかいろいろな言葉がありますよね。その揺れを吸収するために「おはよう」という言葉に対して複数登録しているので何種類かをお答えするのは難しい感じです。
―― なるほど。改めて台本作りが大変なことがわかるお話ですね。台本の話に戻ってしまいますが、台本ってどれくらいの期間で作られたんでしょうか?
小川:開発期間中の最後まで調整していたので、もうずーっとですね。
―― 基本的な応対ができたところで色んな人にテストしてもらって、想定外の単語が出てきたら検討して、みたいな進め方ですか?
小川:基本的にはおっしゃる通りなのですが、試せば試すほど無限に広がるのと、開発期間が非常に短かったので、リリースが第1というところでバランスを取っています。
新藤:アプリの更新であとから足せますし、想像力でもカバーできますしね。
―― 想定外の言葉でしゃべられた場合、対応していない言葉をユーザーが言っているというのはわかるんですか?
小川:テキストはこちらで収集してないので、基本的にはどこに落ちたかっていう分岐でしか僕らはわからないですね。環境依存の話になっちゃいますが、Googleさんでは「その他」に落ちて、Amazonさんは一番近しいどれかに落ちます。
―― 情報の収集されていないんですね。

小川:Googleの場合は、正確に言うとこちらでもテキストで受け取っています。受け取ったものを改めてAI側に投げて言語処理をしてもらって分岐に落とす。ですので、生のテキストデータは1度もらっているんですが、そこは保存していません。そういったデータや声だったりはプライバシーの部分も出てくるのと、何も情報をとらないと、パーミッションが何もなくなるので、アプリを使う上で認証を一切取らないで遊んでもらえます。
―― なるほど。
小川:位置情報ももちろんとっていないので、ピカチュウに天気を聞いても「ピカ」としか答えてくれません(笑)。
―― きっと「今日は晴れだよ」って言っているんだろうな......、みたいなこちらの想像力が試されるわけですね。そういったピカチュウが何を言っているかを想像するものではなく、「10まんボルト」など特定の言葉の場合は特殊な反応をしますよね。ほかにはどういったものがありますか?
小川:「ポケモンゲットだぜ!」のようなシンボリックなものや、誕生日みたいなフックになるようなものはいくつか用意しています。そこはいろんな言葉を喋りかけて楽しんでもらえたらなと思います。今からの季節だと例えばクリスマスですとか。
―― ちなみに、攻略みたいな要素は......?

新藤:なんか探してみようという要素も一応入っていますが、攻略とか、全部の言葉を聞いたぞ、みたいなそういう感じではないですね(笑)。どちらかというと、文字が入力できないお子さんとかがすごく喜んでくれると思います。
―― そうですよね(笑)。
新藤:ピカチュウのいいところって「ピカ」とか「ピカチュウ」しか言わないので、こちらの想像力を掻き立てるところ。ピカチュウトークは絵もないので、想像しながら遊んでもらえればと思います。会社の会議中とかに置いておくと、ピカチュウが勝手に話してくれて面白いって話もあったので、そういった使い方もしてみてください。
―― Engadgetの編集会議でも置いてみようと思います。最後にピカチュウトークを今後どうしていきたいなどがあれば教えてください。
小川:今の仕様だと、登録されていない言葉を話かけられた場合は「ピカピカ〜」ばっかり言ってしまうので、もう少しそこを改良したいです。例えば、ピカチュウの技は「10まんボルト」を登録していますが、10まんボルト以外の技を言われる方も多かったので、「みんなマニアックだなぁ」と思いながら、もっと豊かに反応してくれるように改修しようと思っています。
―― ありがとうございました!
