誰でも簡単に″俺の嫁″と会話できる『MMDAgent』が切り開く新しい世界とは?

写真拡大

名古屋工業大学の開発した『MMDAgent』が最新デジタル製品の展示会『CEATEC JAPAN 2010』に展示され、話題だ。『MMMDAgent』は3Dのキャラクターとおしゃべりすることができるソフトだ。こちらが話しかけると、初音ミクなどのキャラクターがアニメーションつきで返答してくれる。例えば「明日の天気は?」と聞けば「名古屋の天気は晴れです」と答えたり、「歌ってよ」といえばその歌声を披露してくれる。巨大なディスプレイに表示すれば、まるで2次元がこちらにきてくれたような感覚が味わえる。

このソフトの画期的な点は、簡単な記述で誰でもシナリオが書けることだ。たとえば「そんな装備で大丈夫か?」という声が聞こえたら「大丈夫だ、問題ない」と動作をつけながら返答する…というプログラムがたったの2行で書けてしまう。しかも動作させるキャラクターは簡単に入れ替え可能。キャラクターの3Dモデルとして普及しているMikuMikuDance対応のモデルが使用できるので、東方Projectのキャラクターに変えたり、アイドルマスターのキャラクターに変えるのも一瞬だ。

実際に筆者は「そんな装備で大丈夫か?」のやりとりを初音ミクに言わせてほしいと取材時に開発者にリクエストしたところ、目の前でささっとプログラムを書いて実現してくれた。つまり、これは自分の望むキャラクターと、好きに会話するソフトが、誰でも簡単に作れる! そんな夢のようなソフトなのだ。

プログラムコード

開発者の代表として名古屋工業大学・国際音声技術研究所の徳田恵一教授にお話をうかがった。

――なぜコレを作ろうとおもったのでしょう?
長い話になるのですが、要約すると音声認識技術の普及のためです。

――音声認識技術というと…?
音声認識はコンピューターが音声を認識して行動を起こす技術で、たとえば「テレビの音量アップ」と言うとテレビの音が大きくなる…というようなものです。この認識技術については技術が進み、かなりの精度のものがでてきました。そろそろ普及し、社会で大きく使われるようになる! …と言われ初めて早数年。なかなか普及していないのが現状です。

――確かに、あまり普及してないですね。
音声認識のカーナビゲーションや、最近だとgoogleの検索が音声で行われるなど徐々に使われるようになっています。アメリカですと障碍をおもちのかた向けに、ハンズフリーでの操作を義務づけているシーンもあるのですが、日本はそうではないので活躍の場面が限られています。

――なぜ普及しないのでしょう?
私たちも長年研究を続けているんですが、研究者が作るとどうしても「どんな声の人でも認識できて精度は高いけど、使い勝手はいまいち」というものができてしまうんですね。音声認識だと『ピカチュウげんきでちゅう』や『シーマン』といったゲームをご存じのかたもいると思います。ゲームは、精度の高さや実用性よりも面白さを重視してヒットしたわけです。音声認識をもっと面白さの側面から届けられないか、とおもったんです。

――確かに、初音ミクとおしゃべりできると「面白い」ですね。
それだけではありません。初音ミクというソフトが出てから、すばらしい歌やおしゃべりが誕生しましたよね。簡単に3D映像が作れる『MikuMikuDance』が出てからは、さらにその創造の世界が広がった。今回の『MMDAguent』も同じようにして、多くの人に参加して音声認識をつかった新しいコンテンツを作れないかとおもうんです。今回の中心技術はオープンソースという誰でも参加できる形で開発を進めてきました。参加していただけることで技術面が進化したので、次は中身の部分を作れたらとおもいます。

――いつごろ公開予定でしょうか?
私たちの研究室では年末にソフトを公開する、というような伝統があるんです。中身はほとんど完成しているので、公開を楽しみにお待ちください。


これまで、音声認識技術を用いた対話型システムが普及しない原因としては「必要とされるシーンが少ない」という面が大きかった。口に出して何かいうくらいならスイッチを押したりタッチパネルを使ったほうが早いのだ。そこで両手を使えないカーナビ利用などの場面で普及してきた。また、「コンピューターは会話の文脈が読み取れない」という問題もあった。人間の会話は状況に依存しており、必ずしも意味通りではない。朝目玉焼きを食べるときに「とって」といえば調味料が欲しいという意味だし、「お前帰れよwww」というのはツッコミであって、帰宅しろという意味ではない。昔の『Microsoft Office』についてきたイルカが役にたたなかったように、的確な指示をするというのが一番大変なのだ。また、「何か口にだすのが恥ずかしい」という問題もある。

こうした問題を解決したのが小憎たらしい人面魚と対話できるドリームキャストのゲームソフト『シーマン』だ。ゲームなので面白ければよく、認識エラーや文脈を読み取れなくても、相手は魚だからしょうがない。もう一つの解決例としては『ラブプラス』がある。ゲームプレイ中、任天堂DSに向かって「愛してる」と口に出して言うシーンがある。こうしてキャラクターに愛を語りかけることで、より没入感のあるプレイが楽しめるわけだ。なお、『ラブプラス』には電源を切ってしまったときに罰として声を出させるというイベントがある。知人などはカプセルホテルに宿泊したときにこの罰を受け、声の出せない深夜だというのにDSに向かって「愛してる愛してる愛してる」と10回ささやいたのだという……。これは恥ずかしさを逆手にとったすばらしい演出だといえる。

このようにエンターテイメントの力を借りれば、音声認識の問題点を逆に面白さに変えることだってできてしまう。『MMDAgent』の目指す方向性は、案外正統派だといえる。

地図を出す

筆者が『MMDAgent』に期待しているのは、複数人による会話だ。『MMDAgent』が会話する内容は、そのベースに文字によるシナリオが必要だ。こうした文字による対話システムとして昔から「人工無能」と呼ばれているプログラムがある。人間のような対話を目指す人工知能の研究をパロディ的にしたもので、凄いシステムはなくても面白ければいいんじゃないか、とゆるい発想で作られたプログラムだ。人工無能はエンターテイメントとして普及し、今では「twitter bot」という形で見かけることが多い。『twitter』で@をつけて話しかけると自動で返事をしてくれるプログラム、あれがそうだ。

人工無能にも課題があり「返事が予測可能なのでつまらない」「文脈を読み取ってくれない」「誰かがシナリオを更新しないと話題が古びていく」というものだった。こうした課題は『MMDAgent』も丸ごと抱えている。課題に対して「twitter bot」では"中の人"が手入力で時々にあった面白い発言をすることで解決している。松岡修造のbot(@shuzo_matsuoka)が有名で、自動返答と手動の面白い発言が折り重なるため、読んでいて飽きない。他には『伺か』というシステムが革命的な方法でこれを解決している。『伺か』は『偽ペルソナウェア with "偽春菜"』とも呼ばれていたシステムで、2名の人工無能が勝手に会話してくれるものだ。ある意味『ラブプラス』で複数のDS同士が通信して会話する彼女通信システムのようなものだとおもってもいい。複数人がしゃべると文脈が生まれ、勝手に面白いシチュエーションができるのだ。もし『MMDAgent』で3Dキャラクター同士がおしゃべりしているところに、自分も参加できたら……それこそ夢のような話ではないだろうか。

『MMDAgent』のネーミングの元になった3D映像作成ソフト『MikuMikuDance』は一つのソフトにより多くの才能が花開き、思いも寄らないすばらしい動画を生み出した。『MMDAgent』も同様に、ネット上で才能の無駄遣いを披露する"神"たちによって音声認識の世界に新しい風を吹き込むことを期待してやまない。


執筆:伊予柑([NKH]ニコ生企画放送局)
 



■最近の注目記事
アメリカにも"東方"みたいな同人ゲームってあるの? 多言語ゲーム作者に聞いてみた
世界一の滝壺にバンジージャンプ! 虹の中を飛んでみた動画
『ヨハネスブルグのガイドライン』はどこまで本当? 大使にきいてみた!
人気ニコ生『暗黒放送』が運営により削除! その削除基準は?
【放送技術】1万5千円でフィールドミキサーを作るやりかた