Google翻訳のAI、未学習の言語ペアも「そこそこ流暢」な翻訳が可能に。言葉の意味を中間言語化、他の言語に適用

写真拡大

ニューラルネットワークを利用したAI技術Neural Machine Translation(NMT, Googleを足してGNMT)を投入し、飛躍的に翻訳精度を向上したGoogle翻訳ですが、研究者がGNMTはあまりAI学習させていない言語の間でも相当な精度で翻訳が可能になると発表しています。


Google翻訳は103の言語を扱い5253とおりの組み合わせで翻訳作業が可能です。しかし実際にこれらすべての組み合わせを充分に学習させるには途方もないCPU処理能力が必要とされるのは想像に難くありません。

例をあげて説明すると、たとえば英語と日本語、英語と韓国語といった組み合わせは学習機会が多く、AIもすでに相当「鍛え上げられた」状態になっているとします。一方で、日本語と韓国語という組み合わせの翻訳は学習量が不足しており(たとえばの話。実際がそうと言っているわけではありません)、まだ翻訳精度が低いかもしれません。


そこで研究者は英語と日本語、英語と韓国語の組み合わせをよく学習させたあとで、学習機会の少ない日本語と韓国語の間でうまく翻訳できるだろうかと考えました。研究者は「答えはイエス。まだ学習させていないはずの日本語と韓国語の間の変換でも、それなりの翻訳ができるようになった」としています。

研究者はGNMTの内部データから3言語の組み合わせをモデル化して確認したところ「100%とは確信できないが」と前置きしつつ「AIが同じ意味を持つ複数言語の文章モデルを自動的にグループ化する特性があることがわかった」としています。「つまりAIは2言語間の訳を暗記するのではなく、意味を理解しそれをコード化した中間言語(Interlingua)的なものを構築しはじめている」とのこと。そして、英語と日本語、英語と韓国語の学習を通じて覚えた言葉や文の意味を中間言語モデルとして、それを利用した日本語と韓国語の翻訳も可能になったということです。

ということは、Google翻訳のAIがさらに本気を出せば、ある言語の組み合わせで学習が進むと、それに引っ張られて他のマイナーな言語どうしでの翻訳力も上がっていくと考えられます。

またある実験では、研究者は1組の言語ペアを鍛えるのに使う学習用文章セットと同じサイズで12言語をつめ込んだ文章セットを用意しました。当然ながら1言語あたりの学習量は少なくなりますが、このセットをAIに学習させてみたところ、通常のセットで学習させたのに比べれば少し低精度ながらそれなりにきちんと翻訳が可能になったとしました。研究者らは「このアプローチを"Googleの規模"で展開していけば、かなり速い速度で多言語対応を進められるだろう」としています。

AIとはいえ勝手に言葉や意味を覚えると聞かされれば、やれコンピューターが感情を...とかスカイネットが...とか言いたくなるかもしれないものの、そこは心配いりません。特定の言語資源の収集によって中間的な言語モデルを作り、資源の乏しい別の言語まで自動的に学習するしくみはゼロショット学習などと呼ばれ、言語処理やその他の分野でも研究が進められています。

AIによる翻訳プログラムは様々な企業や機関が長年研究を続けてきました。しかし、ここへ来てのGoogle翻訳の向上っぷりを見ると、もう少しすれば洋書の翻訳や映画の字幕、海外ニュースまであらゆる翻訳文に「翻訳:Google」と添えられるようになるのもあっという間かも、と思わずにはいられません。