Facebook、45言語の自動翻訳に対応(と、その先に描かれている世界)

写真拡大

フェイスブックが、投稿を45言語へ自動翻訳できる機能「多言語コンポーザー」の一般ユーザー向けのテストを開始した。ユーザーが翻訳をするたびにフェイスブックのニューラルネットワークは成長し、「言葉の壁を取り除く」という彼らの目標にも近づくことになる。

「Facebook、45言語の自動翻訳に対応(と、その先に描かれている世界)」の写真・リンク付きの記事はこちら

Facebookの利用者は15億人を超えているが、そのうち英語を話すのは半分ほどだ。残りの半数は話す言語がさまざまで、彼らは実質的に英語話者とは隔てられており、多くの場合、お互いに孤立している。この点で、ソーシャルメディアは「ソーシャル」ではない。

しかし、状況は変わりつつある。Facebookで知らない言語の投稿に出くわしたら、すぐにある程度の翻訳ができるようになるのだ。

ある投稿を別の44の言語に素早く翻訳し、他ユーザーのニュースフィードではその人の母語で表示させるオプション「多言語コンポーザー」の一般ユーザー向けテストが、7月1日(米国時間)から行われている。現在対象は一部のユーザーに限定されているが、その最終的な目標は、世界中の全員がほかのユーザーに簡単に語りかけられるようにすることだ。

フェイスブックで自動翻訳プロジェクトを統括する、トルコ育ちのネシップ・ファジル・アヤンは「わたしはこのためにフェイスブックに入りました。こうしたプロジェクトに関わることを個人的な目標にしてきたのです」と言う。

企業や著名人は、以前からこの多言語コンポーザーを利用できた。そのうち、いまのところ約5,000の企業と著名人が、1日1万件近く多言語の投稿を公開している。多言語投稿の閲覧数は1日約7,000万件近く。そのうち3分の1以上がオリジナルの投稿とは異なる言語で見られている。

アヤン氏は、世界的に活躍するサッカー選手を例に挙げた。例えばブラジルのスタープレイヤー、ロナウジーニョは多言語コンポーザーを使い、ポルトガル語のほかにスペイン語と英語で投稿している。たくさんの一般ユーザーが、これと同じ多言語投稿をできるようになるのだ。

ニューラルネットワークを成長させるために

多言語コンポーザーでは、機械による翻訳を修正することも、自分で翻訳することもできる。しかし究極の目標は、完全に自動化されたものをすべての人に提供することだ。

機械翻訳は、完璧には程遠いが改善が進んでいる。フェイスブックは今後、45言語間の自動翻訳を提供していくが、現時点では翻訳の大部分は従来型のアルゴリズムモデルによるものだ。

しかし、英語からドイツ語の翻訳に関しては、ディープニューラルネットワークの研究を進めているところであり、アヤン氏によると改善はかなり進んでいるという。

ニューラルネットワークは近年、写真の顔認識や音声言語の認識といった特定の課題を、大量のデジタルデータを分析して学習するのに極めて秀でていることが示されている。その技術によって、機械翻訳の改善と自然言語の理解も進んでいる。翻訳する単語と文の意味を、機械が本当の意味で理解するようになるのだ。フェイスブックは、機械翻訳エンジン全体でこの技術を推進していくつもりだ。

RELATED

同じ変化はインターネットのそこここで起きている。マイクロソフトが2014年にベータ版を公開した「Skypeリアルタイム翻訳(日本語版記事)」は、ニューラルネットワークを利用している。

マイクロソフトでデータと機械学習に関するクラウドコンピューティング・サーヴィスを統括するジョゼフ・サイロシュによると、同社のほかの翻訳サーヴィスにもニューラルネットワークが導入されているという。ニューラルネットが機械翻訳を完全にマスターするのは、ほかの技術と組み合わせるとしてもまだ先のことだろう。だが少なくとも、多くの研究者がそれを目指している。

そんな未来にたどり着くには、データの質と量を向上させる必要がある。ニューラルネットはデータで成長するからだ。そして、Facebookの多言語コンポーザーはここでも貢献する。ユーザーが機械翻訳を修正する、あるいは自ら翻訳をするたびに、新しい翻訳データが生み出されていくのだ。

こうしたユーザーによるデータの蓄積は、Facebookが翻訳する45言語以外の言語に対しても大きな意味をもつ、とアヤン氏は言う。「例えば、カタルーニャ語からトルコ語の翻訳についてはデータがまったく足りていません」と彼は指摘する。「世界中の人々が(多言語コンポーサーを使って)投稿してくれると、『言葉の壁を取り除く』というわれわれのミッションの達成に自然に近づいていくのです」

※ アヤン氏らが執筆しているブログ記事によると、対応するとされる45の言語のうち、38は以下の通り。いわゆる「孤立言語」とされているバスク語なども含まれている。

アフリカーンス語アラビア語アルバニア語イタリア語インドネシア語エストニア語オランダ語カタルーニャ語韓国語ギリシャ語クロアチア語スペイン語スロヴァキア語スロヴェニア語チェコ語中国語(詳細は不明)デンマーク語ドイツ語日本語ノルウェー語バスク語ハンガリー語ビルマ語フィリピン語フィンランド語ブルガリア語ブルターニュ語ヘブライ語ペルシャ語ポーランド語ボスニア語ポルトガル語マケドニア語マレー語ラトヴィア語リトアニア語ルーマニア語ロシア語

INFORMATION

『WIRED』VOL.19「ことばの未来」

「ことば」の未来を考えることで、ぼくらはどんな未来を得ることができるのだろう? 「絶滅した言語」や2人のデザイナーが交わした「インフォグラフィック文通」、カズオ・イシグロら4人の作家に訊いた「文学のイノヴェイション」、予防医学の俊英・石川善樹による自然言語処理界の天才たちへのインタヴューなど。そのほか、OPNとのニューヨーク彷徨にベン・ホロウィッツのビジネス訓、『スター・ウォーズ/フォースの覚醒』の舞台裏エピソードを掲載!