Google翻訳の暗号騒動:ダミーテキストをGoogleに翻訳させた結果

写真拡大

少し前まで、ダミーテキストに使われる「Lorem ipsum」のラテン語をGoogle翻訳にかけると、「中国」、「インターネット」などの奇妙な訳が表示されていた。何かの暗号メッセージだったのだろうか?

「Google翻訳の暗号騒動:ダミーテキストをGoogleに翻訳させた結果」の写真・リンク付きの記事はこちら

「Lorem ipsum dolor sit amet, consectetur adipisicing elit」──。

ウェブデザインを学んだ人なら、この文に心当たりがあるはずだ。デザイン途中のダミーテキストとして印刷の分野では以前から使われていて、その由来は古代ローマの政治家・哲学者キケロが著した『善と悪の究極について』にあるとされている。

多くの人の目にふれるものの、このラテン語の羅列に見た人は関心を払わない。そしてそれはつまり、白日の下で何かを隠そうとするのに理想的な道具ともなるということだ。

情報セキュリティの世界的な専門家、ブライアン・クレブスは、Google翻訳がこのラテン語の言葉を通常ありえない英語に翻訳していたことに気付いた。「lorem ipsum」(小文字)は「中国」に、「lorem lorem」は「中国のインターネット」に、「Lorem ipsum」(大文字)は「NATO」といった具合になっていたのだ。

クレブス氏はブログで語っているように、数カ月前、Deloitteのサイバー・インテリジェンス部門長、ランス・ジェイムスから報告を受けた。ジェイムス氏もまた、2人のセキュリティの研究者から報告を受け取ったようだ。まるでウンベルト・エーコの小説『薔薇の名前』のなかにいるような気がしてこないだろうか?

2人の専門家は、「lorem ipsum」のヴァリエイションや、それらを組み合わせた言葉をGoogle翻訳にかけると、「中国」「NATO」「Internet」「The Company」(スラングでCIAを示す言葉だ)が表示されることに気付いた。結果、例えば「Lorem ipsum ipsum ipsum Lorem」は「中国はとてもとてもセクシーだ」(China is very very sexy)となる。

2人の研究者はさまざまなテストに着手した。得られた結果は、上記クレブス氏のブログに掲載されているスクリーンショットで見ることができる。

TAG

CodeWIRED IT

ここに至って、彼らは仮説を立て始めた。この現象は何から生じているのか? ひょっとして「covert channel」(秘密通信路)なのだろうか? もしかしたら中国の反体制派たちのために用意されたチャンネルなのだろうか?

covert channelとは「本来ならそうしたデータを許可しないはずのプロセスや経路を通じて情報の断片を伝達するための方法」だと、インターネットの専門家でこの報告に最初に関心を示した1人、マッテーオ・フローラは説明する。「特定の種類のデータの伝達を認めないであろうセキュリティ・ポリシーを迂回するためのシステムです」。

概念的には、「steganography」(埋め込みによるデータ隠蔽技術)と同じように、データは隠される。ただし、データは伝達システムの内部に隠されるが、このシステムもまた誰からも隠されている。したがって、チャンネルそのものが不可視なのだ。

covert channelを最初に定義(PDF)したのはバトラー・ランプソンで、1973年のことだ。彼によるとこれは、「ある種の情報伝達のための、計画されたものではない伝達経路」のことだ。そしてここから、これに関して幅広い理論的考察が展開された。

2人の研究者とクレブス自身の調査に戻ると、最も興味深い側面は、まさにキケロのオリジナルのテクストから取られた他の言葉が付け加わると、陰謀めいた文が表示されたことだ。実際、「consectetur Sit Sit Dolor」は、「ロシアは苦しんでいるかもしれない」(Russia May Be Suffering)となり、「sit sit dolor dolor」は「彼は賢い消費者だ」(He is a smart consumer)となる。

3人は少し前にGoogleに通知を行っており、Googleはつい最近、このバグを消すことに決めた。いまはもう、この現象は発生しないようだ。

もっとも、誰もがクレブスの仮説に魅了されたわけではなかった。ビッグデータによって生み出された間違った相関関係の産物にほかならないだろうという意見を述べた人もいた。

Google翻訳は、ネット上の過去の翻訳をベースにして機能していて、多言語のページをもつ報道機関や企業のウェブサイトから対訳テクストを収集する。要するに、アルゴリズムに翻訳を教えるのに、既存のデータが使われている。

そして、「Lorem Ipsum」のテクストの大部分は翻訳されないが、他の種類のコンテンツが横に並んでいる。通常は、「インターネット」、「ビジネス」のような一般的な用語を並べたSPAMページだ。例えばZDNetなどは、この現象をそう説明する。

クレブスは当然のことながらGoogle翻訳の機能を知っている。そして、翻訳の結果が時間とともにわずかに変化していたことも記している。しかし、この仮説が納得のいく説明になりうると確信していないようだ。「なぜ中国や、インターネットや、企業や、機関へのこれほどたくさんの言及やその他の奇妙な組み合わせがなければならないのか?」と、彼はブログに書いている。

専門家の1人は、「誰かが、クラウドソースのデータをもとに進化して学習していくオンライン翻訳の能力を利用することを学んだ。まともな考えの人間が決して(Google翻訳で)書かないような不明瞭なテクストを利用して、誰かが秘密のメッセージを伝達するために潜在的に使うことができる、代替的な意味を作り出したのだ」 と説明する。

TAG

CodeWIRED IT