Googleが提供する翻訳サービスの「Google翻訳」が、新たに24の言語をサポートしました。これにより、Google翻訳がサポートする言語の数は133に到達することとなります。

Google Translate adds 24 languages

https://blog.google/products/translate/24-new-languages/

Google AI Blog: Unlocking Zero-Resource Machine Translation to Support New Languages in Google Translate

https://ai.googleblog.com/2022/05/24-new-languages-google-translate.html

Google Translate adds support for 24 new languages - 9to5Google

https://9to5google.com/2022/05/11/google-translate-new-languages/

Googleによると、今回新たにサポートされた24の言語を利用する話者は全世界で3億人以上にものぼるとのこと。今回サポートされた言語には、インド北東部で約80万人が使用するミゾ語や、中央アフリカ全体で4500万人以上が使用するリンガラ語などがあります。さらに、今回のアップデートではアメリカ先住民の使うケチュア語、グアラニー語、アイマラ語や、英語の方言であるシエラレオネのクリオ語も初めてサポートされます。

今回サポートされた24言語とその話者が暮らす地域は以下の通り。

・インド北東部で約2500万人が話すアッサム語

・ボリビア、チリ、ペルーで約200万人が話すアイマラ語

・マリで約1400万人が話すバンバラ語

・インド北部、ネパール、フィジーで約5000万人が話すボージュプリー語

・モルディブで約30万人が話すディベヒ語

・インド北部で約300万人が話すドーグリー語

・ガーナとトーゴで約700万人が話すエウェ語

・パラグアイ、ボリビア、アルゼンチン、ブラジルで約700万人が話すグアラニー語

・フィリピン北部で約1000万人が話すイロカノ語

・中央インドで約200万人が話すコンカニ語

・シエラレオネで約400万人が話すクリオ語

・主にイラクで約800万人が話すクルド語

・コンゴ民主共和国、コンゴ共和国、中央アフリカ共和国、アンゴラ、南スーダン共和国で約4500万人が話すリンガラ語

・ウガンダとルワンダで約2000万人が話すルワンダ語

・インド北部で約3400万人が話すマニプリ語

・インド北東部で約83万人が話すミゾ語

・エチオピアとケニアで約3700万人がはなすオロモ語

・ペルー、ボリビア、エクアドルおよび周辺国で約1000万人が話すケチュア語

・インドで約2万人が話すサンスクリット語

・南アフリカで約1400万人が話すセペディ語

・エリトリアとエチオピアで約800万人が話すティグリニャ語

・エスワティニ、モザンビーク、南アフリカ、ジンバブエで約700万人が話すツォンガ語

・ガーナで約1100万人が話すツウィ語

これらの24の言語は明示的なトレーニングやマッピングの存在しない2つの言語のフレーズを翻訳する「ゼロリソース翻訳」を使用してGoogle翻訳に追加された最初の言語となります。ゼロリソース翻訳をわかりやすく説明すると、「例を見ることなく別の言語に翻訳する方法を学習する機械学習モデル」です。ただし、Googleは「このテクノロジーは印象的ですが完璧ではないため、モデルを継続的に改善していく」と説明しています。



Google翻訳が24の新しい言語をサポートできるようになった理由は、ディープラーニングと自然言語処理を統合することで、機械翻訳技術が近年大きな進歩を遂げたためです。そんな機械翻訳技術においてネックとなるのが、マイナー言語では「デジタル化されたテキストデータが限られている」という点。さらに、機械翻訳モデルは通常、大量の翻訳済み並列テキストを用いることで翻訳方法を学ぶ必要があります。しかし、前述の「データ不足」により、機械翻訳モデルは限られた量の単一言語テキストから翻訳方法を学習する必要があります。

また、データが不足しているマイナー言語のテキストデータを自動で収集することは非常に困難だそうです。言語特定を行うライブラリのLangIDなどは、メジャー言語ではうまく機能するものの、マイナー言語では失敗するケースが多いとのこと。加えて、インターネット上で収集されたデータセットには使用可能なデータよりも多くのノイズが含まれているケースが多くあるため、マイナー言語を正しく翻訳できるようなモデルの構築は非常に難しくなっているわけです。

そのため、Googleは半教師あり学習を用いたLangIDモデルを作成。GoogleはこのモデルをMASSタスクで補完し、ノイズの多いデータを一般化することに成功しています。MASSはトークンのシーケンスをランダムに削除することで、わざと入力を文字化けさせ、これらのシーケンスを予測させることでモデルを学習します。これによりデータセットが少ないマイナー言語の類似言語集団を特定することが可能になるとのこと。

これらを駆使したのがGoogleのゼロリソース翻訳モデルです。単言語テキストのデータセットだけでなく、メジャー言語の数百万例の並行テキストデータも含めて翻訳タスクを学習させることで、1000以上の言語の利用可能データをまとめて学習する単一の巨大翻訳モデルとなっています。Googleのゼロリソース翻訳モデルは、学習時にモデルが見る入力に対して「どの言語で出力すべきか」を示す特別なトークンを持っています。Googleは単言語のMASSタスクと翻訳タスクの両方に同じトークンを使用することで、例えば「translate_to_french」というトークンに対して、「英語のソースをフランス語に翻訳するタスク」(翻訳タスク)と、「ソースが文字化けしたフランス語で、流暢なフランス語に翻訳する必要があるタスク」(MASSタスク)の両方を実行可能です。Googleは「この簡単な手順だけで驚くべきほど翻訳精度が向上した」と記しています。

以下のグラフは横軸が単一言語のセンテンス(データセット)の数、縦軸が翻訳精度スコア(高いほど優れた翻訳を実現)を表しており、Googleのゼロリソース翻訳でマイナー言語(青点)とメジャー言語(赤点)を翻訳した際のスコアがまとめられています。マイナー言語であってもGoogleのゼロリソース翻訳モデルならば、ある自然言語から別の自然言語に機械翻訳されたテキストの品質を評価するためのアルゴリズムであるBLEUスコアは中品質(10〜40)、別のアルゴリズムのChrFなら高品質(20〜60)のスコアをたたき出したことが判明しました。