Googleの提供する翻訳サービス「Google翻訳」が、新たに110の言語に対応しました。これは、過去最大規模の拡大となります。

Google Translate adds 110 languages in its biggest expansion yet

https://blog.google/products/translate/google-translate-new-languages-2024/



Google Translate is getting support for more than 110 new languages - The Verge

https://www.theverge.com/2024/6/27/24186223/google-translate-110-new-languages



Googleによると、AIを用いてサポート言語の拡大を進めており、今回の対応言語拡大では大規模言語モデル「PaLM 2」の貢献が大きかったとのことです。

今回対応した言語を利用する話者は、世界で合わせて6億1400万人以上で、世界人口の約8%に相当します。中には1億人以上の話者を抱える主要言語がある一方で、先住民の小さなコミュニティで使われているような言葉も含まれていて、特にアフリカ言語は過去最大の拡大になったそうです。

新たにサポートされるようになった主要な言語は以下のような感じです。

アファール語:ジブチ、エリトリア、エチオピアで用いられている声調言語。今回追加された言語の中で、最もボランティアコミュニティの貢献が多かったとのこと。

広東語:これまでGoogle翻訳への追加リクエストが特に多かった言語の1つ。書き言葉では広東語は北京語と重複する部分が多く、データを見つけてモデルをトレーニングするのが困難なのだそうです。

マン島語:マン島で用いられるケルト語。1974年に最後のネイティブ話者が亡くなり、ほぼ絶滅の危機に瀕していましたが、島全体で復興運動があり、数千人の話者がいます。

ンコ文字:西アフリカで用いられる「マンデ語派」の標準言語。さまざまな方言を統合した共通言語として、1949年に発明されたそうです。

パンジャーブ語(シャームキー文字):パキスタンでは憲法で国語をウルドゥー語と定め、英語を公用語としていますが、実際にはパンジャーブ語が最も用いられているとのこと。

タマジクト語(アマジク語):北アフリカ全域で用いられているベルベル語派の言語で、方言は多数あるものの、書き文字はおおむね相互理解可能だとのこと。筆記はラテン文字とティフィナグ文字で行われ、Google翻訳はどちらもサポートしています。

トク・ピシン:パプアニューギニアで共通語として用いられる、英語ベースのクレオール語。

なお、Googleは世界中で最も話されている1000の言語をサポートするAIモデルを構築する「1000言語イニシアチブ」も発表しています。