GPT-4oの中国語トークンはポルノとスパムに汚染されている
2024年5月にOpenAIの最新AIモデル「GPT-4o」が発表されました。テキストや音声、カメラの入力を人間と同じぐらいの速度で処理可能という高い性能であることが報じられているのですが、一方で、中国語ユーザーからは、トレーニングに大きな問題を抱えていて、トークンデータが汚染されていることが指摘されています。
Just wrote a script to further investigate how the corpus used to train the gpt4o tokenizer is polluted by Internet scams. The results are quite interesting... 🤦♂️🤦♂️🤦♂️https://t.co/Fc2T4rSHix https://t.co/Q1Syh9amJn pic.twitter.com/lQ1u5aQoAs— Tianle Cai (@tianle_cai) May 13, 2024
OpenAI´s GPT-4o has a Chinese Porn and Spam Problem - WinBuzzer
問題を指摘したのは、プリンストン大学の博士課程の学生で、大規模言語モデルの推論効率を研究している蔡天楽氏です。
AIは入力された文章を「トークン」と呼ばれる単位に分解して、効率的な処理を行っています。また、AIの使用にあたっては入出力するトークンの数に応じて料金が設定されており、GPT-4oの場合は入力が100万トークンあたり5ドル、出力が100万トークンあたり15ドルとなっています。GPT-4oの特徴の1つは、日本語や中国語など20種類の言語で使用するトークン数を削減したところにあり、扱うトークン数が少ないため利用料金も抑えられるようになっています。
Pricing | OpenAI
https://openai.com/api/pricing/
GPT-4oは20万トークンを持ち、そのうち25%が英語以外の言語のものだとのこと。
蔡氏は、公開のトークンライブラリから中国語の最長トークン100件を取得して、トークンの内容を調査しました。
すると、トークンはポルノやスパムのフレーズばかりで、データが汚染されているような状態にあることがわかったとのこと。
以下は、蔡氏が示した「GPT-4oが扱う中国語の長いトークン」の内容で、「日本毛片免费视频观看(日本のポルノ無料動画)」や「中国福利彩票天天(中国福祉宝くじ)」、「免费视频在线观看(無料のオンライン動画)」など、ポルノやギャンブル関連の語句が並んでいます。
Longest Chinese tokens in gpt4o · GitHub
https://gist.github.com/ctlllll/4451e94f3b2ca415515f3ee369c8c374
こうした問題は、無関係のページを乗っ取るスパムサイトが作られたことで、学習元のデータセットが汚染されたことに起因して発生していると推測されています。なお、GPT-3.5やGPT-4では異なるトークンライブラリが使用されているため、同種の問題は起きていないとのことです。
なお、日本語のトークンに関しても「風吹けば名無し」など、5ちゃんねるや関連サイトをもとにしたデータが含まれていることが示されています。
gpt-4o で使われたo200k_base tokenizer の日本語の部分・・・完全に5ちゃんねる・・・ pic.twitter.com/5qQe1Mwd3Y— Aixile (@_aixile) May 14, 2024