日本のAI企業・Sakana AIは、PyTorchで記述された処理をより高速に実行するためのCUDAカーネルに自動最適化する「AI CUDA Engineer」を2025年2月20日に発表しました。しかし、実際にAI CUDA Engineerを検証したところ、高速化どころか速度が3分の1に低下したという報告がX(旧Twitter)に挙がっています。

Sakana walks back claims that its AI can dramatically speed up model training | TechCrunch

https://techcrunch.com/2025/02/21/sakana-walks-back-claims-that-its-ai-can-dramatically-speed-up-model-training/

検証したユーザーは「Sakana AIのAI CUDA Engineerは魅力的ですが、高速化を検証することができません」と述べています。



また、別のユーザーは「Sakana AIは論文で『150倍の高速化を達成した』と主張していますが、実際にベンチマークをしてみたところ、3倍遅くなります……」と報告しました。



このユーザーはコードの一部に問題があり、正確性のチェックをバイパスしているのではないかと指摘しています。



OpenAIの技術スタッフであるルーカス・ベイヤー氏によると、AI CUDA Engineerのコードをo3-mini-highで検証したところ、元のコードにバグがあったとのこと。その後、o3-mini-highによる修正を反映したところ、コードは修正されたものの、ベンチマークの結果はやはり「3倍遅い」となったそうです。



さらにベイヤー氏は、Sakana AIがベンチマークを実行した2回分の結果が全く異なるものだった点を指摘し、「非常に簡素なCUDAコードが、最適化されたcuBLASカーネルよりも高速になる可能性は全くありません。高速になる場合は何かが間違っています」「ベンチマーク結果が不可解で一貫性がない場合は何か問題があります」「o3-mini-highは本当に優れています。問題を見つけるのに文字度通り11秒しかかかりませんでした。そして、私が一連の内容をまとめるのに10分かかりました」と述べています。つまり、LLMが生成したコードにミスがあり、正しく計算が行われていなかったにもかかわらず、高速化を目標として実行時間に注目していたため、結果の正確性は無視されていた可能性があるというわけです。



2月22日、Sakana AIは事後分析レポートを発表。このレポートで、Sakana AIは「AIが評価コードの脆弱(ぜいじゃく)性に気付き、正確性のチェックを回避するようなコードを生成していた」と述べ、AIが高く評価されるために不正を働いていたことがわかったと認めました。Sakana AIはすでにこの問題に対処しており、論文を修正する予定だと述べています。