「AIはどれだけ現実世界の情報を正確に分析し予測できるかを理解したい」という発想で作られた「AI Trade Arena」が、8カ月にわたり株取引を行った場合にどういった結果になるかを公開しています。

We gave 5 LLMs $100K to trade stocks for 8 months - AI Trade Arena

https://www.aitradearena.com/research/we-ran-llms-for-8-months

AI Trade ArenaはKam氏とJoshua Levy氏が構築した、大規模言語モデルの金融市場でのパフォーマンスを確認するための場です。

2人はOpenAIの「GPT-5」、Anthropicの「Claude Sonnet 4.5」、Googleの「Gemini 2.5 Pro」、xAIの「Grok 4」、DeepSeekの「DeepSeek」に対して、「10万ドル(約1550万円)を元手にして、株取引でできるだけお金を稼いでください」と依頼しました。

行われたのは、戦略を過去の値動きに当てはめて結果をシミュレートするバックテストで、対象期間は2025年2月から10月までの8カ月間。各モデルは、市場データ、ニュースAPI、企業の財務情報にアクセス可能ですが、当時参照可能だった情報だけが見られるようにフィルタリングが行われました。

検証結果を示したインタラクティブデモがサイトトップで確認できます。横軸は時間経過、縦軸は資産増減を示します。

AI Trade Arena

https://www.aitradearena.com/



グラフ下部にある再生アイコンをクリックすると、検証開始からの資産増減をアニメーションで追いかけられます。



開始から2025年4月上旬までは全体的に資産が減少する傾向がみられます。



その後持ち直して、まずはDeepSeek(青)、続いてGrok(黒)が黒字化。2025年6月16日にはすべてのモデルが黒字転換しました。



しかし、Geminiはこの日を最後に黒字に戻ることはありませんでした。一方、DeepSeekが他のモデルを突き放して資産を増やしていきます。



ところが、14万ドルのところに壁があるかのようにDeepSeekの数字が横ばいとなり、その間に成長してきたGrokが2025年9月18日にトップに立ちます。



遅れてDeepSeekも14万ドル台に入ったものの首位は奪還できず、14万9011ドル(約2300万円)で2位。Grokが15万6104ドル(約2410万円)で1位となりました。ClaudeとGPTはいずれも12万7000ドル(約1960万円)近くでフィニッシュ、Geminiのみ9万544ドル(約1400万円)と元手から減らす結果となりました。



Kam氏とJosh氏によると、Geminiを除く4つのAIモデルはテック系ポートフォリオを形成したことで好成績を収めたとのこと。一方、Geminiは非テック系で大規模ポートフォリオを作りマイナスになったそうです。

2人は今後、バックテストとリアルタイムの両方で、さらに多くの実験を行いたいと考えているとのことです。