なんと397BのAIモデルをiPhoneで動かすことに成功

Appleのハードウェアと、外部ストレージからAIの「重み」をストリーミングするという手法を用い、パラメータ数が397B(3970億)の大型モデルをiPhoneで動作させるという試みが成功したことが分かりました。
Autoresearching Apple's "LLM in a Flash" to run Qwen 397B locally
https://simonwillison.net/2026/Mar/18/llm-in-a-flash/
Qwen3.5-397B-A17BはMoE(Mixture of Experts)アーキテクチャを採用していて、重みの一部だけで推論を実行することができるため、情報を全て同時にRAMで保持して実行する必要がなく、外部ストレージからのストリーミングで対応できるとのことです。
ウッズ氏は毎秒5.7トークンの処理速度と最大毎秒7.07トークンのスループットを実現し、約5.5GBの常駐メモリを使用しながら、本番環境レベルの出力品質を維持することに成功しました。
https://t.co/WEFb86xtnS— Dan Woods (@danveloper) March 18, 2026
この情報を元に、AI研究者のANEMLL氏がiPhone 17 Proで同様の実験を行ったところ、毎秒0.7トークンで処理することに成功したそうです。これにはウッズ氏も思わず「WHAT.」と驚きの声を寄せました。
WHAT.— Dan Woods (@danveloper) March 23, 2026
なお、ウッズ氏によると、処理のために必要なコードはすべてClaudeが記述したもので、ウッズ氏はアイデアと参考資料を提供しただけだそうです。LLM in a Flashや動作に必要なハードウェアは以前からあったものの、専門分野ではないので手を出せずじまいだったそうですが、2026年2月に登場したClaude Opus 4.6が優秀で、今回実現に至ったとのことです。
