米Googleは5月5日(現地時間)、オープンモデル「Gemma 4」ファミリー向けに、Multi-Token Prediction(MTP:マルチトークン予測)ドラフターを公開した。投機的デコーディングに用いる軽量モデルで、出力品質や推論ロジックを劣化させることなく、最大3倍の推論高速化を実現するという。Apache 2.0ライセンスで提供され、Hugging FaceおよびKaggleからダウンロードが可能だ。通常のLLM推論では、1度に1つのトークンを生成する自己