Googleがより高速で安価な画像生成モデル「Nano Banana 2 Lite」と動画生成モデル「Gemini Omni Flash」を発表

GoogleのAI部門であるGoogle DeepMindが画像生成モデル「Nano Banana 2 Lite」と動画生成モデル「Gemini Omni Flash」を公開しました。高速な画像生成と対話型の動画編集を組み合わせ、生成メディアの試作から制作までを一連の流れで支援する狙いです。
Gemini 3.1 Flash-Lite Image - Nano Banana 2 Lite - Google DeepMind
Start building with Nano Banana 2 Lite and Gemini Omni Flash
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/
Nano Banana 2 Liteは正式名称が「Gemini 3.1 Flash-Lite Image」で、Gemini 3.1 Flash-Liteを基盤とする画像モデルです。最大100万トークンのコンテキストを扱い、応答では画像に加えてテキストも出力でき、画像出力は最大4000トークン、テキスト出力は最大6万4000トークンです。
速度とコストが重要になる大量処理向けに設計されているNano Banana 2 Liteはテキストから約4秒で画像を生成可能で、Nano Banana 2の約20秒、初代Nano Bananaの約7秒より高速。そのため、短時間で案を作り、修正を繰り返すデザイン検討やプロトタイピングに適します。
以下の左側がNano Banana 2で、右側がNano Banana 2 Liteで出力した画像。Nano Banana 2での出力に平均19秒かかっていたのに対し、Nano Banana 2 Liteでは平均3秒でした。

画像生成と画像編集の性能は、人間が出力結果を比較評価するArena.aiにおけるEloスコアで評価されました。画像生成のスコアはNano Banana 2 Liteが1251で、Nano Banana 2の1270には19ポイント届かない一方、初代Nano Bananaの1151を100ポイント上回りました。

画像編集のスコアはNano Banana 2 Liteが1308、Nano Banana 2が1387、初代モデルが1295となり、Nano Banana 2 Liteは初代より13ポイント高い水準です。つまり、Nano Banana 2 Liteは最高品質を狙うモデルではなく、品質と速度、価格のバランスを重視したモデルというわけです。

1K解像度画像1枚を出力するコストはNano Banana 2が約3.9セント(約6円)、初代Nano Bananaが約6.7セント(約11円)であるのに比べて、Nano Banana 2 Liteは3セント強(約5円)。Nano Banana 2 Liteは低遅延と低価格を両立させる位置づけとなっているといえます。

Nano Banana 2 Liteによって生成された画像には、AI生成物であることを識別できる不可視のデジタル透かし「SynthID」が埋め込まれます。Googleは有害な出力を抑えるため、学習データのフィルタリングやラベリング、レッドチーム評価を実施していると述べており、高速化と低価格化に伴い生成量が増える中で識別性を確保する姿勢を示しました。
Nano Banana 2 LiteはGoogle AI Studio、Gemini API、Gemini Enterprise Agent Platformで提供され、SearchのAI Mode、Geminiアプリ、NotebookLM、Google Photos、Stitch、Google Flow、Google AdsなどのGoogle製品でも順次展開されます。Googleは開発者向けだけでなく、消費者向けサービスにも組み込む方針を示しています。Nano Banana 2 LiteのAPI料金は入力100万トークン当たり25セント(約40円)、出力100万トークン当たり1ドル50セント(約250円)です。
同時にリリースされたGemini Omni FlashはGoogle I/O 26で予告されていたモデルで、Geminiのマルチモーダル推論と動画生成・編集を組み合わせたモデルです。Google AI Studio、Gemini API、Gemini Enterprise Agent Platformで開発者向けに提供し、GeminiアプリとGoogle Flowでも利用できます。モデル名は「gemini-omni-flash-preview」で、現時点ではパブリックプレビューとしての展開です。
Gemini Omni Flashでは、テキスト、画像、動画を組み合わせて映像を生成できます。自然言語による対話型編集に対応し、指示文で映像を修正したり、画像やテキストを参照して場面の一貫性を保ったりする使い方を想定します。画面内の文字やグラフィックを、動画内の人物や物体の動きと連動させる機能も特徴です。
以下はあらかじめ撮影された動画を基にGemini Omni Flashで生成された動画。右上に表示されているのはオリジナルの動画です。
また、GoogleはNano Banana 2 Liteで生成した画像をGemini Omni Flashに渡し、動画へ変換した例を紹介しています。
Gemini Omni Flashによる動画出力の料金は1秒当たり10セント(約16円)で、Googleの動画生成モデルで速度重視型のVeo 3.1 Fastと同水準です。記事作成時点だとGemini Omni Flashで生成できる動画は最長10秒のため、出力料金は最大で約160円となります。Googleは今後、より長い動画の出力にも対応する予定だとしています。
なお、Gemini Omni Flashは制約として、Gemini APIでは音声参照のアップロードとシーン延長をまだ利用できません。Googleは「3秒までの動画参照はAPI上で受け付けるものの、モデルが正しく処理できない場合がある」と述べています。また、場面転換やカメラ移動を伴う映像では、キャラクターの一貫性にも改善の余地があるとのことです。
