グーグル（Google）は5日、最新のマルチモーダルAIモデル「Gemini 3 Pro」の性能に関して公式ブログ「The Keyword」で公開した。視覚・空間認識能力を飛躍的に向上しており、Gemini 3 Proは、Google AI Studioおよび開発者向けドキュメントを通じて利用できる。

高度な視覚・空間認識で18世紀の帳簿もデータ化

Gemini 3 Proは、単純な認識を超えた真の「視覚・空間推論」を実現する世代的な飛躍を遂げており、文書や空間、画面、動画の理解において最先端のパフォーマンスを発揮するとしている。

文書理解（Document Understanding）においては、手書き文字、複雑な数式、非線形なレイアウトなどが混在する非構造化ドキュメントの処理能力が大幅に向上した。視覚的なドキュメントをHTML、LaTeX、Markdownなどの構造化コードに逆変換して再現する「Derendering（逆レンダリング）」機能を搭載しており、18世紀の商人の帳簿をテーブルデータ化したり、数式を含む画像をLaTeXコードに変換したりすることが可能だ。さらに、長文レポート内の図表を横断した多段階の推論も行え、推論ベンチマーク「CharXiv」では人間のベースライン（80.5％）を上回る性能を記録している。

18世紀の帳簿をデータ化した様子

手書きの方程式をテキスト化

空間理解（Spatial Understanding）では、物理世界を理解する能力が強化された。画像内の特定の場所をピクセル単位の座標で指摘できる「ポインティング機能」に加え「散らかったテーブルを片付ける計画を立てて」といったロボティクスへの応用やAR/XRデバイスでの「ユーザーマニュアルに従ってネジを指し示す」といった指示に対応可能な「オープン語彙による参照」を実現している。

スクリーン理解（Screen Understanding）においては、デスクトップやモバイルOSの画面を正確に認識し、クリック操作などを高精度で行うことができる。これにより、QAテストや反復タスクの自動化など、コンピュータ操作エージェントとしての実用性が高まった。

動画理解（Video Understanding）でも大きな進歩を遂げており、1fps以上でのサンプリングによる高フレームレート対応で、ゴルフのスイングのような高速な動作の詳細を捉えることが可能になった。また「Thinking」モードによる動画推論では、単に何が起きているかだけでなく、なぜ起きているかという因果関係を追跡できるほか、長尺動画から知識を抽出し、機能するアプリや構造化コードに直接変換する機能も備える。

教育や医療などへの応用に期待

実社会での応用としては、教育分野での数学や科学の図解問題の解決、医療・バイオ分野での専門レベルの医学推論、法務・金融分野での複雑な契約書や財務レポートの分析支援などが期待されている。

数学の宿題を写真に写して添削を依頼した様子。

開発者向けには、新しい media_resolution パラメーターを通じて、パフォーマンスとコストを細かく制御できる機能が提供される。詳細なOCRが必要なタスクには「高解像度」、一般的なシーン認識には「低解像度」といった使い分けができる。