Googleが、Gemini 2.0 Flashに「思考プロセス」を生成するようトレーニングを施したモデルとして「Gemini 2.0 Flash Thinking」を公開しました。元のGemini 2.0 Flashモデルよりも強力な推論が行えるようになっています。

Gemini 2.0 Flash の思考モード  |  Gemini API  |  Google AI for Developers

https://ai.google.dev/gemini-api/docs/thinking-mode?hl=ja





Gemini 2.0 Flash ThinkingのベースとなったGemini 2.0 Flashモデルは2024年12月11日に登場したばかり。Gemini 2.0モデルファミリーの中でもGemini 2.0 Flashは応答速度を重視したモデルでありながら、性能面では前世代の上位モデルにあたるGemini 1.5 Proを上回っています。

Googleが「Gemini 2.0」を発表、高速な軽量モデルで前世代上位モデルを圧倒的に上回る性能 - GIGAZINE



Googleは2024年12月19日、Gemini 2.0 Flashに「思考プロセス」の生成機能を搭載したGemini 2.0 Flash Thinkingの試験運用版を公開しました。

Geminiプロジェクトの主要人物であるノアム・シャジール氏によるデモはこんな感じ。





「表表表と表裏表のどちらかが出るまでコインを投げるときのオッズは?」という確率の問題を質問すると、「Thinking」欄が出現してモデルの思考内容が表示され始めました。



30秒程度で「2:3」という正しい答えが返ってきています。



Google AI Studioのリーダーであるローガン・キルパトリック氏は少しトリッキーなパズルを試しています。





「7」「9」「11」「13」という4つのビリヤードボールの画像を見せ、「どうすれば3つだけを使用して合計30にできますか?」と質問。



Gemini 2.0 Flash Thinkingモデルは全ての組み合わせを足し算するなど試行錯誤していましたが、いずれの組み合わせもうまくいかないと分かった後に「画像の表現を解釈する方法はあるだろうか?ボールに数字が印刷されている。ちょっと待って……。数字を上下逆にできる?9を逆転させれば6に見える」と思考プロセスで述べ、「6」「11」「13」という3つで30になると正しくパズルを解くことができました。



AIの性能を人間にブラインドテストさせるChatbot ArenaではOpenAIのo1-previewやGPT-4oをはじめ他の多数のモデルを抜いて1位に輝いています。





Gemini 2.0 Flash ThinkingはGoogle AI Studioにて使用可能で、応答をテストできるようになっています。

試しに「ドーナツの穴の食べ方を教えて」と入力したところ、「ストレートかつユーモアを含む回答を返す」「『食べ方』というワードが文字通りの意味なのか比喩的表現なのか検討する」といった思考プロセスを経て「うーん、残念ながら、ドーナツには食べられるような『穴』は存在しないんですよね!」と返答してくれました。