Googleが、現地時間2024年5月14日に開催された開発者向けイベント「Google I/O」において、2024年2月に発表された高性能AIモデル「Gemini 1.5 Pro」のアップデートについて発表しました。

Gemini 1.5 Pro updates, 1.5 Flash debut and 2 new Gemma models

https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/



Google Gemini update: Access to 1.5 Pro and new features

https://blog.google/products/gemini/google-gemini-update-may-2024/

2024年2月15日に発表されたGemini 1.5 Proは、最大で1時間のムービーや70万語ものテキストを扱えるとうたわれています。発表当初のGemini 1.5 Proは「限定テスト」として一部のユーザーのみが使用可能でしたが、2024年4月9日からはパブリックプレビューが開始され、Gemini API経由で誰でも利用可能になっています。

GoogleがGemini 1.5 Proの一般プレビューを開始、音声理解・システム命令・JSONモードなどの新機能を搭載 - GIGAZINE



さらに2024年5月に開催されたGoogle I/Oでは、Gemini 1.5 Proで翻訳やコーディング、推論など、主要なユースケースで一連の品質改善が行われたことが報告されています。また、当初のGemini 1.5 Proのコンテキストウィンドウは100万トークンでしたが、今回の発表ではプライベートプレビューで200万トークンに倍増したことが明かされています。



なお、200万トークンのコンテキストウィンドウを利用するには、Google AI StudioまたはVertex AIの待機リストに参加する必要があるとのことです。

加えてGoogleはGemini 1.5 ProをAIチャット「Gemini Advanced」に導入することを発表しました。Googleによると、Gemini 1.5 Proの導入によって合計1500ページの文書を理解したり、約100通の電子メールを要約したりすることが可能とのこと。またGoogleは「近いうちに、1時間に及ぶビデオコンテンツや3万行以上のコードベースも扱えるようになるでしょう」と述べています。

また、Googleはコンテキストウィンドウを活用するために、Googleドライブ経由で直接Gemini Advancedにファイルをアップロードする機能を追加しました。これにより、複雑なドキュメントに関する回答などを素早く生成することが可能になるほか、アップロードしたスプレッドシート上のデータの分析やグラフを構築するなどの要求ができるようになります。なおGoogleは「アップロードされたデータはAIモデルのトレーニングには使用されません」と述べています。



さらに、Gemini Advencedの登録者向けの音声会話機能「Gemini Live」が数カ月以内に公開されることが発表されています。Gemini LiveについてGoogleは「Gemini Liveでは、複数の自然な音声の中から好きな音声を選択することが可能です。また、他の会話と同じように、自分のペースで話したり、応答の途中で中断して質問を明確にしたりすることもできます」と報告しています。また、Googleは2024年後半にGemini Live使用時にカメラを利用できるようにする予定であることを明かし、これによってカメラで写したものについても会話が可能になるとしています。