Googleが2024年5月15日にビジュアル言語モデル(VLM)の「PaliGemma」と、大規模言語モデル(LLM)の「Gemma 2」を発表しました。PaliGemmaはすでにリリースされており、簡単に試せるデモも公開されています。

Introducing PaliGemma, Gemma 2, and an Upgraded Responsible AI Toolkit - Google Developers Blog

https://developers.googleblog.com/en/gemma-family-and-toolkit-expansion-io-2024/

PaliGemma - Google's Cutting-Edge Open Vision Language Model

https://huggingface.co/blog/paligemma

◆ビジュアル言語モデル「PaliGemma」

PaliGemmaは画像を認識して「画像の内容を説明する」「画像内のテキストを理解する」「画像内のオブジェクトと背景を分離する」といった操作が可能なビジュアル言語モデルです。

PaliGemmaはGitHub、Hugging Face、Kaggle、Vertex AI Model Gardenで入手可能なほか、NVIDIAも自社製GPUに最適化したPaliGemmaを開発しています。また、PaliGemmaの機能を試せるデモページも以下のリンク先で公開されています。

PaliGemma Demo - a Hugging Face Space by google

https://huggingface.co/spaces/google/paligemma



実際に、デモページでPaliGemmaの機能を試してみました。ティッシュ箱が写る画像と「これは何?」というテキストを入力して「Run」をクリック。



すると、「グレーのカーペットの上に座ってる白いティッシュボックス」という回答が返ってきました。



◆大規模言語モデル「Gemma 2」

Googleは2024年2月にGeminiの研究資源を活用したオープンソースのLLM「Gemma」を公開していました。新たに、GoogleはGemmaの強化版であるGemma 2を発表しました。

Googleがオープンかつ商用利用可能で軽量な大規模言語モデル「Gemma」を公開 - GIGAZINE



Gemma 2のパラメータ数は270億で、パラメータ数700億のLlama 3 70Bに匹敵する性能を発揮するとのこと。また、Gemma 2はNVIDIA製GPUやGoogleのAIプラットフォーム「Vertex AI」に最適化されており、同等クラスのモデルと比べて半分未満のリソースで動作させられます。

記事作成時点ではGemma 2は事前トレーニングの最中ですが、すでに各種ベンチマークテストでGrokを上回るスコアを示しています。



なお、Gemma 2は今後数週間以内に公開される予定です。