Googleがオープンソースのビジュアル言語モデル「PaliGemma」を公開＆Llama 3と同等性能の大規模言語モデル「Gemma 2」を発表

2024年5月15日 13時3分

Googleが2024年5月15日にビジュアル言語モデル(VLM)の「PaliGemma」と、大規模言語モデル(LLM)の「Gemma 2」を発表しました。PaliGemmaはすでにリリースされており、簡単に試せるデモも公開されています。

Introducing PaliGemma, Gemma 2, and an Upgraded Responsible AI Toolkit - Google Developers Blog

https://developers.googleblog.com/en/gemma-family-and-toolkit-expansion-io-2024/

PaliGemma - Google's Cutting-Edge Open Vision Language Model

https://huggingface.co/blog/paligemma

◆ビジュアル言語モデル「PaliGemma」

PaliGemmaは画像を認識して「画像の内容を説明する」「画像内のテキストを理解する」「画像内のオブジェクトと背景を分離する」といった操作が可能なビジュアル言語モデルです。

PaliGemmaはGitHub、Hugging Face、Kaggle、Vertex AI Model Gardenで入手可能なほか、NVIDIAも自社製GPUに最適化したPaliGemmaを開発しています。また、PaliGemmaの機能を試せるデモページも以下のリンク先で公開されています。

PaliGemma Demo - a Hugging Face Space by google

https://huggingface.co/spaces/google/paligemma

実際に、デモページでPaliGemmaの機能を試してみました。ティッシュ箱が写る画像と「これは何？」というテキストを入力して「Run」をクリック。

すると、「グレーのカーペットの上に座ってる白いティッシュボックス」という回答が返ってきました。

◆大規模言語モデル「Gemma 2」

Googleは2024年2月にGeminiの研究資源を活用したオープンソースのLLM「Gemma」を公開していました。新たに、GoogleはGemmaの強化版であるGemma 2を発表しました。

Googleがオープンかつ商用利用可能で軽量な大規模言語モデル「Gemma」を公開 - GIGAZINE

Gemma 2のパラメータ数は270億で、パラメータ数700億のLlama 3 70Bに匹敵する性能を発揮するとのこと。また、Gemma 2はNVIDIA製GPUやGoogleのAIプラットフォーム「Vertex AI」に最適化されており、同等クラスのモデルと比べて半分未満のリソースで動作させられます。

記事作成時点ではGemma 2は事前トレーニングの最中ですが、すでに各種ベンチマークテストでGrokを上回るスコアを示しています。