画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。

Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium

https://aksh-garg.medium.com/llama-3v-building-an-open-source-gpt-4v-competitor-in-under-500-7dd8f1f6c9ee

今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「Llama3 8B」をベースにしたモデルで、ベンチマークでは人気マルチモーダルモデルのLlavaに比べてパフォーマンスが10〜20%向上していることや、MMMUを除く全ての指標で、サイズが100倍以上あるクローズドソースの競合モデルに匹敵する性能を持つことが示されました。



Llama 3-VはオープンソースモデルとしてHugging FaceとGitHubで公開されています。

mustafaaljadery/llama3v at main

https://huggingface.co/mustafaaljadery/llama3v/tree/main

GitHub - mustafaaljadery/llama3v: A SOTA vision model built on top of llama3 8B.

https://github.com/mustafaaljadery/llama3v

また、Hugging Faceで試用することもできます。

LLaVA++ (LLaMA-3-V) - a Hugging Face Space by MBZUAI

https://huggingface.co/spaces/MBZUAI/LLaMA-3-V



まずサンプルをクリックしてみると、水辺の画像をお題にした「この場所を訪れる際の注意点は?」という質問に対し、「曇りなので急に雨が振ったり嵐になったりする可能性があります。また、船着き場が湖にあるので、浮遊物や水の底にある潜在的な危険物など、水に関する状況に注意が必要です。そして、野生動物を含む周囲の環境に配慮し、安全で楽しい訪問にするためには、その地域の管理者が示したルールやガイドラインに従わなければなりません」と回答しました。



せっかくなので、自分で用意した画像をアップロードしてみます。



続いて、画像の面白いところを尋ねる文章を入力して、「Send」をクリックしました。



すると、「犬が王冠をかぶっているのが面白い」と答えてくれました。



Llama 3-Vを公開したAksh Garg氏によると、このモデルはまず画像を視覚モデルのSigLIPに渡して、画像とテキストの関係性を分析してから、それをLlama 3に渡すことで動作しているとのこと。



Garg氏は、「Llama 3は世界を席巻し、ほとんどのベンチマークでGPT-3.5を、いくつかのベンチマークでGPT-4を上回りました。そして、GPT-4oが登場してマルチモーダルな精度で王座を奪還しましたが、Llama 3-Vはそれをさらにひっくり返すモデルです。Llama 3上に構築されたマルチモーダルモデルは史上初で、おまけにトレーニングに500ドルもかかりません」とコメントしました。