GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円
画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。
Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium
今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「Llama3 8B」をベースにしたモデルで、ベンチマークでは人気マルチモーダルモデルのLlavaに比べてパフォーマンスが10〜20%向上していることや、MMMUを除く全ての指標で、サイズが100倍以上あるクローズドソースの競合モデルに匹敵する性能を持つことが示されました。
Llama 3-VはオープンソースモデルとしてHugging FaceとGitHubで公開されています。
mustafaaljadery/llama3v at main
https://huggingface.co/mustafaaljadery/llama3v/tree/main
GitHub - mustafaaljadery/llama3v: A SOTA vision model built on top of llama3 8B.
https://github.com/mustafaaljadery/llama3v
また、Hugging Faceで試用することもできます。
LLaVA++ (LLaMA-3-V) - a Hugging Face Space by MBZUAI
https://huggingface.co/spaces/MBZUAI/LLaMA-3-V
まずサンプルをクリックしてみると、水辺の画像をお題にした「この場所を訪れる際の注意点は?」という質問に対し、「曇りなので急に雨が振ったり嵐になったりする可能性があります。また、船着き場が湖にあるので、浮遊物や水の底にある潜在的な危険物など、水に関する状況に注意が必要です。そして、野生動物を含む周囲の環境に配慮し、安全で楽しい訪問にするためには、その地域の管理者が示したルールやガイドラインに従わなければなりません」と回答しました。
せっかくなので、自分で用意した画像をアップロードしてみます。
続いて、画像の面白いところを尋ねる文章を入力して、「Send」をクリックしました。
すると、「犬が王冠をかぶっているのが面白い」と答えてくれました。
Llama 3-Vを公開したAksh Garg氏によると、このモデルはまず画像を視覚モデルのSigLIPに渡して、画像とテキストの関係性を分析してから、それをLlama 3に渡すことで動作しているとのこと。
Garg氏は、「Llama 3は世界を席巻し、ほとんどのベンチマークでGPT-3.5を、いくつかのベンチマークでGPT-4を上回りました。そして、GPT-4oが登場してマルチモーダルな精度で王座を奪還しましたが、Llama 3-Vはそれをさらにひっくり返すモデルです。Llama 3上に構築されたマルチモーダルモデルは史上初で、おまけにトレーニングに500ドルもかかりません」とコメントしました。