GPT4-Vの100分の1のサイズで同等の性能を誇るマルチモーダルモデル「Llama 3-V」が登場、トレーニング費用はたった8万円
![](https://image.news.livedoor.com/newsimage/stf/6/e/6e34c_88_26f1cb731728242fb523498c8bb92826.jpg)
画像認識が可能なオープンソースモデルの「Llama 3-V」が公開されました。Llama 3-Vは、OpenAIのマルチモーダルモデル「GPT4-V」よりも格段に小型で、事前トレーニングにかかる費用は500ドル(約78000円)程度なのにもかかわらず、ほとんどの指標で同等のパフォーマンスを示しています。
Llama 3-V: Matching GPT4-V with a 100x smaller model and 500 dollars | by Aksh Garg | May, 2024 | Medium
今回発表されたLlama 3-Vは、 Metaが公開した言語モデルの「Llama3 8B」をベースにしたモデルで、ベンチマークでは人気マルチモーダルモデルのLlavaに比べてパフォーマンスが10〜20%向上していることや、MMMUを除く全ての指標で、サイズが100倍以上あるクローズドソースの競合モデルに匹敵する性能を持つことが示されました。
![](https://image.news.livedoor.com/newsimage/stf/7/3/7352c_88_5068802344648b4be9a3dd4bf39d9151.png)
Llama 3-VはオープンソースモデルとしてHugging FaceとGitHubで公開されています。
mustafaaljadery/llama3v at main
https://huggingface.co/mustafaaljadery/llama3v/tree/main
GitHub - mustafaaljadery/llama3v: A SOTA vision model built on top of llama3 8B.
https://github.com/mustafaaljadery/llama3v
また、Hugging Faceで試用することもできます。
LLaVA++ (LLaMA-3-V) - a Hugging Face Space by MBZUAI
https://huggingface.co/spaces/MBZUAI/LLaMA-3-V
![](https://image.news.livedoor.com/newsimage/stf/1/4/14ff0_88_52bc9b26df95d11d30aefd5a9b8d2d58.png)
まずサンプルをクリックしてみると、水辺の画像をお題にした「この場所を訪れる際の注意点は?」という質問に対し、「曇りなので急に雨が振ったり嵐になったりする可能性があります。また、船着き場が湖にあるので、浮遊物や水の底にある潜在的な危険物など、水に関する状況に注意が必要です。そして、野生動物を含む周囲の環境に配慮し、安全で楽しい訪問にするためには、その地域の管理者が示したルールやガイドラインに従わなければなりません」と回答しました。
![](https://image.news.livedoor.com/newsimage/stf/a/c/ac482_88_fd81664f8c0f7dca5b24ae5245c40719.png)
せっかくなので、自分で用意した画像をアップロードしてみます。
![](https://image.news.livedoor.com/newsimage/stf/5/b/5bfc9_88_f07fd153569c27b0ce4e55d471626594.png)
続いて、画像の面白いところを尋ねる文章を入力して、「Send」をクリックしました。
![](https://image.news.livedoor.com/newsimage/stf/e/8/e883a_88_23cc72ecda8a71a1d4ae5becd90f2b54.png)
すると、「犬が王冠をかぶっているのが面白い」と答えてくれました。
![](https://image.news.livedoor.com/newsimage/stf/6/e/6e068_88_4258a75d1d5c254f10ff6969ad7735f5.png)
Llama 3-Vを公開したAksh Garg氏によると、このモデルはまず画像を視覚モデルのSigLIPに渡して、画像とテキストの関係性を分析してから、それをLlama 3に渡すことで動作しているとのこと。
![](https://image.news.livedoor.com/newsimage/stf/8/c/8c9f7_88_937aef8c7b5a518135770f5abda204f7.png)
Garg氏は、「Llama 3は世界を席巻し、ほとんどのベンチマークでGPT-3.5を、いくつかのベンチマークでGPT-4を上回りました。そして、GPT-4oが登場してマルチモーダルな精度で王座を奪還しましたが、Llama 3-Vはそれをさらにひっくり返すモデルです。Llama 3上に構築されたマルチモーダルモデルは史上初で、おまけにトレーニングに500ドルもかかりません」とコメントしました。