画像をテーマにAIとおしゃべりできる「Minigpt-4」が登場
![](https://image.news.livedoor.com/newsimage/stf/3/a/3aef8_88_dfdf2bd4e78fc5d44005f7870f0cc3a8.png)
ChatGPT匹敵する精度とされるチャットAI「Vicuna-13B」と、画像にキャプションを付けられる「BLIP-2」を組み合わせることで、アップロードした画像についてAIと会話できるようにした「Minigpt-4」が、公開されました。
Minigpt-4
https://minigpt-4.github.io/
![](https://image.news.livedoor.com/newsimage/stf/a/d/ad3eb_88_cccdfd9b079e7e08bfe377760e20c927.png)
Minigpt-4を発表したページでは、実際にデモンストレーションに触れることもできます。まず、赤枠の部分をクリックします。
![](https://image.news.livedoor.com/newsimage/stf/a/0/a0359_88_4c3492444040034f371aa1a13218f5e4.png)
続いて、会話のテーマにしたい画像を選びます。
![](https://image.news.livedoor.com/newsimage/stf/a/8/a8846_88_ed3cf66f59d9c111762f5d06a73fb203.png)
「Upload & Start Chat」ボタンをクリックします。
![](https://image.news.livedoor.com/newsimage/stf/f/7/f7985_88_8486f72777c3c0fffa71f5d0048e0fa9.png)
アップロードにはしばらく時間がかかります。
![](https://image.news.livedoor.com/newsimage/stf/b/8/b85e2_88_b779c09b83325671f5fad2598eaeaa53.png)
準備ができると画像と入力欄が再表示されるので、「User」の欄に質問を入力します。
![](https://image.news.livedoor.com/newsimage/stf/0/e/0e23c_88_c8d1fef6e4054a2a26a1d34c2583fce0.png)
回答が表示されました。
![](https://image.news.livedoor.com/newsimage/stf/8/e/8ef5f_88_f27e4124294ac3b7fd9f4432cb044f5e.png)
「Restart」をクリックすると、画像と会話をリセットできます。
![](https://image.news.livedoor.com/newsimage/stf/4/4/446e9_88_045322a02d1fa18fd8164e20313cba6d.png)
アップロードした画像の下部には、「beam search numbers」と「Temperature」のパラメータが配置されています。「beam search numbers」はビームサーチでの数の候補と思われます。この数を増やすと回答が増える傾向があるほか、日本語で質問しても英語で答えが返ってくるようになりました。
![](https://image.news.livedoor.com/newsimage/stf/4/c/4c604_88_b16de3faca4b46575ec2cc3cbd1bc5e4.png)
「Temperature」は回答の多様性のこと。しかし、いじってみても特に顕著な違いはありませんでした。
![](https://image.news.livedoor.com/newsimage/stf/7/3/7381f_88_0cbf520a6e97f2cc106b49bb361f387c.png)
記事作成時点では、アクセスが集中しているとのことで、デモのミラーリンクが複数提供されています。
![](https://image.news.livedoor.com/newsimage/stf/b/a/bac95_88_11e517b35e0508c0ea25fb649aa51a14.png)
また、ソースコードも公開されているので、ローカルで動作させることも可能です。さらに、1台のGeForce RTX 3090で動作させられる軽量版の開発も進んでいるとのことでした。
GitHub - Vision-CAIR/MiniGPT-4: MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models
https://github.com/Vision-CAIR/MiniGPT-4
![](https://image.news.livedoor.com/newsimage/stf/4/1/4159c_88_8c61e465205d8fd7b6c423e8ee6c472d.png)