ChatGPT匹敵する精度とされるチャットAI「Vicuna-13B」と、画像にキャプションを付けられる「BLIP-2」を組み合わせることで、アップロードした画像についてAIと会話できるようにした「Minigpt-4」が、公開されました。

Minigpt-4

https://minigpt-4.github.io/



Minigpt-4を発表したページでは、実際にデモンストレーションに触れることもできます。まず、赤枠の部分をクリックします。



続いて、会話のテーマにしたい画像を選びます。



「Upload & Start Chat」ボタンをクリックします。



アップロードにはしばらく時間がかかります。



準備ができると画像と入力欄が再表示されるので、「User」の欄に質問を入力します。



回答が表示されました。



「Restart」をクリックすると、画像と会話をリセットできます。



アップロードした画像の下部には、「beam search numbers」と「Temperature」のパラメータが配置されています。「beam search numbers」はビームサーチでの数の候補と思われます。この数を増やすと回答が増える傾向があるほか、日本語で質問しても英語で答えが返ってくるようになりました。



「Temperature」は回答の多様性のこと。しかし、いじってみても特に顕著な違いはありませんでした。



記事作成時点では、アクセスが集中しているとのことで、デモのミラーリンクが複数提供されています。



また、ソースコードも公開されているので、ローカルで動作させることも可能です。さらに、1台のGeForce RTX 3090で動作させられる軽量版の開発も進んでいるとのことでした。

GitHub - Vision-CAIR/MiniGPT-4: MiniGPT-4: Enhancing Vision-language Understanding with Advanced Large Language Models

https://github.com/Vision-CAIR/MiniGPT-4