フランスのAIスタートアップ、Mistralが、テキストだけでなく画像も処理できる自社初のマルチモーダルモデル「Pixtral 12B」を発表しました。

mistral-community/pixtral-12b-240910 · Hugging Face

https://huggingface.co/mistral-community/pixtral-12b-240910

「Pixtral 12B」は120億パラメーターのモデルで、テキストと画像を同時に処理できます。これにより画像の説明やオブジェクトの識別、画像関連のクエリへの応答などのタスクが可能になっています。

Apache 2.0ライセンスで公開されている点が特徴。誰でも無料で入手でき、制限なく使用、変更できます。

モデルはMistralが共有したTorrentのマグネットリンクを使ってダウンロードすることができます。





これは、Mistralが「8x22B MOE」を公開したときと同じ手法です。

Mistral AIが突如として新しい大規模言語モデル「8x22B MOE」を発表、コンテキスト長65kでパラメーターサイズは最大1760億か - GIGAZINE



このほか、GitHubおよびHugging Faceページも公開されています。ウェブで機能を試せるデモ版などは公開されていません。

Mistralの開発者対応責任者であるソフィア・ヤン氏によると、 Pixtral 12Bは間もなくMistralのチャットボットとAPI提供プラットフォームであるLe ChatとLe Plateformeでテストできるようになるとのことです。





なお、MistralがPixtral 12Bの開発にどの画像データを使ったのかは不明。AIモデルがトレーニングに使用する画像データには著作権で保護されたものが含まれている場合があるため、過去にしばしば問題視されています。