小型ながらOpenAIやGoogleのAIに匹敵する性能を持つマルチモーダルAI「Molmo」がオープンソースで公開される、ブラウザ版のデモページも
2024年9月25日、アレン人工知能研究所(Ai2)が新たなマルチモーダルAI「Molmo」をオープンソースでリリースしました。MolmoはOpenAIのGPT-4oやGoogleのGemini 1.5 Proといった、大手企業が開発した最先端のAIに匹敵する性能を持ちながら、モデルのサイズは約10分の1と非常に小さくなっています。ブラウザでMolmoの性能をチェックできるデモページも公開されていたので、実際に試してみました。
https://molmo.allenai.org/
molmo.allenai.org/blog
https://molmo.allenai.org/blog
Meet Molmo: a family of open, state-of-the-art multimodal AI models.
Our best model outperforms proprietary systems, using 1000x less data.
Molmo doesn't just understand multimodal data-it acts on it, enabling rich interactions in both the physical and virtual worlds.
Try it… pic.twitter.com/kS4W1wYDPx— Ai2 (@allen_ai) September 25, 2024
Ai2's Molmo shows open source can meet, and beat, closed multimodal models | TechCrunch
https://techcrunch.com/2024/09/25/ai2s-molmo-shows-open-source-can-meet-and-beat-closed-multimodal-models/
今回Ai2がリリースしたMolmoがどのようなAIになっているのかは、以下の動画を見るとわかります。
👋 Meet Molmo: A Family of Open State-of-the-Art Multimodal AI Models - YouTube
スマートフォンでお菓子の袋を手に取り、「これはビーガン食ですか?」と声で尋ねる男性。
MolmoがAI音声で「いいえ、これはビーガン食ではありません」と回答しました。このように、Molmoは画像に写っているものを正しく認識して、人からの質問に答えることができます。
また、「画像に写っている特定のものの数を認識し、ポインターで指す」ということも可能。たとえば、人が大勢座っているテーブルを撮影し、「人数を数えて」と指示します。
すると、写っている人をそれぞれピンク色のポインターで指定し、合計で21人いると回答しました。
コーディングなどのタスクにも対応しており、「この表をJSONファイルにして」といった要求にも答えられます。
自転車の写真を撮影し、「自転車をCraigslist(コミュニティサイト)で売る場合の説明文を作ってもらう」といったことも可能。
駐車スペースの脇にある標識を撮影し、「月曜日の午後1時、ここに駐車できますか?できる場合、何時間駐車できますか?」といった複雑な質問にも回答できます。
Molmoの機能をブラウザ上で試せるデモページも公開されているので、実際に使ってみることにしました。デモページにアクセスするとこんな感じ。
下部の入力フォームにあるカメラアイコンをクリックし、好きな画像を選択します。今回はイヌがたくさん写っている画像を選びました。
すると、「Molmoは品質と安全性のためにフィルタリングされたマルチモーダルデータで訓練されているものの、不適切・有害・不正確なコンテンツを生成することもある」という注意事項が表示されます。「I understand that Molmo may produce unintended, inappropriate, or offensive results(私はMolmoが意図しない、不適切な、あるいは不快な結果をもたらす可能性があると理解しています)」という声明にチェックを入れ、「Next」をクリックします。
続いて、デモページで提供したデータが匿名化され、Ai2内部で集計データとして使用されることが通知されます。なお、Ai2はユーザーがデモページに入力したメッセージやデータで、将来のモデルをトレーニングすることはないとのこと。Ai2の利用規約や責任ある使用のガイドライン、プライバシーポリシーに同意したらチェックを入れ、「Let's go!」をクリック。
続いて、画像についての質問を文章で入力。今回は「How many dogs are shown in the photo?(写真には何頭の犬が写っていますか?)」と尋ねてみます。
すると、数秒ほどで処理が完了して、「Counting the dogs are shown in the photo shows a total of 10.(写真に写っている犬を数えると、全部で10頭です)」という回答が返ってきました。それぞれの犬がピンク色の点で示されており、見た目にもわかりやすくなっています。
次は複数台の車が写っている写真を選択し、「How many cars are shown in the photo?(写真には何台の車が写っていますか?)」と尋ねました。すると、パッと数えて「20台」と教えてくれました。
また、今度はおもちゃを販売するAmazonページのスクリーンショットを送り、「If I buy 3 of these, how much will they cost?(これを3個買うとしたら、何円になりますか?)」と聞いてみます。
すると、販売価格が通常価格の30%オフの2999円であるということを理解し、3個買うと8997円であると正確に回答しました。
Molmoはあくまでも画像の視覚的理解と受け答えが可能なマルチモーダルAIであり、ChatGPTのようなフルサービスのチャットボットではなく、APIやエンタープライズ統合用の機能も準備されていません。しかし、その他のマルチモーダルAIと同様に、さまざまな日常的な状況やオブジェクトに関する質問に回答することができます。
AI開発においては、「トレーニングデータやパラメーターが大きい方がいい」ということが一貫していますが、このまま行けばある時点でデータ不足やコンピューティングコストの高まりに直面することになります。これに対しMolmoは、最先端のAIと比較して非常に少ない「72B/7B/1B」というパラメーターでありながら、非常に高い性能を発揮するとされています。
Molmoの性能を、OpenAIのGPTシリーズやGoogleのGeminiシリーズなどと比較したグラフが以下。左が11種のアカデミックなベンチマークの平均値、右が人間によるレーティングを示したもので、ピンク色が各種Molmoのスコア、青色がGPTシリーズやGemini、ClaudeといったAIのスコアです。MolmoはGPT-4oやGemini 1.5 Proといった最先端のAIと遜色ないスコアをたたき出していることがわかります。それにもかかわらず、MolmoのモデルサイズはこれらのAIと比較すると約10分の1程度だそうです。
Molmoのトレーニングデータが小さいのに性能が高い理由は、「データの質が高い」ことにあります。Molmoでは低品質のものや重複を含む数十億枚の画像データセットではなく、「人々が音声で画像について説明したデータ」を含む注釈が付いた高品質の画像60万枚を抽出したデータセットを使用しているとのことです。
完全に無料かつオープンソースのMolmoがリリースされたことで、開発者やクリエイターが大手テクノロジー企業の許可や企業への支払いを必要とせず、AIを活用したアプリやサービス、エクスペリエンスを作成できるようになります。Ai2のCEOを務めるアリ・ファルハーディー氏は、「私たちがターゲットにしているのは研究者や開発者、アプリ開発者、こうした大規模なモデルの扱い方を知らない人々です。このような幅広い層をターゲットにする上で重要な原則は、私たちが以前から推進してきた『よりアクセスしやすくする』というものです」と述べました。
Molmoのモデルは機械学習プラットフォームのHugging Faceで、オープンソースで公開されています。
Molmo - a allenai Collection
https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19