AMDが独自のビジュアル言語モデル「Instella-VL-1B」を公開、AMD製GPUでトレーニングし競争力のある性能を実現

半導体大手のAMDが、初の視覚言語モデル(VLM)となる「Instella-VL-1B」を発表しました。Instella-VL-1Bは、AMDが2025年3月に発表した言語モデル「Instella」ファミリーの一員で、AMDの生成AI向けGPUであるAMD Instinct MI300XでトレーニングされたVLMです。
Instella-VL-1B: First AMD Vision Language Model - ROCm Blogs

Instella-VL-1Bは、「パラメーター数が3億のビジョンエンコーダー」と「パラメーター数が12億の言語モデル」を組み合わせたパラメーター数15億のマルチモーダルモデルです。

AMDはInstella-VL-1Bを構築するためにLLaVA、Cambrian、Pixmoなどのデータセットを組み合わせ、事前トレーニングとSFT(教師ありファインチューニング)の両方の段階で新しいデータ混合物を作成しました。具体的には、M-Paper、DocStruct4M、DocDownstreamなどのより豊富なドキュメント関連のデータセットを採用することで、モデルのドキュメント理解能力を強化しています。
新しい事前トレーニングデータセット(700万例)とSFTデータセット(600万例)により、Instella-VL-1Bは一般的な視覚言語タスクとOCR関連のベンチマークの両方で、同等サイズのオープンソースモデル(LLaVa-OneVisionやMiniCPM-V2など)を大幅に上回るパフォーマンスを実現しました。また、オープンウェイトモデルのInternVL2-1Bと比較すると、一般的なベンチマークでは優れており、OCR関連のベンチマークでは同等のパフォーマンスを達成しています。
さまざまなベンチマークにおけるパフォーマンスを競合AIモデルと比較すると以下の通り。
モデル名視覚エンコーダーテキストエンコーダーGQASQAPOPEMM-BenchSEED-BenchMMMURealWorldQAMMStarOCRBenchTextVQAAI2DChartQADocVQAInfoVQADeepSeek-VL-1.3BSigLIPDeepSeek-LLM-1B--64.5285.8064.3465.9428.6750.2038.3041.4057.5451.1347.4035.7020.52InternVL2-1BInternViTQwen2-0.5B55.0689.5487.4061.7065.9032.4051.9046.1874.4069.6062.4071.5280.9446.30InternVL2.5-1BInternViTQwen2-0.5B-instruct56.6693.9089.9568.4071.3035.6058.3047.9374.2072.9667.5875.7682.7653.62TinyLLaVA-2.4BSigLIPGemma61.5864.3085.6658.1663.3032.1152.4237.1728.9047.0549.5812.9625.8221.35TinyLLaVA-1.5BSigLIPTinyLlama60.2859.6984.7751.2860.0429.8946.6731.8734.4049.5443.1015.2430.3824.46LLaVA-OneVision-1BSigLIPQwen2-0.5B57.9559.2587.1744.6065.4330.9051.6337.3843.0049.5457.3561.2471.2241.18MiniCPM-V-2SigLIPMiniCPM-2.4B--76.1086.5670.4466.9038.5555.0340.9360.0074.2364.4059.8069.5438.24Instella-VL-1BCLIPAMD OLMO 1B SFT61.5283.7486.7369.1768.4729.3058.8243.2167.9071.2366.6572.5280.3046.40
Instella-VL-1Bは、LLaVAのコードベースをAMD製ハードウェアおよびモデルアーキテクチャに合わせて適応・最適化しており、公開されているデータセットのみを使用してトレーニングされています。AMDの生成AI向けGPUであるAMD MI300Xを使用してトレーニングされており、AMDはInstella-VL-1Bについて「マルチモーダルAIにおけるオープンソースAIテクノロジーの進歩に対するAMDの取り組みを体現するもの」と説明しました。
AMDはオープンソースへの取り組みに沿って、Instella-VL-1Bのモデルの重みだけでなく、詳細なトレーニング構成、データセット、コードなども共有しています。
GitHub - AMD-AIG-AIMA/InstellaVL
https://github.com/AMD-AIG-AIMA/InstellaVL
