Googleが医療用途に特化したAIモデル「MedGemma 1.5 4B」と音声認識モデル「MedASR」を2026年1月13日に公開しました。MedGemma 1.5 4Bはローカルで動作可能な軽量モデルで、前世代よりも精度が向上しています。

Next generation medical image interpretation with MedGemma 1.5 and medical speech to text with MedASR

https://research.google/blog/next-generation-medical-image-interpretation-with-medgemma-15-and-medical-speech-to-text-with-medasr/

MedASR Model Card  |  Health AI Developer Foundations  |  Google for Developers

https://developers.google.com/health-ai-developer-foundations/medasr/model-card

Googleは医療用のオープンモデルとしてMedGemmaシリーズを無料公開しています。MedGemma 1.5 4Bはローカルで実行可能な軽量モデルで、テキスト形式や画像形式の医療記録を読み取って推論することが可能。MedASRは医療関連の語句に特化した音声認識モデルで、既存のモデルと比べて高精度に文字起こししつつMedGemmaシリーズと連携させることができます。



MedGemma 1.5 4B(青)は前世代モデルのMedGemma 1 4B(水色)と比べてテキスト処理精度が向上しています。



MedGemma 1.5 4Bと各種モデルのベンチマークスコアを並べた表が以下。MedGemma 1.5 4Bは汎用モデルのGemma 3 4Bや前世代モデルのMedGemma 1 4Bと比べて高いスコアを記録しているほか、一部のテストでは規模の大きなMedGemma 1 27Bを上回っています。



前世代のMedGemmaシリーズはテキストだけでなく胸部X線画像や病理組織像などの画像データを処理できるように設計されていました。MedGemma 1.5 4BではCT画像やMRIの3Dデータなどにも対応可能なように進歩しています。



画像処理精度のベンチマークテストでも、MedGemma 1.5 4B(青)の方がMedGemma 1 4B(水色)より高いスコアを記録しています。



MedGemmaシリーズは開発者によるファインチューニングが容易なことも特徴としており、すでに500件以上の派生モデルが公開されています。MedGemma 1.5 4Bについても、今後の開発貢献によって各種タスクに最適化されたモデルが登場することが期待されています。



同日に公開されたMedASRは医療用途に特化した音声認識モデルです。MedASRは「胸部X線画像に関する会話」を誤り率5.2%で書き起こすことが可能とのこと。OpenAIのWhisper large-v3では誤り率が12.5%だったことから、GoogleはMedASRの優位性をアピールしています。また、MedASRの文字起こし結果はMedGemmaシリーズのプロンプトとしても活用できます。



MedGemma 1.5 4BとMedASRのモデルデータは以下のリンク先で公開されています。

google/medgemma-1.5-4b-it · Hugging Face

https://huggingface.co/google/medgemma-1.5-4b-it

google/medasr · Hugging Face

https://huggingface.co/google/medasr