メタデータ、医療・化粧品領域に特化した日本語LLMを自社開発 ～ NVIDIA H200×8利用に、高速学習最適化で、特化LLMの開発コストを従来比「1桁以上」削減。製造・防衛など多業界向けに展開へ
メタデータ株式会社（所在地：東京都文京区、代表取締役社長：野村直之）は、このたび、OpenAI社 gpt-oss 系モデルをベースに、日本語の医療特化型LLMおよび化粧品領域特化型LLMの開発に成功したことを発表いたします。本成果は、NVIDIA H200 GPU×8構成を備えるハイレゾ株式会社のGPUクラウド「Soroban」を活用し、継続事前学習（Continued Pretraining）と段階的ファインチューニング（SFT / Reinforcement Fine-Tuning）を最適化した結果得られたものです。医療特化型LLMでは学習前に解けなかった、日本の医師国家試験問題で正当できるようになっています。
今回の取り組みにより、昨年以前と比較して“1桁以上の低コスト”で高精度な特化型LLMが開発可能であることが実証されました。
これを受け、当社は 製造業、運輸・流通、公共、法律、防衛などの領域にも、特化型LLMの自社開発および受託開発を本格展開してまいります。
■ 日本語の医療特化型LLM開発のポイント
● Soroban（H200×8）による高速学習と安定した大規模計算
ハイレゾ株式会社より提供いただいた NVIDIA H200 GPU 8基構成ノードにより、
・数十～百億トークン規模の日本語・英語混合コーパスでの継続事前学習
・医療推論向けSFT
・出力整形・一貫性向上のための強化学習（GRPO）
を、現実的な時間で反復可能な開発プロセスとして確立。
これにより、従来は数千万円級のGPU計算コストが必要だった特化LLM開発が、実用的な投資規模で可能になりました。
【画像 https://www.dreamnews.jp/?action_Image=1&p=0000337312&id=bodyimage1】
図 特化型LLM開発の流れ
● 開発の三段階プロセス
ステージ1: 日本語医療コーパスを用いた高品質な継続事前学習（Continued Pretraining）
レポートで示した通り、
● 医学・科学領域の英語論文（peS2o：76.4B tokens）を日本語に翻訳
● 日本語汎用コーパス（130.7B tokens）から 医療・科学要素を抽出し5Bに精選
● これらを組み合わせ、日本語医療文脈に強い基盤モデルを構築。
● これにより「医療文章を正しい前提で読み解くためのベース能力」を獲得。
ステージ 2： SFT ＋ Reinforcement Fine-Tuning による臨床現場レベルの精度向上
SFT には英語医療推論データの日本語版（10k行）を使用し、日本語推論・説明力を強化。
「症状 → 鑑別 → 追加情報 → 最適解」という医療的な推論様式
を日本語で忠実に学ばせた。
この段階で、症例文の把握・所見の整理・選択肢の論理検討など、医師国家試験に必要な基礎推論力が大きく向上。
ステージ 3：GRPO による Reinforcement Learning で出力精度と一貫性を最適化
SFT だけでは取り切れない「出力形式の厳密性・一貫性」を補うため、GRPO（Group Relative Policy Optimization）による強化学習を追加実施。
報酬関数の3 要素：
● 指定フォーマット（Harmony形式）の遵守
● 医療ラベル・分類の正確性（正答ラベル一致）
● ラベル数一致
を総合し、この段階で、症例文の把握・所見の整理・選択肢の論理検討など、医師国家試験に必要な基礎推論力が大きく向上。特に、厳密なフォーマット出力が求められるタスクで高い安定性を発揮。実務運用可能な安定した医療応答品質を実現。
■化粧品LLMでも開発成功 - 口コミ・成分・功效説明へ特化
化粧品レビュー・専門説明データに基づき、
● 成分の作用機序
● 肌質適合性
● リスク情報
● 市場口コミ抽出や生成
