現代科学はこれまでに蓄積された大量の科学的知見の上に成り立っており、膨大な量の先行研究から重要な情報を引き出すことは非常に重要です。そこで、コンピューターサイエンスの研究所であるMicrosoft Researchのチームが、膨大な量の医学文献でトレーニングされ生物医学分野の質問に答えるタスクに特化したAI「BioGPT」を開発しました。

[2210.10341] BioGPT: Generative Pre-trained Transformer for Biomedical Text Generation and Mining

https://arxiv.org/abs/2210.10341

GitHub - microsoft/BioGPT

https://github.com/microsoft/BioGPT



BioGPT is a Microsoft language model trained for biomedical tasks

https://the-decoder.com/biogpt-is-a-microsoft-language-model-trained-for-biomedical-tasks/

Microsoft Research Proposes BioGPT: A Domain-Specific Generative Transformer Language Model Pre-Trained on Large-Scale Biomedical Literature - MarkTechPost

https://www.marktechpost.com/2023/01/31/microsoft-research-proposes-biogpt-a-domain-specific-generative-transformer-language-model-pre-trained-on-large-scale-biomedical-literature/

以前から研究者らは、膨大な医学文献の中から適切な知見を効率的に引き出すため、事前トレーニング済みの言語モデルが有用なのではないかと考えていました。しかし、通常の言語モデルをそのまま生物医学分野に適用した場合の精度は十分ではなかったため、「医学文献で言語モデルをトレーニングする」という手法が考案され、これまでに「BioBERT」や「PubMedBERT」などの生物医学分野に特化した事前トレーニング済み言語モデルが開発されています。

BioBERTやPubMedBERTはGoogleが開発した文脈理解に優れた自然言語処理モデル「BERT」を基にしていましたが、より生成タスクに優れたOpenAIのGPTモデルの生物医学分野におけるパフォーマンスは、まだ精査されていないとのこと。そこでMicrosoft Researchの研究チームは、2019年に発表された「GPT-2」を基にして、広範な生物医学文献でトレーニングした言語モデルを開発することにしました。



研究チームは生物医学分野に特化した言語モデルを開発するにあたり、生物医学に関する学術文献の検索エンジン・PubMedのデータベースから、2021年以前に発表された英語の論文をテキストベースで収集しました。これによって得られたタイトルと要約を含む1500万件ものコンテンツをデータセットとして、AIトレーニング用GPUのNvidia V100 GPUを8台使用して20万ステップの事前トレーニングを行い、その後1台のNvidia V100 GPUで32ステップの微調整を行ったそうです。次にエンドツーエンドの関係抽出やテキスト生成、質疑応答、ドキュメントの分類といったタスク用の3億7500万のパラメーターを使用し、モデルを改良したとのこと。

こうして開発された生物医学分野に特化したAIが「BioGPT」であり、生物医学分野の質問に対する回答やエンドツーエンドの関係抽出において、BERTに基づく過去のモデルよりも優れていると研究チームは主張しています。研究チームがBioGPTへ質問文を入力して生成された文章の例が以下。

Input:

The treatment of COVID-19

インプット:

COVID-19の治療法

Output BioGPT:

The treatment of COVID-19 with remdesivir (remdesivir for COVID-19) has been approved by the US Food and Drug Administration (FDA) for the treatment of severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) infection in patients with confirmed SARS-CoV-2 infection and is currently being evaluated in clinical trials for the treatment of COVID-19 in patients with confirmed SARS-CoV-2 infection, as well as in patients with suspected or confirmed SARS-CoV-2 infection.

BioGPTのアウトプット:

レムデシビルによるCOVID-19の治療は、SARS-CoV-2の感染が確認された患者における重症急性呼吸器症候群コロナウイルス2の治療法としてアメリカ食品医薬品局(FDA)に承認されています。現在は、COVID-19の治療法としてSARS-CoV-2の感染が疑われるか確認された患者に投与し、臨床試験で評価を行っています。


さらに、BioGPTはPubMedが提供するデータセット「PubMedQA」のベンチマークで78.2%の精度を獲得し、人間の専門家のパフォーマンスである78%を上回りました。また、BioGPTを利用可能な最大のGPT-2アーキテクチャにスケールアップした「BioGPTLarge」は、ランキング1位となる81%の精度を記録しています。



なお、BioGPTLargeのパラメーター数は15億個であり、5400億個のパラメーター数を持つ「Flan-PaLM」や1200億個のパラメーターを持つ「Galactica」を大幅に下回っています。AI関連ウェブメディアであるThe Decoferは今回の結果について、比較的小規模ながらも特定の分野に特化した言語モデルが、はるかに大規模な一般的言語モデルと十分に競うことができることを示すものだと述べました。