新しいタンパク質をアミノ酸配列から生成するAI「EvoDiff」をMicrosoft Researchが開発、タンパク質工学に大きな進展か

コンピューターサイエンスの研究所・Microsoft Researchのチームが、新しいタンパク質を配列に基づいて生成するAI「EvoDiff」を開発しました。タンパク質の立体構造に基づいた従来のアプローチとは異なり、タンパク質のアミノ酸配列に焦点を当てているとのことで、タンパク質工学に大きな進展をもたらす可能性があります。
Protein generation with evolutionary diffusion: sequence is all you need | bioRxiv
Abstracts: September 13, 2023 - Microsoft Research
https://www.microsoft.com/en-us/research/podcast/abstracts-september-13-2023/
Microsoft open sources EvoDiff, a novel protein-generating AI | TechCrunch
https://techcrunch.com/2023/09/14/microsoft-open-sources-evodiff-a-novel-protein-generating-ai/
タンパク質は体内におけるさまざまな細胞のプロセスに関与する分子であり、たとえばヘモグロビンは血液中の酸素を運び、インスリンは血糖値の調節を行っています。さまざまな病気のメカニズムにタンパク質が関与しているほか、治療にもタンパク質が用いられることが多く、有用なタンパク質を新たに生み出すことは医療研究において重要です。
また、タンパク質は生物の体内における活動だけでなく、触媒としての作用や化学物質を製造するための酵素といった工業的な用途にも利用されます。特定の機能を持つタンパク質を生成する能力を高めることで、「プラスチックごみを分解する酵素」「光合成をより効率的にする酵素」などを作り出し、現代社会が抱える多様な問題に対処できるとのこと。
そこでMicrosoft Researchの研究チームは、新たなタンパク質を生成するAI「EvoDiff」を開発しました。以前からAIを用いてタンパク質を生成するアプローチは存在しましたが、「まずは体内で特定のタスクを実行できそうなタンパク質の立体構造を考え、次にその立体構造に折り畳み可能なタンパク質のアミノ酸配列を見つける」という従来のアプローチは、コンピューティングと人的リソースの両面で高いコストを要するという問題がありました。

by Oregon State University
そこで研究チームは、タンパク質の立体構造からスタートして新たなタンパク質を生成するのではなく、タンパク質のアミノ酸配列のみに基づいて新たなタンパク質を生成するアプローチを開発しました。そもそもタンパク質の立体構造に基づくアプローチでは、データセットとして使用できる立体構造の数に限りがあるため、トレーニングデータの範囲が大幅に制限されるという問題もあったとのこと。アミノ酸配列に焦点を当てることにより、大規模で多様な進化的データセットを入手してAIをトレーニングできたと研究チームは述べています。
Microsoft Researchの研究者で論文の上級著者である楊凱筌氏はテクノロジー系メディア・TechCrunchのメールインタビューで、「私たちは、EvoDiffがタンパク質工学の能力を構造-機能のパラダイムを超えて、プログラム可能な配列優先の設計へと拡大することを見据えています。私たちはEvoDiffにより、新しいタンパク質を制御可能な方法で設計するために必要なのは実のところ立体構造ではなく、むしろ『タンパク質の配列がすべて』である可能性を実証しています」とコメントしました。
楊氏はXのポストで、タンパク質のアミノ酸配列から立体構造を再現する様子を示したGIF動画を公開しています。
EvoDiff combines evolutionary-scale data with diffusion models for controllable protein sequence generation.
In addition to generating plausible proteins, we can scaffold structural motifs in sequence space!
Preprint: https://t.co/zd1zPoKOWY
Code: https://t.co/vD3CXSUY5V pic.twitter.com/fVLM39jBRr— Kevin K. Yang 楊凱筌 (@KevinKaichuang) September 13, 2023
EvoDiffフレームワークのコアとなるのが、タンパク質のアミノ酸配列と機能情報からなる膨大なデータセットで訓練された、6億4000万パラメーターを持つモデルです。EvoDiffは画像生成AIのStable Diffusionなどと同じ拡散モデルを採用しており、ほぼノイズで構成された開始時点のタンパク質配列からノイズを徐々に減らしていき、段階的にタンパク質配列に近づけていくとのこと。

従来の立体構造に基づいたアプローチでは、整った3次元構造を持たない天然変性タンパク質を合成できないという問題もありましたが、配列ベースであるEvoDiffでは天然変性タンパク質を生成することも可能です。これらの天然変性タンパク質は、他のタンパク質の活性を増強または減少させるなど、生物学や疾患のメカニズムで重要な役割を果たしています。
また、タンパク質において特定の機能や構造を持つまとまりである構造モチーフを維持し、その周囲を補完する形で新たなタンパク質を作り出すこともできるそうです。


研究チームは、EvoDiffによって生成されたタンパク質のアミノ酸配列は、自然界に存在するタンパク質の構造的・機能的・配列空間的な特徴の全体像をカバーしていると主張。今後、実際にEvoDiffが生成したタンパク質を実験室でテストし、本当に機能するのかどうかを調べる予定だと研究チームは述べています。
EvoDiffのコードはGitHubで公開されています。
GitHub - microsoft/evodiff: Generation of protein sequences and evolutionary alignments via discrete diffusion models
https://github.com/microsoft/evodiff
