先進的で有益な活動をひろく世の中に紹介するため、インテル社(https://www.intel.co.jp/)からの寄稿記事を掲載します。

機械学習(マシンラーニング)の手法のひとつに、「連合学習(フェデレーテッド・ラーニング)」と呼ばれるものがあります。これは、データを一カ所に集めず、分散された状態で機械学習を行う手法とされます。本稿では、この連合学習を、最新医療のデータ利活用に用いることで、医療が抱える課題を解決しようとする同社の取り組みを紹介します。

(著者・インテル株式会社 執行役員常務 第二技術本部 本部長 土岐 英秋)

最新の医療は、人工知能(AI)などのテクノロジーを活用することで、よりスマートになっています。AIでは、患者に関する大規模なデータセットに見られるパターンに基づいて判断する方法をマシンラーニング(ML)モデルに「学習」させます。これによって医療診断の精度が向上するとともに、待ち望まれている医薬品の研究開発も加速してきました。

しかしここ数年、専門家は、データ収集を一元化する従来のマシンラーニング・アプリケーションの開発プロセスでは不十分であると認識し、セキュリティーとプライバシー保護の問題から、医療用の効果的なMLモデルを作成するには、自由に共有できるデータだけでなく、さらに多くのデータが必要になると考えはじめています。このような課題に阻まれて、医療業界はまだ、AIを活用した新たな一歩は踏み出せていません。臨床レベルの精度を満たすモデルは、規模と多様性を備え十分にキュレーションされたデータセットからのみ導出することができます。

医療においてAIを民主化し、データが持つメリットを引き出すには、機密データを保持している機関の外部でそのデータを共有する、リスクにつながる恐れのないMLモデルの学習メソッドが必要です。連合学習(フェデレーテッド・ラーニング)はその手法を提供します。

連合学習のイメージ。データを一カ所に集めて学習処理演算を実行するのではなく、データを保持している機関(図では病院)が、それぞれ学習処理演算を担う。そして、得られた分析結果は集約する。患者のプライバシーを含む機密データが、移動の過程で漏洩してしまうリスクを避けることができる

○学習データの一元化はもはや医療では持続不可能

学習処理の一元化は長い間、AIモデリングの標準的なやり方とされてきました。この方法では、さまざまな場所とデバイスからデータセットを収集し、1カ所に送信して、そこでMLモデルの学習処理を行います。

これにはいくつかリスクがあります。まず、データを1カ所に保管すると盗難や漏洩の被害に遭うリスクが高まり、保管を担当する機関に極めて大きな責任が生じます。次に、データ所有者がそもそも未加工データの共有に反対する可能性もあり、たとえデータを学習処理に使用することには前向きでも、未加工のデータ自体は機密性が高すぎて共有できないと考えるかもしれません。

セキュリティーとプライバシーに関する懸念もグローバルな拡張を困難にしている要因です。特に、データの所有権、知的財産権(IP)、米国のHIPAA(Health Insurance Portability and Accountability Act:医療保険の携行性と責任に関する法律)、EUのGDPR(General Data Protection Regulation:一般データ保護規則)などの規制の遵守に関する問題があります。

こうした懸念から、データを提供する機関が少なくなり、さまざまな機関や地域から取得した多様で豊富なデータセットでマシンラーニング・モデルの学習処理を行うことができず、十分な精度を得られない偏りのあるデータインサイトの原因につながります。

○連合学習がもたらすもの

連合学習の背後にある根本的な考え方は、ユーザーデータ上でマシンラーニング・モデルの学習処理を行い、そのデータを1カ所に転送する必要をなくすことです。これには、データを1カ所に移動して学習処理を行うのではなく、データを所有している機関のインフラストラクチャーに学習処理演算を移動する必要があります。その場合、中央集約サーバーが、複数のデータ所有者の学習処理演算から得られたインサイトの集約を担当します。

連合学習では学習処理の反復をローカルデバイス上で実行するため、元のデータが移動中に侵害や漏洩などの被害に遭うリスクがありません。これが大きなメリットであり、データを所有者のもとに残したままで、グローバルなインサイトの抽出が可能になります。データ所有者の学習処理から得られたローカルのモデル・パラメーターは中央サーバーに送信され、中央サーバーがそれらを集約して次のグローバルモデルを形成した後に、すべての参加者に共有されます。

連合学習はすでに効果を発揮し、最新のAIでは脳腫瘍の検出精度の向上にもつながっています。インテルとペンシルベニア大学は2020年から、医療業界最大の連合学習の研究を実施してきました。この研究では、6大陸にわたる71の機関のデータセットをもとに、脳腫瘍の検出精度33%向上を実証しています。

機械学習には豊富で多様なデータの共有が肝要となるが、データの集中化に制限があるとスケーリングが難しくなる。連合学習の手法により、患者データの活用の制限が改善することで、AIによる脳腫瘍の検出精度が33%向上した

○連合学習用の堅牢な基盤の構築は信頼性から

非常に多くのことがデータ次第となるので、堅牢なデータ・セキュリティー戦略を実施することが必要です。これには機密データをクラウドのアクセス制限のあるエンクレーブ内に保持することがカギとなり、一般にこれを、信頼できる実行環境(TEE:Trusted Execution Environment)と呼びます。このようなプライバシー保護は、規制要件のあるワークロードや分散ネットワーク内で機密データを継続的に保護するために不可欠です。

コンピューティングがオンプレミスからパブリック・クラウド、エッジへと、複数の環境へ広がっていくにつれ、データがどこに存在するかにかかわらず、機密性の高いIPやワークロード・データを守ることのできる保護制御が必要になるとともに、リモート・ワークロードが意図したコードで確実に実行されるよう徹底しなければなりません。ここで出番となるのがコンフィデンシャル・コンピューティングです。保管中や移動中のデータに対する従来の暗号化とは異なり、コンフィデンシャル・コンピューティングはTEEを基盤にして、実行するコードや使用中のデータの保護とプライバシーを強化します。

コンフィデンシャル・コンピューティングとは、データセットを極めて安全に処理でき、コードとデータを外部の侵入から隔離することで攻撃のリスクを削減するセキュリティーです。現在データセンターで最も研究と導入が進んでいるコンフィデンシャル・コンピューティング・テクノロジーであるインテル ソフトウェア・ガード・エクステンションズ(インテル SGX)は、独自のアプリケーション隔離技術により使用中のデータを保護するハードウェア・ベースのセキュリティー・ソリューションを提供します。

・「インテル SGX」の紹介

https://www.intel.co.jp/content/www/jp/ja/architecture-and-technology/software-guard-extensions.html

ハードウェア・ベースのセキュリティー基盤により、これまで脆弱であった攻撃面を強化して、ソフトウェア攻撃を防御するだけでなく、使用中のデータに対する脅威も排除することが可能です。そのため、安心してマシンラーニング・モデルでさまざまなデータセットを安全に使用することができ、規制やセキュリティーを遵守したうえで、それらのデータセットを使用してアルゴリズムの学習処理を行うことができます。

○連合学習の未来

連合学習でなければ活用の難しい豊富で多様なデータからMLモデルが知識を獲得できることで、連合学習は医療に飛躍的進歩をもたらし、迅速かつ的確な診断、医療格差に向き合う可能性が広がります。

連合学習の研究はまだ初期段階にはありますが、組織や機関がより緊密に連携することで困難な課題を解決するとともに、データのプライバシーとセキュリティーに関連する問題を軽減する、大きく期待できるテクノロジーです。実際、連合学習はその用途を医療以外にも拡張でき、IoT、フィンテックなどの分野で多くの可能性を秘めています。

今後の連合学習によってAIアプリケーションは新たなレベルへと引き上げられることでしょう。現在の研究開発は、その真の可能性のほんの一部にすぎません。



◆著者・インテル株式会社 執行役員常務 第二技術本部 本部長 土岐 英秋

1988年 インテルジャパン株式会社(当時)に入社。Centrinoの発表では、モバイル・アプリケーション・スペシャリストとして、そのモバイル戦略を技術面より支える。クライアント全般の技術面を統括するインテル・アーキテクチャー技術本部 統括技術部長などを経て、2011年 技術本部 本部長に就任。2012年 執行役員に就任。2017年 執行役員常務に就任。