[画像] AI最大の課題「フレーム問題」解決の糸口をグリッドが開発!強化学習とアンサンブル学習を連携 米国物理学協会発刊学術誌が掲載

株式会社グリッドは、エネルギー分野における「不確実な環境における深層強化学習による最適化」の開発に成功した。これは現在のAIにとって最大の課題のひとつとされている「フレーム問題」を解決する糸口になる、と言う。そして、その成果を、米国物理学協会が発刊する「Journal of Renewable and Sustainable Energy」に評価され、論文が掲載されたことを発表した。



この発見・開発をもとに、このAI技術を将来の電力需要や天候を予測しながら、365日分の効率的な電力の需給計画を算出することへの実用化を進める。同社はそれに合わせて、報道関係者向け説明会を開催した。



報道関係者向け説明会に登壇し、エネルギー分野における「不確実な環境における深層強化学習による最適化」を説明する株式会社グリッド 代表取締役 曽我部完氏

●「不確実な環境」でも機能するAIの開発に成功

AIは過去のデータやパターンを学習し、画像を識別したり、将来を予測したりと、識別や認識技術を進化させた。今では将来の状況を踏まえて最善な選択をおこなう人間の意識決定に寄与するまでに、一部分で進化を遂げている。
あらゆる分野で実装が進み、多様なAIが使われるようになっている一方で、グリッドは「いまもなお、人工知能にとって最大の課題と言われている「フレーム問題」は解決されていない」ことに着目する。

●「フレーム問題」とは

「フレーム問題」とは、人工知能の分野では有名な問題(課題)だ。「処理能力が有限のAIは不確定要素が多い現実問題の全てに対処することができない」という問題で、あらゆる環境下でも総合的な意思決定ができる「汎用型AI」を実現していくためには、いつかは解決しなければならない課題とされている。
そして今回、グリッドは国立大学法人 電気通信大学の協力のもと、不確実な環境でも機能するAIの開発に成功し、「フレーム問題」を解決する糸口を切り開くことができたという。

●最適化問題は主に2種類

少し難しい内容なので、曽我部氏の説明をもとに解説したい。
曽我部氏は「最適化問題には主に2種類ある」とした。ひとつは「環境構造自体に変化がない問題」。代表的な例が「ルート問題」、「巡回セールスマン問題」と呼ばれる例で、セールスマンが複数の顧客を回る際に最も効率的なルートを求めるもの。「組み合わせ最適化問題」の代表例として知られている。この場合、複数の顧客や道路、交通手段など、前提となる条件が決まっているので、高い確率で最適な答えを出すことができる(下の図Aの右)。



図A
一方、環境が変化する場合、一度最適な答えを出したとしても、状況が変わった瞬間に前提条件が変わってしまい、最適な答えも変わる。すなわち状況によって最適な回答は変化する(上の図Aの左)。
グリッドは電力システムの最適化に取り組んでいるが、天候・季節などの外部環境によって状況が変化してしまうため、?度最適な答えをみつけても、前提条件がどんどん変化してしまうという課題がある。
「不確実な環境」とはこのような環境をさしている。今回の論文でも電力システムを例に構成したという。



では、このような状況に対してどのように対処していくべきだろうか。
曽我部氏は2通りが考えられるとした。ひとつは「"人間"がある程度、将来の状況を限定して考える」(起こりうる状況をある程度限定して考える)こと、もうひとつは「"AIが"自分で将来の状況を判断して考える」こと。しかし、後者はたくさんの状況をAIがすべて考慮する必要があり、計算量が膨大になり過ぎて能力の範疇を超えてしまう「フレーム問題」に陥る。



曽我部氏は報道陣のためにそもそもの「フレーム問題」についても解説した。フレーム問題は1969年に初期の人工知能研究の第一人者である科学者ジョン・マッカーシー氏が発表したもので「自分の行動に関係する問題(フレーム)の枠を(コンピュータが)自分で考える事は非常に難しい」というもの。
例えば、ロボットにバッテリーを取りに行くように指示したとき、もしもバッテリーの上に爆弾が乗っていた場合、ロボットは爆弾ごとバッテリーを持って来てしまったり、爆弾をどうするかを考えているうちに爆発してしまうなど、最適な行動が導き出せない、といったようなことをマッカーシー氏は例としてあげている。



バッテリーを持ってくるように指示されたロボット。バッテリーの上に爆弾が乗っていたとしたら、適切な対応ができない(フレーム問題)
曽我部氏は、AIが持っているこの現在の特性(限界)を鑑みた上で、これを解決するために「人間の曖昧性に着目」したという。

●強化学習とアンサンブル学習を連携

「人間は未知の選択に直面したとき、過去に経験からいくつかの選択を想定し、一般的には間違えなさそうな平均的な行動を選択する」のではないかと考えた。



そこで、この研究では、将来の最善な行動パターンを算出する最適化手法の一つである深層強化学習に、従来より機械学習分野で用いられている「アンサンブル学習」を適応した新たな手法を開発した。



曽我部氏によれば「機械学習とアンサンブル学習の研究は世界的には従来からおこなわれていたが、強化学習の答えをアンサンブル学習させる応用事例はなく、最先端の研究事例だと認められて「Journal of Renewable and Sustainable Energy」への掲載が許可された」という。

●「アンサンブル学習」とは

「アンサンブル学習」は機械学習の精度を高めるひとつの手法。問題を複数のサンプルに分け、サンプルごとに異なる各モデルが算出した解の平均値を抽出し最終的な解とする手法。データセットを分割してそれぞれ学習したモデルを作り、その答えから多数決をおこなうことで正解に近づけていこうというもの。



曽我部氏は「1つのAIモデルで学習しようとすると精度は高くなるが、状況の変化には順応できず、想定外のことがあると特定の答えを出してしまうという欠点がある。サンプル学習ではそれぞれモデルがそれぞれの状況による答えを出すので、結果的に幅広い状況に答えられるモデルが作れる。アウトプットはそれぞれ適度にバラけながら、これを多数並列化させて、多数決を取ることによって、最終的には精度が高い答えを得るという考え方」と説明した。



モデル1、モデル2、モデル3はそれぞれ違う答えを出すが、多数決では正解を導く確率が高くなるという手法。多数並列化することで精度が上がる


「フレーム問題」はAIに行動させる前に、環境下で発生しうる全ての事象を厳密に判断させようとするが故に、考慮すべき事項が多すぎて対処できなくなることで生じる。一方で、人間は行動する前に厳密な判断はせず、将来の状況をいくつか想定し、平均値的な手段をとるという曖昧性によって、様々な変化に対応しているという。この研究では、こうした人間が持つ曖昧性の高い手法に着目し、アンサンブル学習を採用した。

●「スマートグリッド」問題を対象に効果測定

研究では、多くの不確定要素を同時に考慮する必要がある最適化問題の一つである「スマートグリッド」問題を対象に効果測定を行った。「スマートグリッド」とは電力の流れを最適化する送電網のこと。



ソーラーパネルが発電した余剰な電⼒を売却するか、不⾜した電⼒を購⼊するかを24時間に渡って決定するが天候など不特定な要素に左右する非常に予測が難しい分野。将来の電力需要や天候を予測しながら、365日分の効率的な電力の需給計画を算出することを目的とする。
算出方法は、365日を9つのサンプルに区分し、9サンプルに対応した異なる判断基準を備えた各モデル内で深層強化学習によって平均値を算出することで、最終的な行動を一つに決定する。

●アンサンブルによる複数エージェントの学習

この結果、アンサンブル学習を適応しない手法と比較して未知のデータに対しても経済的に合理性のある電力の需給計画を立案することが可能であることを確認したという。
さらに、算出された計画に対する年間単位でのリスク分析も可能とし、実運用において計画を採択する上での判断材料を示すことに成功した。

この研究でのエネルギー分野において、不確実な環境でも機能するAIの研究は業界でも例がなく、昨今大きな関心が寄せられているエネルギーの有効活用に寄与する「スマートグリッド」の最適化運用への貢献も期待できる。
グリッドは「今後も、リスクを考慮したAI最適化、不確実な環境におけるAI最適化の開発を進化させて参ります」とコメントしている。

掲載論文URL:https://aip.scitation.org/doi/10.1063/5.0097344