人工知能と機械学習のベースとなった「ナレッジグラフ」の歴史
インターネット検索や機械学習に欠かせないナレッジグラフは、グラフ構造でさまざまな知識を連結し、データを連係させて知識の探索や高度な分析を実行することができます。情報分野の学術雑誌「Communications of the ACM」が、人工知能と機械学習のベースとなったナレッジグラフの歴史について解説しています。
Knowledge Graphs - Communications of the ACM
ナレッジグラフの概念は、セマンティックウェブ、データベース、自然言語処理、機械学習など、さまざまな研究分野における科学的進歩から生まれました。Communications of the ACM(以下、ACM)によると、ナレッジグラフはさまざまな分野のアイデアと技術への理解を深めるために重要ですが、ナレッジグラフの源泉にある歴史や概念について理解していない人が多いことに気付いたため、解説する必要があると感じたそうです。
ナレッジグラフの概念で中核にある重要な要素は、「知識を図式で表現する」というアイデアです。以下の画像はナレッジグラフの概念図で、例えば「犬」や「牛」という単語は「動物」という単語と「is」で関連付けられており、「牛」と「草」は「食べる」という言葉で結び付いているように、単語同士を意味で関連付けて管理しています。アイデア自体は紀元前350年頃にアリストテレスが提案した視覚的な推論形式にさかのぼります。科学者による図式的推論に関する研究が深まったのは19世紀頃で、プラグマティズムの創始者として知られるチャールズ・サンダース・パース、分析哲学の祖とされるゴットロープ・フレーゲなどが有名です。知識を図式で表現することのアイデアは分野を問わず、数学、哲学、言語学、図書館学、心理学など、さまざまな分野が関係しています。
by Jayarathina
ナレッジグラフの歴史を語るために、ACMはまず「デジタル時代の到来」について触れています。1955年から1956年にかけて「世界初の人工知能プログラム」である「Logic Theorist」を開発した科学者は、1957年に「General Problem Solver」という汎用(はんよう)問題解決プログラムを生み出しています。その後、1970年代までコンピューターが稼働する時間の25%は、「あらゆる探索手順を実行可能にするためのデータのソート」に使用され、「大きな空間から知識や推論を探索する」という試みが進められていました。有名なものに、始点からの最短経路問題を解くためのダイクストラ法というアルゴリズムがあります。以下の画像はダイクストラ法の概念図。
また、構造化されていない文章から情報を検索する方法も、同時期に発展した重要な要素です。アメリカのコンピューター科学者であるバートラム・ラファエル氏が1964年に開発した「意味情報検索用コンピュータプログラム」は、会話文をフォーマットすることで文章から意味内容を抽出するシステムを確立しました。そのほか、推論や構造化に必要なデータを管理するシステムや、知識を大量に蓄えておくメモリのアイデアも、1950年代から1960年代にかけて大きく発展しています。
1970年代には産業界でコンピューターが広く採用され、AppleやMicrosoftなどの企業が設立されています。また、データ処理システムが誕生したり、ストレージと処理能力が増大したりといった発展により、大量のデータを管理する方法の確立が急務となりました。データベース管理の関係モデルを発明したエドガー・F・コッド氏、概念的データモデルの記述を可能にするモデルを開発したピーター・チェン氏などの貢献により、クエリ(問い掛け)をデータベースに与えてデータを検索したり変更したりするために、データを「関係(リレーション)」という概念で表のようにモデル化した「関係データベース管理システム」が開発、実装されました。
1980年代はパーソナルコンピューターがブームとなり、コンピューティングが産業から家庭へと進化を遂げました。計算能力が向上して複雑なデータを処理する方法がいくつも登場する中で、複雑で管理が必要なデータが生成されたため、オブジェクトの集合から構成される構造に注目する「グラフ」の研究も発展していきます。デヴィット・ハレル氏が1988年に開発した「ハイグラフ」は、関係を視覚的な構造に形式化するもので、現代でも産業アプリケーションや哲学的推論の図式研究などに用いられています。
「ナレッジグラフ」という用語が初めて登場したのは1987年のことです。オランダのHAN応用科学大学に所属する研究者のルネ・ロナルド・バッカー氏による論文「Knowledge Graphs: Representation and Structuring of Scientific Knowledge.(ナレッジ グラフ:科学的知識の表現と構造化)」で提示されたアイデアは、1990年代になってから深く研究され、2000年代以降に広く普及し始めます。
1990年代には、世界を変える大きな2つの出来事がコンピューター関連で起きています。1つ目はワールドワイドウェブの出現で、誰でも投稿および閲覧できる情報空間というアイデアは、知識とデータ管理に関する理論、哲学、実践全てを完全に変えました。2つ目は、社会のさまざまな側面がデジタル化していったこと。紙で管理していたデータをコンピューターで管理するようになったことで、現代におけるビッグデータの始まりとなり、研究と産業はともに新しい開発分野として一斉に取り組みました。
2000年代は電子商取引とSNSが爆発的に増加した時期で、ハードウェアおよびソフトウェアが大きく進歩したことで、はるかに大規模なデータ生成、保存、処理、管理、分析が可能になりました。AIへのディープラーニングも導入され始め、統計的手法が台頭した時期でもあります。また、GoogleやAmazonなどの企業が大量のデータを処理するためのインフラストラクチャを導入し、テキスト、サウンド、画像、ビデオなどさまざまなフォーマットを処理できるようにデータ管理の障壁を押し広げました。2000年代には大規模データ処理のための統計手法の進歩と成功が見られた一方で、ビッグデータの世界でデータと知識を保存、管理、統合するための新しい形式が求められました。これがナレッジグラフの概念の出現を促した原動力であったとACMは指摘しています。
ナレッジグラフに深く関連した点では、ワールドワイドウェブを開発したティム・バーナーズ=リー氏らが2001年に発表した論文「セマンティックウェブ」が、業界と学会に大きな衝撃を与えました。セマンティックウェブは、従来のHTML形式で「文書構造」を伝える形式から、XMLによってウェブページの「意味」を付け加えることができるという概念です。論文の影響でさまざまなフレームワークやプロトコルが誕生し、2006年にリー氏は知識を強化するためにウェブ上のデータのネットワーク構造を強調する「Linked Data」という用語を作り出しました。Linked Dataのプロジェクトは大規模なグラフベースのナレッジベースを誕生させたほか、最終的には大手検索エンジンの形式にも影響を与えています。
2012年にGoogleは「Googleナレッジグラフ」という製品を公開しました。Googleナレッジグラフは「意味」を含むセマンティック検索情報によってデータを関連付けして検索結果を拡張できるデータベースで、Googleの検索エンジンに追加されました。その後、無数の企業や組織がデータの統合を指すためにナレッジグラフというキーワードを使用し始め、学会でもセマンティックウェブが生まれ変わってデータ構造をグラフ化するシステムとして、ナレッジグラフは一般的なものとなります。Googleで検索すると、以下の画像赤枠のように、右上に検索した内容についての情報が表示されることがあります。これがGoogleのナレッジグラフから取得された情報で、「ナレッジパネル」と呼ばれています。
ACMは「絶対的な成功や失敗は存在せず、それぞれのアイデア、理論、またはテクニックがその潜在能力を最大限に発揮するには、適切な状況が必要であることを、歴史は思い出させてくれます。ナレッジグラフの概念も、古代から存在し研究も発展していましたが、必要に駆られたタイミングに適切な技術があったことで完成しました。将来を予測するのは難しく、今日では統計的手法と論理的手法が融合していますが、今後どのように傾くのかはわかりません。当時は成功しなかったりあまり知られなかったりした過去のアイデアや開発にも、将来の研究を刺激し導く有益なアイデアが確実に含まれています」と語りました。
ACMによると、ナレッジグラフの概念の背後にある歴史的ルーツの詳細はわかっていないそうです。「確認できる歴史を振り返ることで、ナレッジグラフのルーツに関する研究の貢献となることを願っています」とACMは述べています。なお、調査研究や論文の定量的分析ではないため、ACMの説明は必ずしも現象のすべての側面を網羅しているわけではないことにも注意が必要です。