AIの発展につながるディープラーニングブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」とは?
ディープラーニング(深層学習)とは、生物の神経系を模倣したニューラルネットワークを用いた機械学習手法であり、近年のAIテクノロジーの発展に大きく貢献しました。そんなディープラーニングのブームを後押しした「先見の明を持って型破りなアイデアを追求した3人」について、AI系ブログのUnderstanding AIが解説しています。
Why the deep learning boom caught almost everyone by surprise
近年のAIはディープラーニングなしでは語れないものとなっていますが、AI分野でディープラーニングブームが起きるには長い時間がかかりました。Understanding AIはディープラーニングブームの立役者として、「2024年にノーベル物理学賞を受賞したコンピューター科学者のジェフリー・ヒントン氏」「大手GPUメーカーであるNVIDIAのジェンスン・フアンCEO」「AIのゴッドマザーと呼ばれるコンピューター科学者のフェイフェイ・リ氏」の3人を挙げて、それぞれがどのような貢献を果たしたのかを紹介しています。
◆ジェフリー・ヒントン氏
ニューラルネットワークは膨大な数の人工ニューロンからなるネットワークであり、各ニューロンは入力の加重平均に基づいて出力を生成します。たとえば以下のような手書き数字を認識するネットワークを作成するには、画像内の各ピクセルの値を取り込んで「0」「1」「2」……といった数字のどれに当てはまるのかを確率分布で出力します。十分なサンプル画像でトレーニングされた場合、モデルは高い精度で正しい数字を出力できるはずです。
研究者らは1950年代後半から単層のニューラルネットワークで実験を始めていましたが、これは複雑な計算結果を出力することができませんでした。また、複層のニューラルネットワークを効率的に訓練する方法もわからなかったため、ヒントン氏が研究者のキャリアをスタートさせた1970年代にはニューラルネットワークは下火となっていました。
ヒントン氏
by Collision Conf
それでもヒントン氏は所属を点々としながらニューラルネットワークの研究を進め、1986年にはニューラルネットワークの学習アルゴリズムである「バックプロパゲーション」について論じた画期的な論文を発表しました。バックプロパゲーションとは、ニューラルネットワークの出力と目標の誤差を調整するため、出力層から入力層に向けて誤差を伝えることで各層の重みを調整するという手法です。
ヒントン氏の論文によってニューラルネットワークは再び脚光を浴び、ヒントン氏の下でトロント大学の博士研究員を務めたヤン・ルカン氏は、手書き文字を認識するモデルの開発に成功しました。ルカン氏のモデルは銀行の小切手の処理などに活用されましたが、当時はそれ以上複雑な画像に適用することが難しく、残念ながらニューラルネットワークは停滞の時期を迎えました。
◆ジェンスン・フアン氏
コンピューターの頭脳といえるCPUは1回に1ステップずつ計算を実行するように設計されており、多くのソフトウェアではこの仕組みが問題なく機能します。しかし、3次元の世界を毎秒何回もレンダリングするようなゲームをプレイする場合など、一部のシチュエーションではCPUによる処理が追いつきません。そこでゲーマーが使用するのがGPUです。GPUは多くの実行ユニットをパッケージ化したものであり、ゲーム画面のレンダリングの際は並列処理によって異なる実行ユニットが異なる領域を描画できるため、CPUよりも優れた画質とフレームレートを提供できます。
NVIDIAは1999年にGPUを開発して以降、長らく市場を支配してきました。ところがCEOのフアン氏は、GPUの巨大なコンピューティングパワーを科学者の気象シミュレーションや石油探査など、計算負荷の高い別分野でも応用できるのではないかと考えました。そこで2006年、NVIDIAはGPU向けの汎用並列コンピューティングプラットフォームである「CUDA」を発表し、特定の種類の計算をGPUを用いてはるかに高速で実行できるようにしました。
フアン氏
by Village Global
しかし、初めてCUDAが発表された際の反応は薄く、それほど大きな市場ではない学術・科学計算分野のために多額の資金を費やしたことに批判的な声もあったとのこと。フアン氏はCUDAの存在によってスーパーコンピューティング分野が成長すると主張しましたが、この見解は広く受け入れられず、2008年末までにNVIDIAの株価は大幅に下落しました。一部の取締役会のメンバーは、株価の下落によってNVIDIAが買収の標的になるのではないかと懸念していたそうです。
フアン氏はCUDAを発表した際、特にAIやニューラルネットワークを念頭に置いていたわけではありませんでした。しかし、やがてヒントン氏のバックプロパゲーションアルゴリズムはGPUの並列処理と相性がよく、ニューラルネットワークがCUDAのキラーアプリになることが判明したとのこと。ヒントン氏の研究チームは2009年に、CUDAプラットフォームを使用して人間の音声を認識するニューラルネットワークを訓練し、その結果を発表しました。なお、その後ヒントン氏はNVIDIAに連絡を取り、GPUを無償提供してくれないかと掛け合ったものの、残念ながら断られてしまったとのこと。
◆フェイフェイ・リ氏
リ氏はカリフォルニア工科大学の博士課程に在籍していた際、101カテゴリにわたる9000枚の画像からなるデータセット「Caltech 101」を構築しました。Caltech 101はリ氏自身のモデルだけでなくその他の研究者のモデルの精度も向上させ、コンピュータービジョンの分野におけるベンチマークとなりました。その経験からリ氏は、コンピュータビジョンのアルゴリズムはより大規模で多様なデータセットでトレーニングすることにより、優れたパフォーマンスを発揮する傾向があると学んだとのこと。
そこで2007年1月にプリンストン大学のコンピューターサイエンス助教に就任したリ氏は、「人々が現実世界で遭遇するあらゆるオブジェクトを含んだ、真に包括的なデータセット」の構築を考えるようになりました。そして、同僚から15万語もの英単語を収録したデータセット「WordNet」の存在を聞いたリ氏は、WordNetから「truth(真実)」のような形がない単語を除外し、「ambulance(救急車)」「zucchini(ズッキーニ)」など形のある単語のみを残した2万2000個のオブジェクトリストを作成。Googleの画像検索を使用して候補となる画像を見つけ、ラベル付けを行う作業を始めました。
リ氏はプロジェクトが始まってから数カ月後、メンターから「この考え方は行き過ぎだと思います。その分野と共に成長することがコツです。一足飛びになってはいけません」とアドバイスされるなど、周囲の目は懐疑的だったとのこと。また、当初の想定ではラベリングプロセスを最適化しても、完成まで18年以上かかると推定されていました。しかし、AmazonのクラウドソーシングプラットフォームであるAmazon Mechanical Turkを使用することで、完成に必要な期間を2年まで短縮することができました。
2009年に完成した「ImageNet」は、合計1400万枚もの画像が約2万2000ものカテゴリに分類された大規模なデータセットであり、リ氏はImageNetをマイアミで開催された画像認識のカンファレンスで発表しました。しかし、ImageNetはポスターセッションに追いやられ、当初リ氏が望んでいたような反響は得られませんでした。それでもリ氏はImageNetへの注目を集めるために、ImageNetを使用した画像認識モデルの大会を開催することを決定。2010年と2011年の大会では、従来のモデルからわずかに改善された程度のモデルしか集まりませんでした。しかし、2012年にはヒントン氏らのチームがディープラーニングに基づくニューラルネットワークモデル「AlexNet」を提出し、従来の精度を大幅に上回ったほか、その他のチームもニューラルネットワークを使用した高精度なモデルを提出しました。
2012年のImageNetの大会でAlexNetが優勝したことを受け、テクノロジー業界はすぐにその有用性を認識しました。リ氏は2024年9月に受けたインタビューで、「あの瞬間(AlexNetが大会で優勝した時)は、現代のAIの3つの基本要素が初めて収束したため、AIの世界にとって非常に象徴的なものでした。最初の要素はニューラルネットワークでした。2つ目の要素は、ImageNetを使用したビッグデータです。そして3つ目の要素はGPUコンピューティングでした」と語っています。
CHM Live | Fei-Fei Li's AI Journey - YouTube
Understanding AIはディープラーニングの発展から得られる教訓として、「従来の常識に固執しすぎるのは間違いである」と述べています。今後数年でAIの成長が勢いを失った場合、「新しい世代の頑固な非適合主義者」が古いアプローチの停滞に気付き、何か違うことを試す必要があるとUnderstanding AIは主張しました。