生成AIのメリットだけに注目する局面は終わった
生成AIの進化はとどまるところを知らないが、一方で問題も抱えている(写真:Supatman/PIXTA)
2023年におけるAIの話題は、もっぱらChatGPTをはじめとする「生成AI」が中心であった。2024年に入ってからは、非常にリアルな動画を生成する「Sora」の登場や、GPT-4を超えるとも言われる「Claude 3」の登場で、その進化はとどまるところを知らない。
本記事では、生成AIがどのようにビジネスを進化させるかを描いた『AIナビゲーター2024年版』の筆者の1人で、NRIデジタルエキスパートデータサイエンティストの阿部将大氏が、活用範囲を広げる生成AIが一方で抱えている問題点について解説する。
テキストに限らない生成AIの広がり
OpenAIがリリースしたChatGPTは、まるで人と会話しているかのような流暢なテキストを生成できることから、非技術者にも非常に注目を浴びることになった。ChatGPTの登場からすでに1年以上経っているが、LLM(大規模言語モデル)に代表される生成AIモデルの開発や活用に関する話題はとどまるところを知らない状況である。
最近のトピックとして、盛り上がりを見せているのは「マルチモーダルLLM」であろう。従来のLLM入出力はテキストに限られていたが、さまざまな形式のモダリティ(情報)を扱うことができる大規模モデルの開発が進んでいる。具体的には画像、動画、音声などの多様なモダリティが含まれる。各モダリティ単体に特化したモデルは以前から研究されており、それらのモデルのエンコーダー(符号器)と呼ばれる特徴抽出器を組み合わせてさまざまなモダリティを扱うことができるのである。
入力情報にテキスト以外を用いることができるようになると、生成AIの活用範囲は大きく広がることになる。
例えば、Adobeは音楽の作成・編集作業をテキストによるプロンプトで行うことができるツール「Project Music GenAI Control」を発表するなど、クリエイティブ領域にも新たな活用可能性を秘めている。その中でも特筆すべき最新の動向として、OpenAIによる「Sora」を内部の技術に触れながら紹介する。
高度な動画生成を支える技術
Soraはテキストから高品質のビデオを生成することができるモデルであり、従来のマルチモーダルLLMの能力を大幅に拡張している。特に、Soraは長時間の動画を生成し、複雑な3Dシーンや動的な物体の追跡など、細部にわたるリアリティを実現している。
Soraに用いられている技術の核となる「Diffusion Transformer」は、2023年に発表されたモデルアーキテクチャである。しかし、この技術はまったく新しい概念ではなく、近年のAI技術の進化を支える2つの主要なモデルのエッセンスを巧みに組み合わせて実現されたものである。その2つのモデルとは、「Transformer」と「Stable Diffusion」である。
Transformerは2017年12月にグーグルの研究者らが考案したモデルである。当初は翻訳タスクで評価され、従来の性能を大きく上回るモデルとして注目を集め、その革新性から「ニューラル機械翻訳」と呼ばれた。
Transformerは、前述のエンコーダーと「デコーダー(復号器)」の2つの機能をつなぎ合わせた構造になっている。翻訳タスクであれば、エンコーダーによって翻訳前の文章の特徴が抽出される。抽出された特徴データは、デコーダーに入力され、翻訳先の言語に変換される。Transformerが、翻訳精度を向上できた背景には、入力される単語間の特徴を精度高く抽出できるようになったこと、学習時に並列処理可能な構造になったことが大きく寄与している。現在に至るまで、Transformerは翻訳タスクにとどまらず、画像や音声の処理にも活用されている汎用的なモデルとなっている。
もう一つのモデルであるStable Diffusionだが、これは近年の画像生成精度を大きく向上させたブレークスルーとして広く応用されているモデルである。Stable Diffusionには、潜在的拡散モデルと呼ばれる画像生成の手法が用いられている。この手法は、オリジナルの画像や音声に対しノイズを加えたデータから、元のデータを復元するアイデアに着想を得たものである。Stable DiffusionはイギリスのスタートアップであるスタビリティAIによって2022年8月に公開された。学習済みモデルも含めて公開されたため、多くのユーザーが独自に改良することが可能であったこともユーザーを爆発的に増やした要因である。
では、Soraでも採用されているDiffusion Transformerは、これら2つの技術を組み合わせてどのように実現しているのだろうか。それは、ノイズを加えた入力データから、ノイズ除去して新たなデータを生成する、というプロセスに用いられている「U-Net」と呼ばれるモデルを、Transformerに置き換えることである。
U-Netは入力画像の局所的な特徴と全体的な特徴を効率よく学習できるモデルとして知られており、元々は画像セグメンテーションの分野で使われることが多い機構である。しかし、U-Netでは各画像部分の相互作用などの関連性を捉えることにおいて弱点が存在する。それをTransformerの機構が解決し、利点である並列化によるスケールアップも可能となっているのである。
もちろんDiffusion Transformerを基盤技術として採用しているモデルはSoraだけではない。2024年2月にスタビリティAIによって発表された最新のモデルである「Stable Diffusion 3」でも採用されている。
「Sora」が一般公開されない理由
モデルサイズの巨大化やさまざまなデータソースを用いた効率的な学習基盤技術に関する研究は、急速に進化していくであろう。しかし、生成AIの能力が向上するにつれ、悪意ある使用が大きな問題となっている。実際の画像と見分けがつかないクオリティの生成が可能であるため、有名人に関するフェイク画像がSNS上で拡散されるなどの問題が生じている。
このような問題への関心が高まる中、OpenAIは発表から1カ月が経過してもSoraの一般公開を行っていない。現在、安全な利用に向けてレッドチームと呼ばれる専門家チームを構成し、倫理的に問題のある使い方が可能かどうかを検証しているフェーズである。特に、生成AIの悪用に関して関心度が高いのは選挙である。2024年11月にはアメリカ大統領選挙を控えているため、生成AIの悪用リスクへの懸念が高まっている。この点に対応するため、グーグルは自社の生成AIであるGeminiに対し、選挙関連の質問には答えないよう制御すると発表している。
すでに生成AIの活用は進んでおり、扱えるモダリティが増えるにしたがって今まで利用していなかった業界にも波及していくだろう。しかし、生成AIの利便性などのポジティブな面のみにフォーカスしていた局面は転回点を迎えている。今後は生成AIの開発者、ユーザーに対して倫理面に配慮したガイドラインの設計が不可欠となるだろう。
(阿部 将大 : NRIデジタル エキスパートデータサイエンティスト)