『SIGGRAPH 2025』

写真拡大

 画像生成AIや動画生成AIの普及からわかるように、デジタルグラフィックを生成するグラフィックAIは、今や当たり前のものになりつつある。こうしたAIの最新動向を知ることができるイベントとして、CGに関する世界最大級のカンファレンス「SIGGRAPH」がある。

(関連:【画像】AIが生成した3Dモデル しっかりボーンが入っている

 今年の8月10日から14日にかけて開催された『SIGGRAPH 2025』では、グラフィックAIの関連論文が50本以上も発表された。本稿では、こうした論文のなかでも「実用化」を意識しているものを「画像生成」「3Dアバター生成」「3Dオブジェクト/シーン生成」そして「動画生成」の4カテゴリーに分類しつつ、注目すべき10本を紹介する。

■SVGコレクションの生成などクリエイターの労力を減らす3つのAIモデル

 中国・香港大学とAdobeの共同研究チームは、「SVG(Scalable Vector Graphics:スケーラブル・ベクター・グラフィックス)」の画像コレクションをテキスト入力から生成するAIモデルを発表した(※1)。SVGはJPGやPNGなどで使われるピクセルを用いたラスター形式の描画ではなく、線の長さや図形の形を数学的な計算で描画する技術だ。点の集まりで画像を描画するラスター形式と異なり、拡大縮小しても画質が劣化しないので、グラフィック・デザイナーから支持されている画像形式である。

 テキスト入力からSVGを生成するAIモデルは以前からあったのだが、単独の画像のみを生成するにとどまり、一貫したデザインスタイルのSVGコレクションを生成することはできなかった。

 今回発表されたAIモデルは、特定のSVG画像を入力してデザインスタイルを学習させたうえで、テキストで「少年(boy)」や「家(house)」と生成する画像の内容を順次入力すると、デザインスタイルを維持したまま新しいSVG画像を出力する。

 中国・清華大学と中国大手IT企業・Tencentらの研究チームは、大量の模範画像にもとづいて、線画マンガを高品質にカラー化するモデル「Cobra」を発表した(※2)。このAIは、最大200枚の模範画像からカラー化するにあたっての彩色スタイルを学習することで、従来のカラー化AIの性能を大きく凌駕した。

 ユーザーが線画マンガの一部に対して、カラー化する際の色を指定して彩色するインタラクティブなカラー化機能も実装している。この機能により、より柔軟なカラー化が可能となる。

 TikTokを運営するByteDanceらの研究チームは、数枚のキャラクター画像を入力したうえで、さらに簡単なストーリーをテキスト入力すると、入力したキャラクターが登場するストーリー画像を生成する「IP-Prompter」を発表した(※3)。

 たとえば、アニメ映画『怪盗グルー』シリーズに登場するキャラクターのミニオンズの画像を入力後、「炎を使う魔術師」や「炎の剣を引き抜く」といったテキストを入力すると、ミニオンズがテキストで説明した通りに振る舞う画像が生成される。こうした生成では、入力画像の画風も反映されるので、アニメ『アーケイン』に登場するキャラクター「ジンクス」の画像を入力した場合は、ミニオンズを入力した時とはまったく違う画風の画像が出力される。

 以上のAIモデルが実用化されれば、グラフィックデザイナーやマンガ制作者の労力を大きく減らすと同時に、よりクリエイティブな仕事に挑戦することを後押しするかもしれない。

■テキスト入力や1枚の画像から3Dアバターを生成

 スイス連邦工科大学チューリッヒ校らの研究チームは、テキスト入力からフォトリアルな3Dアバターアニメーションを生成する「AnimPortrait3D」を発表した(※4)。参考動画では、「顎のラインがくっきりとした40歳の紳士。少し白髪交じりの髪は後ろにすっきりと流され、アンダーカットに整えられている。ネイビーのピンストライプのスーツに身を包み、赤いネクタイが彼の色白の肌を引き立てている」というテキスト入力から出力された、40代の紳士の3Dアバターが確認できる。

 「AnimPortrait3D」は、テキスト入力による高品質な3Dアバター生成と、入力テキストに合わせて3Dアバターを変形させてアニメーションを生成する2段階の処理によって、従来の3DアバターアニメーションAIの性能を凌駕した。

 中国大手IT企業・Alibabaらの研究チームは、1枚の画像からアニメーション可能な3Dアバターを生成する「LAM(Large Avatar Model:大規模アバターモデル)」を発表した(※5)。このAIの画期的なところは、画像から即座に3Dアバターを生成できる生成時間の短さと、スマホでも3Dアバターのアニメーションを表示できる描画処理の軽さにある。

 生成された3Dアバターは入力画像を忠実に再現するだけではなく、まったく異なる顔の3Dアバターに置換することもできる。以上のデモ動画では、トランプ大統領の顔画像から古代ギリシア彫刻のミロのビーナスやサッカー選手のメッシの3Dアバターを生成した事例を確認できる。

 簡単な入力から生成処理する以上のAIは、3Dアバターを身近な存在にするポテンシャルを秘めているだろう。

■衣服の3Dオブジェクトやインテリアデザイン3Dシーンの生成を実現

 スイス連邦工科大学ローザンヌ校らの研究チームは、1人の人間を撮影した1枚の画像から、その人間が着用していた衣服の3Dオブジェクトを生成するAIモデルを発表した(※6)。このAIはTシャツのようなタイトな衣服から、スカートのようなゆったりとした衣服まで、そのデザインを正確に再現する。

 なお、以上のAIは細かいシワのある衣服については、その再現度に限界がある。また、入力する画像は全身が写っている画像でなければならない、という制限事項もある。将来的には、衣服の時間的変化に対応した3D動画生成モデルの開発を目指している。

 カリフォルニア大学サンディエゴ校とAdobeらの研究チームは、3Dオブジェクトを入力すると、リグが追加されたオブジェクトを生成する「RigAnything」を発表した(※7)。リグとは3Dオブジェクトを動かす際の仕組みのことであり、通常はこの仕組みを追加する「リギング」作業をすることによって、3Dオブジェクトを動かして3Dアニメーションを制作できる。

 リグを追加するAIモデルは以前から存在しているが、RigAnythingは従来モデルより高速なリグ生成を実現した。その速度は従来比で20倍であり、あらゆるリグ生成を2秒以内に実行する。また、ヒト型、四足動物、海洋生物、昆虫といった多様な関節構造の3Dオブジェクトのリグ生成にも対応する。

 アメリカ・スタンフォード大学とNVIDIAらの研究チームは、多様なインテリアデザイン3Dシーンを生成する「ReStyle3D」を発表した(※8)。このAIは、ベースとなるさまざまな調度品が置かれた2D画像と、視点移動可能な屋内3Dシーン動画を入力情報として受け付ける。これらを入力すると、2D画像に3Dシーン動画のインテリアデザインを反映したうえで、2D画像を3Dシーン動画に変換する。わかりやすく言えば、2D画像のインテリアデザインを変えて3Dシーン化するのだ。

 ただし「ReStyle3D」には、入力する2D画像と3Dシーン動画におけるそれぞれの照明設定が著しく異なると、期待される3Dシーン動画が生成されないなどの制限事項がある。

 以上に紹介したAIは、衣服の3Dオブジェクト生成、3Dオブジェクトのリグ生成、インテリアデザイン3Dシーン動画生成のような明確な使用用途を意図したうえで開発されている。こうしたAIは、早晩クリエイターが使うことになるだろう。

■動画内のオブジェクト挿入やストーリーボードからのアニメーション生成に成功

 香港大学とAlibabaらの研究チームは、動画のなかに任意の動くオブジェクトを追加したり、動画内のオブジェクトをほかのオブジェクトに置換したりできる「VideoAnydoor」を発表した(※9)。このAIを活用すれば、例えば海を撮影した動画に飛んでいるカモメを挿入できる。

 挿入するオブジェクトは静止画で指定でき、動作はオブジェクト内に動くポイントを指定したうえで、そのポイントを動かすことで動作の軌跡を設定できる。

 「VideoAnydoor」の具体的な応用には、人間を撮影した動画において衣服を置換するバーチャル試着や、任意の動画内に映っているオブジェクトへのロゴ挿入などが想定されている。

 イギリス・エディンバラ大学と写真共有アプリSnapchat』を開発・運営するSnapらの研究チームは、簡単な2Dストーリーボードから3Dアニメーションを生成する「Sketch2Anim」を発表した(※10)。

 ストーリーボードとは、アニメや実写映画において重要となるシーンをイラスト等で図解して、ストーリーの流れを伝えるものである。「Sketch2Anim」の場合、棒人間とその動きを示す線だけで構成されたストーリーボードを入力すれば、事前に用意していた3Dキャラクターの動きを生成できる。キャラクターを詳細に描き込んだストーリーボードも、入力情報として活用できる。

 「Sketch2Anim」を進化させる方向性には、2通りある。1つめは、動きのスピードを表現するスピードラインにも対応する方向である。2つめは、生成されるアニメーションの環境としてテーブルなどのオブジェクトを配置できるようにして、キャラクターと周囲のオブジェクトの相互作用を考慮した動きを生成できるようにする方向だ。

 以上に紹介した10本の論文からわかるように、グラフィックAIはCGの下位カテゴリーとしてではなく、CG全体に溶け込んで、いわば“下支え”をする要素・技術になりつつある。今後はグラフィックAIがますますCGと混然一体となって、CGにAIが使われていることがあまり意識されなくなるのではないだろうか。

〈参考〉(※1)「Style Customization of Text-to-Vector Generation with Image Diffusion Priors」https://customsvg.github.io/(※2)「Efficient Line Art COlorization with BRoAder References」https://zhuang2002.github.io/Cobra/(※3)「IP-Prompter: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting」https://ip-prompter.github.io/(※4)「Text-based Animatable 3D Avatars with Morphable Model Alignment」https://onethousandwu.com/animportrait3d.github.io/(※5)「LAM: Large Avatar Model for One-shot Animatable Gaussian Head」https://aigc3d.github.io/projects/LAM/(※6)「Single View Garment Reconstruction Using Diffusion Mapping Via Pattern Coordinates」https://liren2515.github.io/page/dmap/dmap.html(※7)「RigAnything: Template-Free Autoregressive Rigging for Diverse 3D Assets」https://www.liuisabella.com/RigAnything/(※8)「Scene-level Appearance Transfer with Semantic Correspondences」https://restyle3d.github.io/(※9)「VideoAnydoor : High-fidelity Video Object Insertion with Precise Motion Control」https://videoanydoor.github.io/(※10)「Sketch2Anim: Towards Transferring Sketch Storyboards into 3D Animation」https://zhongleilz.github.io/Sketch2Anim/

(文=吉本幸記)