イラストを入力するとあたかも手描きをタイムラプス撮影しているかのような制作過程ムービーを作成できる「Paints-Undo」
イラストを入力するだけでそのイラストの制作フローをタイムラプス撮影したかのようなムービーを出力できるAI「Paints-Undo」が開発されました。開発者はControlNetの作者として知られるllyasviel氏です。
PaintsUndo: A Base Model of Drawing Behaviors in Digital Paintings
https://lllyasviel.github.io/pages/paints_undo/
llyasviel氏は、Paints-Undoのデモページで複数の入出力の例を紹介しています。デモページで入力に使われている画像は、オリジナルの人物も版権のキャラクターも含まれていますが、すべてAIによって生成された画像であるとのこと。
以下は、Paints-Undoのデモに用いられているAIで生成したイラスト。
このイラストをPaints-Undoに入力した結果のムービーが以下。
イラストを入力すると制作過程ムービーを出力してくれるAI「Paints-Undo」で出力できるデモムービー - YouTube
他にも複数のデモが紹介されており、かなり大まかなラフからムービーが始まっているものもあります。以下の画像の左が入力したイラストで、右がPaints-Undoで出力したムービーの一部。
実際のイラスト制作では、ラフから線画を作成したらその後の彩色で大きく外観を変えない人も多いですが、Paints-Undoの場合は彩色が始まった段階でも完成イラストに遠いのが特徴。人間による一般的な作業行程とはことなる「彩色しながら輪郭なども描きかえる」という行程が見られるため、「完全に人間と見分けが付かない」というわけではありません。
最終的には線・カラーともに入力したイラストに近い内容になりました。以下のデモの場合では、最後まで口元の描写が入力したイラストと異なっていましたが、出力したムービーの最後に口元を修正するような形で、元のイラストに合わせていました。
Paints-Undoでは、最初の下描きのラフさを指定して制作過程を出力することも可能。
入力する画像はデジタルイラスト風のものだけではなく、アメコミ風のテイストやゲームキャラのようなもの、モノクロの水彩画風の画像でも可能な様子。
一方で、写真からリアルなイラストを作成したり、多くの人物や複雑な背景が含まれていたり、水しぶきなどの特殊な状況だったり、出力するのに苦労する画像もあるとのこと。また、制作過程のタイムラプス風のムービーを出力しますが、「実際にここをこのタイミングでこのようにやり直すことはありえない」というようなシーンも含まれてしまうことがあります。
Paints-Undoは、「paints_undo_single_frame(シングルフレームモデル)」と「paints_undo_multi_frame(マルチフレームモデル)」という2つのモデルを組み合わせています。シングルフレームモデルは、「作品が常に1000回の操作で完成する」と仮定して、白いキャンバスから完成した作品までを1000個のステップに分割するAIモデルです。この中に何回「Ctrl+Z(元に戻す)」を含めるかをシミュレートしたものが、Paints-Undoのタイムラプスムービーとなります。また、マルチフレームモデルとは2枚の画像を入力として受け取って、その間の16フレームの中間画像を出力するもので、シングルフレームモデルで取得した「キーフレーム」を補完するような形でムービーとして出力しています。
使用している環境や設定にもよりますが、1つの画像から25秒のムービーに変換する処理に、約5分から10分かかるとのこと。また、デモはNVIDIAのGeForce RTX 4090およびGeForce RTX 3090 Tiの24GB VRAMでテストされており、16GB VRAMでも動作するかもしれませんが、8GBでは動作しないため注意が必要とllyasviel氏は述べています。
Paints-UNDOの詳細はGitHubで公開されています。
GitHub - lllyasviel/Paints-UNDO: Understand Human Behavior to Align True Needs
https://github.com/lllyasviel/Paints-UNDO