機械学習エンジニアのマシュー・ル・コショワ氏が作成した「PabloNet」は、秒間100枚以上の画像を生成できる爆速画像生成パイプライン「StreamDiffusion」を使用して、リアルタイムでカメラで捉えたものからAIアートを作成するというシステムです。実際に動作している様子や仕組みについて、コショワ氏が解説しています。

PabloNet

https://www.matthieulc.com/posts/pablonet/



従来の拡散モデルはテキストや画像のプロンプトから画像を生成することには長けているものの、リアルタイムのやりとりでは性能が十分でないことがあります。メタバースやライブビデオストリーミングのような「連続的な入力」を伴うシナリオに対応するために考案された新しいアプローチがStreamDiffusionです。通常の生成AIは、一連のプロンプトが入力されたら読み込み時間を経てそのプロンプトに対応した画像を出力しますが、StreamDiffusionのデモ映像では、プロンプトを1文字入力するごとに生成される画像がリアルタイムで切り替わっていくことがわかります。

秒間100枚以上の画像を生成できる爆速画像生成パイプライン「StreamDiffusion」が登場 - GIGAZINE



コショワ氏は「AIでアートを生成できることにより、芸術で内面世界を表現することが誰でもできることは素晴らしいです」と語り、AIで創造性を発揮することを好ましく思っていたそうです。しかし、StreamDiffusionを試していた際に、リアルタイムの画像生成は楽しいものの、アニメキャラ的な画像を扱うケースが多かったり、プロンプトを入力して画像が生成されるのを楽しむという一時的なものだったりすることに物足りなさを感じていたとのこと。

そこでコショワ氏が作成したのがPabloNetです。PabloNetは、額縁の中にモニターがあり、モニターのすぐ上に穴が空いています。この穴はウェブカメラになっており、リアルタイムで撮影した映像を、StreamDiffusionでリアルタイムにアートへと変換するわけです。



以下は、PabloNetの前にスマートフォンを構えたコショワ氏が立っている際の、リアルタイム生成の様子です。画像をクリックすると、リアルタイムで切り替わっている様子をムービーで見ることができます。



また、以下はコショワ氏の友人を撮影したもの。PabloNetの前で両手を挙げている様子がPabloNetにリアルタイムで反映されていることがわかります。



PabloNetの対象は人物だけではなく、撮影した物体なら問題なく反応します。以下では、テニスラケットをPabloNetの前に設置することでアート化しています。



コショワ氏は、リアルタイムで映像をアート化する仕組みにより、「目の前を通るだけでアートは変化し、一時的なものではないインタラクティブなアートとして機能します。また、正面に配置するオブジェクトを変えることで、気分に応じた絵を飾ることも可能で、常に変化し続けるキャンバスとして永続性を感じられます」と語っています。コショワ氏によると、「出力するアート映像のフレームレートが低い」などの問題があるため、まだまだ改善の余地は残っているそうです。

PabloNetの裏側は以下のようになっており、10.1インチのスクリーン、赤外線ライト、Raspberry Pi用のPiカメラを段ボールのボードに配置し、額縁のようなフレームに収めています。



また、PabloNetのコードはGitHubで公開されています。

GitHub - mlecauchois/pablonet

https://github.com/mlecauchois/pablonet