画像生成AIのStable Diffusionはテキストを入力して指示を出すことで画像を生成できますが、テキストだけだと自分の望み通りの絵を生成するのはなかなか難しいもの。「Scribble Diffusion」は、ブラウザ上で描いた落書きとテキスト入力から自分の希望に近い絵をStable Diffusionで生成することが可能で、動作デモをブラウザから試すことが可能です。

Scribble Diffusion

https://scribblediffusion.com/

このScribble Diffusionは、プロンプトとして画像の構図や深度情報などを追加で与えるためのニューラルネットワーク「ControlNet」を応用しています。ControlNetを使うとどういう画像が生成できるのかについては、以下の記事を読むとよくわかります。

ポーズや構図を指定してサクッと好みのイラスト画像を生成しまくれる「ControlNet」&「Stable Diffusion」の合わせ技を試してみたよレビュー - GIGAZINE



Scribble Diffusionのデモページにアクセスするとこんな感じ。正方形のキャンバスにイラストを描き、その下にある入力欄にテキストで説明を入力し、「Go」ボタンをクリックします。



以下の例はデフォルトで入力されていたもので、山の間から太陽が顔をのぞかせるイラストとテキストだったのですが、山並みを示すギザギザは湖岸だと判断されたようで、山並みは湖の対岸に描かれています。また、「山の間から見える太陽」らしき存在は描かれていませんでした。



イラストをもっと細かく描いたらどうなるのだろうかと思って描いたのが以下。テキストはシンプルに「ギターを弾いているネコ」で、イラストもその通りに描いています。



生成した画像が以下。表情が険しくなってはいますが、構図通りに絵が描かれており、ほぼ期待していた結果に近い絵が出力されています。



今度は「ソルト・ベイのようにケーキに砂糖を振りかけるイーロン・マスク」



結果はこんな感じ。イーロン・マスクの再現性は非常に高いですが、ケーキは謎の光に変換されています。



そこで、以下のようにイラストの右手とケーキ部分をもうちょっと書き込んでから、同じテキストで出力してみました。すると、ちゃんとケーキらしきものに砂糖を振りかけるイーロン・マスクの絵が出力できました。



なお、Scribble DiffusionのコードはGitHubで公開されており、自前のサーバーに構築することが可能です。

GitHub - replicate/scribble-diffusion: Turn your rough sketch into a refined image using AI

https://github.com/replicate/scribble-diffusion