入力したテキストに則した画像を生成したり、ある画像から別の画像を生成したりすることができる画像生成AIの「Stable Diffusion」を使い、さまざまなインテリアデザインをAIに生成してもらうという試みをKaren X. ChengさんとJustin Alveyさんが行っています。





Alveyさんによると、この試みはStable Diffusionのバージョン2.0で登場した、入力画像の奥行きを推測して画像を出力することができる「Depth-Guided」というモデルを利用し、模型で作成した簡易的なインテリアをベースにAIにさまざまなインテリアデザインを提案させています。





Depth-GuidedモデルはStable Diffusionのimg2img機能(ある画像から別の画像を生成する機能)を強化するために追加されたモデル。入力画像の深度情報を推測し、それをベースに別の画像を生成するため、元の画像の構図を出力画像に色濃く反映できるというのが特徴です。以下の画像は左から「入力画像」「入力画像から抽出した深度情報」「深度情報をベースに新しく出力した画像」です。



「Depth-Guidedモデルは、Stable Diffusionのバージョン2.0から微調整されており、深度関連の追加チャンネルが存在しているためユニーク」とAlveyさん。なお、Depth-Guidedモデルは単一の画像から深度を予測するモデルのMiDaSを利用しているそうで、以下のツイートの画像は上が「入力画像」で、下が「入力画像から生成した深度マップ」です。





そして深度マップをベースに出力したのが以下のツイートの画像。Alveyさんは「ノイズ除去強度を『1.0』に設定することで、元画像が使用されないようにしました。これによりプロンプトが大きく異なる場合でも、一貫してオブジェクトを生成できました。木製のドールハウス家具など、シンプルでわかりやすい形を入力画像に使用するのが最適でした」とツイートしています。





通常の写真だと極端な遠近法により、出力画像がドールハウスのようになってしまうそうです。しかし、より長い焦点距離(iPhoneなら3倍ズーム)にして被写体から離れて写真を撮影することで問題は解決できたそうです。





Alveyさんが画像生成時に入力したテキストの事例も挙げられています。

「A beautiful rustic Balinese villa, architecture magazine, modern bedroom, infinity pool outside, design minimalism, stone surfaces(美しい素朴なバリのヴィラ、建築雑誌、モダンなベッドルーム、屋外のインフィニティ・プール、ミニマリズムデザイン、石の表面)」





「Luxurious modern studio bedroom, trending architecture magazine photo, colorful framed art hanging over bed, design minimalism, furry white rugs, trendy, industrial, pop art, boho chic(豪華でモダンなスタジオベッドルーム、トレンドの建築雑誌の写真、ベッドにかけられたカラフルなフレームアート、ミニマリズムなデザイン、白いファーのラグ、トレンディ、インダストリアル、ポップアート、ボーホーシック)」





「Retro bedroom studio, arcade, 80's style, vintage framed posters, trending architecture magazine, rugs, metal industrial pipes, murals, guitars and sound equipment, grunge, concrete floor(レトロなベッドルームスタジオ、アーケード、1980年代スタイル、ビンテージのフレーム付きポスター、トレンドの建築雑誌、ラグ、金属製の工業用パイプ、壁画、ギターと音響機器、グランジ、コンクリート床)」





画像生成時に入力するテキストで、深度マップがどのように変化するかが大きく変化してきます。そのため、入力するテキストにはある程度の創造性が必要になるとAlveyさん。例えば以下のツイートの画像のように、花瓶の深度マップは、入力するテキストによって似たような形のおもちゃやろうそく、彫刻、ギター、ミッキーの被り物をした子どもとして出力されています。