ジョンズ・ホプキンズ大学やAdobe Researchの研究チームが、手描きのレイアウトを利用してオブジェクトの配置を簡単に指定でき、生成後に画像を微調整することも可能な画像生成システム「SceneComposer」を開発しました。

SceneComposer: Any-Level Semantic Image Synthesis

https://doi.org/10.48550/arXiv.2211.11742

GitHub - zengxianyu/scenec

https://github.com/zengxianyu/scenec

SceneComposer: Any-Level Semantic Image Synthesis

https://zengyu.me/scenec/

「SceneComposer」は、通常の画像生成AIと同様にテキストから画像を生成することが可能。研究チームが公開している動画では、「a frog reading a book(カエルが本を読んでいる)」というテキストを入力すると、このような画像が生成されました。



また、テキストをパートごとに分割し、特定のパートごとに色分けしてレイアウトを指定することもできます。たとえば、「a dog reading a book(犬が本を読んでいる)」というテキストを「a dog(犬)」「reading a book(本を読んでいる)」という2パートに分割し、「a dog」を青色で、「reading a book」を茶色で塗り分けてレイアウトを指定することが可能です。



事前に指定したレイアウトに沿った画像が生成されました。



「Albert Einstein in spacesuit on a horse(宇宙服を着たアルバート・アインシュタインが馬に乗っている)」というテキストに基づいて、レイアウト指定なしで生成したものが一番左。真ん中のようにレイアウト指定すると、一番右の画像が生成されます。



さらに、画像の構図を維持したままオブジェクトを差し替えたり付け加えたりすることも可能。今回は、犬が本を読んでいる画像に「wear glasses(メガネをかけている)」という要素を追加してみるとのこと。



さらに、テキストや指定色の横にある「Precision level(正確度)」の項目を調整することで、特定のパートの正確度を上下させることも可能です。



「wear glasses」の指定色であるピンク色でメガネをかけさせたい場所を指定し、画像を生成してみます。なお、SceneComposerでは画像のノイズを固定して再生成することができます。



生成された画像はこんな感じ。構図や雰囲気を維持したまま本を読んでいる犬にメガネをかけさせることができました。



次は「a zombie(ゾンビ)」「a road(道)」「a hut(あばら屋)」「forest(森林)」「pencil sketch(鉛筆スケッチ)」というテキストで画像を生成してみます。この際、スタイルの指定でありオブジェクトではない「pencil sketch」については、「Precision level」を「0」にするといいとのこと。



あばら屋や木を背にしたゾンビが、鉛筆画のようなタッチで生成されました。



また、「Keep Pixels(ピクセルを維持)」にチェックを入れると、一度生成した画像について変えたくない部分はそのままに、差し替えたい部分のみ新たな要素を付け加えたり差し替えたりできます。



生成済みの画像の下部だけに、「a field of flowers(花畑)」という要素のレイアウトを指定します。



すると、カエルや背景は変わらないままで地面が花畑になりました。



変えたくない部分を維持したまま画像の一部を編集した実例はこんな感じ。研究チームは、「私たちのフレームワークは、さまざまな描画の専門知識を持つユーザーや、クリエイティブワークフローのさまざまな段階にあるユーザーを柔軟に支援します」と述べています。





なお、記事作成時点では「SceneComposer」のGitHubページには詳細情報が掲載されていませんが、近日中に更新される予定となっているほか、ウェブアプリも近日公開予定とのことです。