ペイントでレイアウトを直感的に指定可能で画像の一部差し替えも簡単な画像生成システム「SceneComposer」をAdobeの研究者らが開発

2022年11月28日 8時0分

ジョンズ・ホプキンズ大学やAdobe Researchの研究チームが、手描きのレイアウトを利用してオブジェクトの配置を簡単に指定でき、生成後に画像を微調整することも可能な画像生成システム「SceneComposer」を開発しました。

SceneComposer: Any-Level Semantic Image Synthesis

https://doi.org/10.48550/arXiv.2211.11742

GitHub - zengxianyu/scenec

https://github.com/zengxianyu/scenec

SceneComposer: Any-Level Semantic Image Synthesis

https://zengyu.me/scenec/

「SceneComposer」は、通常の画像生成AIと同様にテキストから画像を生成することが可能。研究チームが公開している動画では、「a frog reading a book(カエルが本を読んでいる)」というテキストを入力すると、このような画像が生成されました。

また、テキストをパートごとに分割し、特定のパートごとに色分けしてレイアウトを指定することもできます。たとえば、「a dog reading a book(犬が本を読んでいる)」というテキストを「a dog(犬)」「reading a book(本を読んでいる)」という2パートに分割し、「a dog」を青色で、「reading a book」を茶色で塗り分けてレイアウトを指定することが可能です。

事前に指定したレイアウトに沿った画像が生成されました。

「Albert Einstein in spacesuit on a horse(宇宙服を着たアルバート・アインシュタインが馬に乗っている)」というテキストに基づいて、レイアウト指定なしで生成したものが一番左。真ん中のようにレイアウト指定すると、一番右の画像が生成されます。

さらに、画像の構図を維持したままオブジェクトを差し替えたり付け加えたりすることも可能。今回は、犬が本を読んでいる画像に「wear glasses(メガネをかけている)」という要素を追加してみるとのこと。

さらに、テキストや指定色の横にある「Precision level(正確度)」の項目を調整することで、特定のパートの正確度を上下させることも可能です。

「wear glasses」の指定色であるピンク色でメガネをかけさせたい場所を指定し、画像を生成してみます。なお、SceneComposerでは画像のノイズを固定して再生成することができます。

生成された画像はこんな感じ。構図や雰囲気を維持したまま本を読んでいる犬にメガネをかけさせることができました。

次は「a zombie(ゾンビ)」「a road(道)」「a hut(あばら屋)」「forest(森林)」「pencil sketch(鉛筆スケッチ)」というテキストで画像を生成してみます。この際、スタイルの指定でありオブジェクトではない「pencil sketch」については、「Precision level」を「0」にするといいとのこと。