テキストプロンプトで画像を編集できるAI技術がよく話題になっていますが、それらは編集タイプが限定されていたり、複数の画像の入力が必要だったりするものがほとんどです。しかし、2022年10月17日にプレプリントサーバーのarXivで発表された「Imagic」は、画像の修正箇所を手動で指示したり別の画像を入力したりしなくても、1枚の画像とテキストプロンプトだけで複雑な画像の編集が可能とのことで、論文に掲載されている画像を見るだけでもそのすさまじさを実感することができます。

[2210.09276] Imagic: Text-Based Real Image Editing with Diffusion Models

https://arxiv.org/abs/2210.09276

「Imagic」は、事前にトレーニングしたText to Image拡散モデルを利用しているため、複雑な非剛体(形が変わる物体)の編集が可能です。例えば、以下のように元となった鳥の画像(左)と「翼を広げる鳥」という指示で飛び立とうとしている鳥の画像(右)を出力できます。



「キスしている2羽のオウム」のように、対象が複数でも対応します。



「ネコを飛び越えるヤギ」のように、複数種類の対象のうち片方だけ指定してもOK。



「滝の写真を子どもの絵みたいにして」という具合に、画像全体を大きく編集する指示もこなします。



同じ画像にさまざまな指示を与えた結果を見ると、Imagicがいかに柔軟に編集できるかが分かります。以下では、4本足で立っている犬の画像を座らせたりジャンプさせたりしているほか、「おもちゃをくわえさせる」という具体に新しい物体を追加したり、「おもちゃをくわえながらジャンプ」と複数の指示を組み合わせたりしています。



AIが苦手にしがちな人の手の形や動作も編集できています。



同じ指示から複数の結果を出力することも。



花の種類を変えたり、写真の時間帯を変えたりと、編集方法は多岐にわたります。



ImagicはGitHubで公開されており、自分で試すこともできます。

diffusers/examples/imagic at main · ShivamShrirao/diffusers · GitHub

https://github.com/ShivamShrirao/diffusers/tree/main/examples/imagic



また、以下では実際に試した結果が解説されています。

Imagicを理解する - ほげほげ

https://birdmanikioishota.blog.fc2.com/blog-entry-12.html