見る方向や絵の形を変えることで、意味や見た目が変わってしまう「だまし絵」を、拡散モデルの画像生成AIで自動生成する技術「Visual Anagrams」をミシガン大学の研究チームが発表しました。

[2311.17919] Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models

https://arxiv.org/abs/2311.17919



Visual Anagrams

https://dangeng.github.io/visual_anagrams/



「Jigsaw Permutations」はジグソーパズルのように絵を分解して組み立てると別の絵になります。例えば、以下のだまし絵では、シカの絵を分解して組み立てると、キッチンの絵になっているのがわかります。



アインシュタインの肖像画が、観葉植物の絵に。



180度ひっくり返すと別の絵になる「Flips and 180° Rotations」の一例として作成されたのが以下。老婆の顔をひっくり返すと、ドレスを着た女性の写真になります。



ペンギンの絵を180度ひっくり返すと、キリンの顔になりました。



雪山の絵を時計回りに90度回すと馬の絵になりました。90度回転させると別の絵になる「90° Rotations」です。



山小屋の絵は帆船の絵になります。



「Color Inversions」は白黒を反転させると別の絵に見えるというだまし絵。例えば以下の例だと、左側がウサギの写真に、右側はテディベアの写真に見えます。



左側は愁いを帯びた女性の横顔、右側は少し微笑む男性の横顔。



絵の一部を変形させたり回転させたりすると別の絵になるというのが、「Miscellaneous Permutations」というだまし絵。例えば、マリリン・モンローの肖像画の顔部分だけを回転させると、アインシュタインの肖像画になります。



革張りの椅子の絵かと思ったら、中央を回転させるとヒゲを生やした男性の肖像画に。



「Random Patch Permutations」は絵を細かく分解して再構築すると別の絵になるというもの。例えば、以下のウサギのモザイク画をバラバラにして組み立て直すと、カモの絵になります。



青年を描いた絵を分解して再構築したところ、老人の絵に変化しました。



Visual Anagramsのプロセスを示したのが以下の図。一般的な拡散モデルを使い、だまし絵のパターンごとにノイズを生成し、そのノイズの推定値を平均化しています。



Visual Anagramsのソースコードは以下のGitHubリポジトリで公開されています。

GitHub - dangeng/visual_anagrams: Code for the paper "Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models"

https://github.com/dangeng/visual_anagrams