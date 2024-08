Google DeepMindがテキストから画像を生成できる新たなモデル「Imagen 3」をリリースするとともにImagen 3の研究論文を公開しました。Imagen 3はGoogleの画像生成ツール「ImageFX」で試せるとのことなので、実際に試してみました。Imagen 3 - Google DeepMindhttps://deepmind.google/technologies/imagen-3/

[2408.07009] Imagen 3https://arxiv.org/abs/2408.07009Google DeepMindの公式サイトにはImagen 3の作例が多数公開されています。下図は「Shot in the style of DSLR camera with the polarizing filter. A photo of two hot air balloons floating over the unique rock formations in Cappadocia, Turkey. The colors and patterns on these balloons contrast beautifully against the earthy tones of the landscape below. This shot captures the sense of adventure that comes with enjoying such an experience.(偏光フィルター付きの一眼レフカメラで撮影。トルコのカッパドキアのユニークな岩層の上を浮かぶ2つの熱気球の写真。これらの気球の色と模様は、下にある風景の素朴な色調と美しく対照的です。このショットは、このような体験を楽しむことで得られる冒険心を捉えています)」というプロンプトでの出力とのこと。Imagen 3では写真のようにリアルな風景以外にも、質感豊かな油絵やクレイアニメーションのシーンなどさまざまなスタイルの画像を生成可能です。さらにプロンプトの理解力が向上し、プロンプトエンジニアリングの必要性が低下したほか、人物の細かいしわや毛糸で編まれたぬいぐるみなど複雑なテクスチャを正確にレンダリングできると述べられています。また、テキストのレンダリング能力も大きく向上しています。例えば下図は「Word “light” made from various colorful feathers, black background(さまざまなカラフルな羽根で作られた「light」という文字、黒い背景)」というプロンプトで出力された画像です。なぜか大文字の「LIGHT」になっているものの、単語自体は正しく出力できています。Imagen 3はGoogleの画像生成ツール「ImageFX」上で実際に試すことが可能です。サイトにアクセスし、右上の「Googleでログイン」をクリック。「ログイン」をクリックします。「次へ」をクリック。プライバシーポリシーを最下部までスクロールし、「次へ」をクリックします。「同意して続行」をクリック。ImageFXの画面はこんな感じ。日本語が使えるかを確かめるため、左の欄に日本語で「『GIGAZINE』という文字を書いているブリキでできたロボット」とプロンプトを入力し、「作成」をクリックします。生成中、「AIがこの文字を認識しています!」と思わせるエフェクトが出現しました。生成できたものの、プロンプトの内容とは全く異なる画像が出力されてしまいました。日本語ではダメな模様です。英語でプロンプトを入力してみると意図通りの画像が4枚出力されました。「作成」をクリックするたびに新たな4枚が生成されます。生成結果がコンテンツポリシー的にNGの場合は「コンテンツが見つかりません」と表示される模様。右上の画像をクリック。画像が拡大表示されました。右下に「画像をコピー」「画像をダウンロード」というボタンがあり、左下に「画像を編集」というボタンがあります。「画像を編集」をクリック。編集機能を使用すると画像の一部のみを新たなプロンプトで再生成することが可能です。変更したい部分をブラシで塗りつぶし、変更内容を記入して「編集内容を生成」をクリック。今回は「replace robot with wooden one(ロボットを木製のものに置き換えて)」とお願いしてみました。結果はこんな感じ。ロボットの部分だけを変更した画像が4枚生成されました。Imagen 3ではコンテンツフィルターがかなり厳しく設定されているようで、「girl」という単語が含まれているとかなりの確率でコンテンツフィルターにひっかかってしまいます。「boy」もコンテンツフィルター的にアウトでした。「woman」もダメ。しかし「man」は安定して出力することができました。実在人物はかなりの確率でNGになってしまいます。キャラクターは出力できるものとできないものが混在していました。なお、Imagen 3で生成した画像にはデジタル透かしの「SynthID」が埋め込まれており、識別できるようになっているとのこと。今後GeminiアプリやWorkspace、広告などGoogleサービス全体でImagen 3が利用できるようになる予定と述べられています。