Googleが2024年12月16日に、画像を入力することでさまざまな画像を生成できる新たな画像生成AI「Whisk」を発表しました。

Whisk

https://labs.google/fx/tools/whisk/unsupported-country

Introducing Whisk: Prompt Less, Play More | Google Labs - YouTube

Whisk: Visualize and remix ideas using images and AI

https://blog.google/technology/google-labs/whisk/

従来の画像生成AIでは「90年代のアニメ風の○○」「サイバーパンク風の○○」といったテキストプロンプトを入力する必要がありました。しかし、今回発表されたWhiskは、テキストプロンプトを入力する必要がないことが特徴です。

Whiskを使って画像を生成するには、まずメインの被写体となる「Subject」に画像をアップロードします。なお、従来の画像生成AIと同様、テキストプロンプトを入力することも可能。



続く「Scene」では、生成される画像の風景を選択します。その際、好きな画像をアップロードすることも可能ですが、ランダムに提示される選択肢の中から1つをピックアップすることもできます。



さらに、「90年代のアニメ風の」など、生成される画像のスタイルを決定する画像をアップロードします。「Style」も「Subject」と同様、テキストプロンプトの入力にも対応しています。



最後に、生成される画像の詳細をテキストで入力します。



すると、アップロードした画像をリミックスした画像が生成されます。



生成された画像に気に入らない点がある場合「REFINE」ボタンをクリック。



現れたテキスト入力欄に「ピンクのストライプの入ったスーツ」と入力。



入力したテキストを元に修正を行った画像が生成されました。



Googleによると、Whiskは、Googleの生成AIであるGeminiを用いてアップロードされた画像の詳細なキャプションを自動的に記述し、それを画像生成モデルのImagen 3に入力することで手軽な画像生成が可能とのこと。





以下はWhiskを用いた実際の画像生成の例です。



ドーナツの画像とピンバッジの画像を組み合わせて生成された画像が以下。



Googleは「Whiskは画像からいくつかの主要な特性しか抽出しないため、被写体の身長や体重、髪型、肌の色など、期待とは異なる画像が生成される可能性があります。そのため、Whiskではいつでもプロンプトの確認ならびに編集が可能です」と述べています。また、Googleのバイスプレジデントであるジョシュ・ウッドワード氏は「Whiskは映画制作者やクリエイティブさを重視する広告主、ファッションデザイナーの方々との会話に基づいて構築されました」と語りました。





なお、記事作成時点でWhiskはアメリカのユーザーのみ使用可能で、日本からは使用できませんでした。