マルチモーダル画像生成AI「OmniGen」登場、1つのモデルで「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」などが可能
広く使われている画像生成AIのStable Diffusionは「ControlNetを組み合わせてポーズ抽出やポーズ指定生成を実行する」「IP-Adapterを組み合わせて類似画像を生成する」といったように拡張機能を用いて多様な作業を実行できます。「OmniGen」はControlNetなどの拡張機能を使わず単一のモデルだけで多様な生成作業を実行可能にすることを目指して開発されたマルチモーダル画像生成AIで、単体で「画像生成」「ポーズ抽出」「ポーズ指定生成」「画像内の物体置換」「被写体指定生成」といった作業を実行可能です。
https://arxiv.org/abs/2409.11340
GitHub - VectorSpaceLab/OmniGen: OmniGen: Unified Image Generation. https://arxiv.org/pdf/2409.11340
https://github.com/VectorSpaceLab/OmniGen
OmniGenの機能を示す図が以下。一般的な画像生成AIと同様にテキストからの画像生成が可能なほか、「画像内の飲み物を変更」「画像内の人物のポーズを抽出」「ポーズを指定して画像生成」「2枚の画像から被写体を1人ずつ指定して2人組の画像を生成」といった作業が可能です。
作例はこんな感じ。イスに座った女性の画像を入力し、同じ女性が写る「人混みの中で手を振る」という画像を生成しています。
3人の男性が写る画像から「赤いシャツを着た男性」を抽出して別の画像を生成することもできます。「左側の男性」ではなく「赤いシャツを着た男性」というプロンプトで被写体を指定できるのが特徴的。
別々の画像に含まれる被写体を1人ずつ選択して別の画像を生成することもできます。下側の例では「年長の女性」という主観での判断が必要な指示が含まれていますが、正しく実行できています。
OmniGenでは人間が含まれる画像以外も扱えます。以下の例では「画像1の花を画像2内の最も明るい色の花瓶に入れて、工場の中に配置した金属製テーブルの上に置く」という指示を実行しています。
以下のリンク先では、OmniGenを実際に使えます。
OmniGen - a Hugging Face Space by Shitao
https://huggingface.co/spaces/Shitao/OmniGen
また、OmniGenの実行に必要なコードは以下のリンク先で公開されています。
GitHub - VectorSpaceLab/OmniGen: OmniGen: Unified Image Generation. https://arxiv.org/pdf/2409.11340
https://github.com/VectorSpaceLab/OmniGen?tab=readme-ov-file