イギリスのスタートアップ・Stability AIが、画像生成AI・Stable Diffusionのバージョン2.0に当たる「Stable Diffusion 2.0-v」をリリースしたと発表しました。Stable Diffusion 2.0-vはLAION-5Bから作成されたサブセットで学習しており、デフォルトの出力画像解像度は768×768ピクセルも選択可能となりました。さらに画像解像度を4倍に高めるUpscaler Diffusionモデルも含まれているため、2048x2048ピクセルあるいはそれ以上の解像度の画像を生成できるようになっています。

Stable Diffusion 2.0 Release - Stability.Ai

https://stability.ai/blog/stable-diffusion-v2-release

GitHub - Stability-AI/stablediffusion: High-Resolution Image Synthesis with Latent Diffusion Models

https://github.com/Stability-AI/stablediffusion

オープンソースとして公開された画像生成AIのStable Diffusionは、これまでバージョン1.1、1.2、1.3、1.4が公開されていました。また、バージョン1.5についてはオープンソースとしては公開されていないものの、Stablitiy AIが運営する有料画像生成サービスのDreamStudioで使用可能でした。また、Stability AIと共同でStable Diffusionを開発していたRunway MLが、Stablity AIとは別にバージョン1.5のモデルを公開しています。

今回公開されたバージョン2.0は、U-Netのパラメータ数はバージョン1.5と同じとのことですが、テキストエンコーダーにOpenAIのOpenCLIP-ViT/Hを使って一から学習しているとのこと。また、Stable Diffusion 2.0-vはデフォルト解像度が512×512ピクセルのノイズ予測モデルとしてトレーニングされた「Stable Diffusion 2.0-base」から微調整されているほか、解像度を4倍にアップコンバートするモデルも追加されており、2048×2048ピクセルの画像も出力できるようになっているそうです。



さらに、テキストだけではなく画像もプロンプトとして入力できるimg2img機能を強化するため、画像を解析してカメラと被写体の距離を推定する「単眼深度推定」モデルのMiDasを組み込んだ「depth2img」という機能も追加されました。同時に画像内の任意の場所をAIで描き換えて自動修正する「Inpainting」も刷新され、性能と速度が向上したそうです。





加えて、Stable Diffusion 2.0-vはリファレンスサンプリングスクリプトにも対応しました。これは、画像がAIによって生成されたものであることを示す「デジタル透かし」を画像に組み込むというもの。Stable Diffusionが生成する写真やイラストには人間が作ったのかAIが作ったのか見分けがつかないほど品質が高い作品もあり、実際にAIの出力した作品が美術品評会で金賞を取ったこともあるほど。AI生成の画像にデジタル透かしが入ることによって、制作者以外でも区別が付くようになるというわけです。

記事作成時点でStable Diffusion 2.0-vのモデルはオープンソースとして公開されてはいませんが、DreamStudioで使用可能だとのこと。また、AIプラットフォームのHugging FaceではStable Diffusion 2.0-vのデモを体験可能。ただし、記事作成時点ではアクセスが集中しているようで、「This application is too busy.」と表示され、実際に画像を生成することはできませんでした。

Stable Diffusion 2 - a Hugging Face Space by stabilityai

https://huggingface.co/spaces/stabilityai/stable-diffusion