高速かつ高品質&家庭用グラボでも簡単に追加学習可能な画像生成AIモデル「Stable Cascade」をStability AIが発表

画像生成AI「Stable Diffusion」の開発元であるStability AIが、既存のモデルと比べて高品質な画像を高速に生成できる画像生成モデル「Stable Cascade」を発表しました。Stable Cascadeは家庭用の機材を用いて学習や微調整が可能なことも特徴とされています。
Stable Cascade のご紹介 - Stability AI Japan - Stability AI Japan
◆Stable Cascadeの仕組み
Stable Cascadeは学習コストの小ささや画像生成時のVRAM使用量の少なさを特徴とする画像生成モデル「Würstchen」をベースに開発されたモデルです。
Stable Cascadeは「ステージA」「ステージB」「ステージC」の3モデルに分かれており、画像生成処理は「テキストをレイテントジェネレーターフェーズ(ステージC)で24×24の潜在空間に変換し、レイテントデコーダーフェーズ(ステージAおよびステージB)で高解像度の画像を生成する」という順序で実行されます。テキストに合わせて画像を生成する「ステージC」と高解像度の画像を処理する「ステージA」および「ステージB」が切り離されたことで、ControlNetsやLoRAなどの微調整をステージCだけで完結させることが可能となっており、既存のモデルと比べて微調整に必要なコストが減少。Stability AIは「一般消費者向けハードウェアでのトレーニングと微調整が簡単にできます」と述べ、学習コストの小ささをアピールしています。

ステージBには7億パラメータのモデルと15億パラメータのモデルが存在し、ステージCには10億パラメータのモデルと36億パラメータのモデルが存在しています。Stable Cascadeでの画像生成に必要なVRAM容量は20GBで、モデルの選択によってVRAM使用量を抑えることも可能。ただし、少ないパラメータのモデルでは生成画像の品質が低下する場合もあります。
Stable Cascadeのモデルやトレーニングコード、推論コードは「準備ができ次第」公開予定で、非商用ライセンスが適用されるとのことです。
◆画像生成性能
Stable Cascadeの紹介ページで公開されている画像はこんな感じ。

以下のグラフは、Stability AIがStable Cascadeの性能を「生成画像とプロンプトの類似度」(上段)、「生成画像の美的品質」(下段)の観点で評価した結果を示しています。Stable Cascadeはプロンプトとの類似度と品質の両面で「Würstchen v2」や「SDXL」といった既存モデルのスコアを上回っています。

画像の生成に必要な時間を示したグラフが以下。Stable CascadeはSDXLの半分以下の時間で画像を生成できています。

なお、Stable Cascadeはテキストから画像を生成するtxt2imgだけでなく、画像から画像を生成するimg2imgにも対応しています。以下の画像は左端がオリジナル画像で、右に並ぶ4枚の画像がStable Cascadeによって生成された画像です。

◆ControlNetやLoRAのコードも公開予定
Stable Cascadeのリリースに伴ってControlNetやLoRAのコードもリリースされる予定です。リリース予定のControlNetの一部が以下。
・インペインティング/アウトペインティング
一部分をマスクした画像をテキストとともに入力することで、「画像の一部分を生成画像で埋める」という処理が可能です。

・キャニーエッジ
輪郭画像を入力することで、輪郭を適用した画像を生成できます。

・2倍超解像
生成画像の解像度を向上させます。
