Huawei Noah's Ark Labや大連理工大学、Hugging Faceらの研究者らが、テキストから画像を生成するフレームワークである「PixArt-δ(デルタ)」を発表しました。

[2401.05252] PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models

https://arxiv.org/abs/2401.05252



Meet PIXART-δ: The Next-Generation AI Framework in Text-to-Image Synthesis with Unparalleled Speed and Quality - QAT Global

https://qat.com/ai_news/meet-pixart-%CE%B4-the-next-generation-ai-framework-in-text-to-image-synthesis-with-unparalleled-speed-and-quality/

Open-source PixArt-δ image generator spits out high-resolution AI images in 0.5 seconds

https://the-decoder.com/open-source-pixart-%CE%B4-image-generator-spits-out-high-resolution-ai-images-in-0-5-seconds/

PixArt-δは、すでに存在した1024×1024ピクセルの解像度の画像を素早く生成するモデル「PixArt-α(アルファ)」を大幅に改良したもので、1024×1024ピクセルの解像度を持つ高画質画像を、わずか2〜4ステップで、PixArt-αの7倍となる最短0.5秒で生成することができます。

PixArt-αモデルには、画像生成処理を高速化する「Latente Consistency Model(LCM)」に対応したタイプと、ポーズや深度などの情報を追加で与えることで生成画像の品質を向上させる「ControlNet」に対応したタイプの二つがありましたが、δモデルでは「ControlNet-Transformer」というアーキテクチャを採用し、それぞれの有効性を維持しながら二つを統合したそうです。

δモデルは記事作成時点でレポートが公開されたのみで、デモ版等はまだ公開されていません。なお、以前から公開されているαモデルのLCMタイプとControlNetタイプは以下のリンクからアクセスできます。

PixArt LCM - a Hugging Face Space by PixArt-alpha

https://huggingface.co/spaces/PixArt-alpha/PixArt-LCM

PixArt-alpha/PixArt-ControlNet · Hugging Face

https://huggingface.co/PixArt-alpha/PixArt-ControlNet

LCMタイプは、テキストプロンプトを英語で入力することで画像を生成するものです。



長いプロンプトだと生成に10秒以上かかってしまいます。



δ版は生成にかかる時間が最短0.5秒ということで、α版の何倍も高速になる模様。



レポートの中では、PixArt-δ(左)と、2〜8ステップで画像を生成できる「LCM SDXL」(右)を比較した画像も公開されています。一目見ただけだと、PixArt-δの方がやや解像度高めな印象。



トレーニング効率も向上していて、32GBのGPUメモリ制約内で学習プロセスを成功させているとのことで、この効率性により「コンシューマーグレード」のGPUでも学習が可能とのこと。また、重み(ブロック)が多ければ多いほど出来栄えが悪くなるという問題が既存のモデルに見られたのに対し、ControlNet-Transformerを採用したPixArt-δではその問題を改善することに成功したそうです。