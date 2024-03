DALL-E 3やStable Diffusionといった人気の画像生成AIの拡散モデルを簡素化し、生成される画像の品質を維持しつつ生成スピードを最大で30倍加速させる技術を、アメリカ・マサチューセッツ工科大学(MIT)の研究チームが公開しました。[2311.18828] One-step Diffusion with Distribution Matching Distillation

https://arxiv.org/abs/2311.18828AI generates high-quality images 30 times faster in a single step | MIT News | Massachusetts Institute of Technologyhttps://news.mit.edu/2024/ai-generates-high-quality-images-30-times-faster-single-step-0321MIT scientists have just figured out how to make the most popular AI image generators 30 times faster | Live Sciencehttps://www.livescience.com/technology/artificial-intelligence/mit-has-just-worked-out-how-to-make-the-most-popular-ai-image-generators-dall-e-3-stable-diffusion-30-times-faster画像生成AIの多くで使われている拡散モデルは、何の画像なのかを説明するキャプションやメタデータをつけられた画像をトレーニングデータとして使用することで、テキストプロンプトから正確に画像を生成できるようにトレーニングされています。この過程で、拡散モデルはまずランダムな画像をノイズに変換してから、「逆拡散」と呼ばれるノイズ除去の過程を最大100ステップ行うことで、鮮明な画像を生成できるようになるとのこと。今回MITの研究チームが発表した「分布マッチング蒸留(DMD)」という手法では、この「逆拡散」のステップを1ステップまで減らすことで、画像生成にかかる時間を大きく短縮することに成功しました。Stable Diffusion v1.5を使用したあるテストでは、2590ミリ秒かかっていた画像生成時間が、約30分の1の90ミリ秒に短縮されました。MITのTianwei Yin氏は「私たちの研究は、敵対的生成ネットワーク(GAN)の原理と拡散モデルの原理を融合させ、視覚コンテンツ生成を1つのステップで実現するもので、これは現行の拡散モデルが100ステップもの反復的な改良を必要とするのとは対照的です。これは、スピードと品質に優れた新しい生成モデリング手法となる可能性を秘めています」と話しました。DMDには、画像を生成するのに必要な反復回数を減らす上で重要な2つの要素があります。1つ目は「回帰損失」と呼ばれるもので、学習の最中に類似性に基づいて画像を整理することでAIを高速化します。2つ目は「分布マッチング損失」で、特定の画像が生成される確率を現実世界での確率に対応させるというものです。これらの技術を組み合わせるとこで、新しいAIモデルによって生成された画像に奇妙な部分が現れる可能性が最小限に抑えられるとのこと。この新しいアプローチは、画像生成に必要な演算力を劇的に削減するため、高速かつ効率的な生成が求められるAI業界に大きな利益をもたらし、より迅速なコンテンツ生成につながると期待されています。MITのフレド・デュランド氏は、「拡散モデルが誕生してからというもの、反復回数を減らす方法が聖杯のように探し求められていました。それがついに1回のステップでの画像生成が可能になり、演算コストが劇的に削減され、生成の過程が加速されることに大変興奮しています」と話しました。