2億2600万パラメーターで100億パラメーター級の画像補完性能を示すAIフレームワーク「Moebius」、不要物の除去や顔の置き換えが可能

中国の華中科技大学とVIVO AI Labの共同研究チームが、画像の欠損領域を周囲と自然につながるように生成する「インペインティング」向けの軽量AIフレームワーク「Moebius」を発表しました。Moebiusは約2億2600万パラメーターで動作しながら、100億パラメーター級の大規模産業用モデルに近い、あるいは一部の評価で上回る品質を目指した用途特化型モデルです。
https://hustvl.github.io/Moebius/
[2606.19195] Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance
https://arxiv.org/abs/2606.19195
GitHub - hustvl/Moebius: [ECCV 2026] Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance · GitHub
https://github.com/hustvl/Moebius
hustvl/Moebius · Hugging Face
https://huggingface.co/hustvl/Moebius
インペインティングは写真から不要な物体を消したり、マスクで指定した領域を背景になじむ形で埋めたりする処理に使われます。しかし、高品質な補完を実現する大規模モデルだと計算量とメモリー使用量が大きく、処理時間や導入コストが課題になります。Moebiusは汎用的な画像生成モデルをそのまま巨大化するのではなく、画像補完という目的に絞って効率を高めた「専門家」モデルとして設計されています。
以下の画像の左が処理前の写真で、削除したい部分に青色のマスクがかかっています。そして、右がMoebiusによる処理後の写真。スライドバーを左右に動かすことで比較できます。
夜道を歩くカップル以外の群衆をきれいに消すことができています。
風景写真から邪魔なオブジェクトを削除。大きな破綻は見られません。
人の顔に大きくマスクをかけて補完処理をするとこんな感じ。さすがに元の顔とはまったく違う顔になってはいるものの、写真自体には破綻がなく、元を知らなければ自然な写真に見えるレベル。
Moebiusの基本処理は入力画像と欠損領域の情報をいったん圧縮された潜在空間に変換し、その空間でノイズを取り除きながら欠損部分を復元する方式です。さらに、欠損していない領域から得た画像全体の意味的な手掛かりを利用し、生成結果が場面の内容と矛盾しないようにします。

中心となるLλMIブロックは、画像の欠けた部分を自然に埋めるために、近くの情報と画像全体の意味的な手掛かりを一緒に使う仕組みです。LλMIは、周辺の状況を読み取るLocal-λ、画像全体に関わる意味情報を取り込むInteractive-λ、特徴を効率的に変換するMix-FFNで構成されます。

Local-λは、欠けた部分の周りにある色や模様、物の位置を見て、近くの状況を読み取ります。Interactive-λは、画像全体が何を写しているのかという手掛かりも参照し、周囲だけでは判断しにくい内容まで自然に補えるようにします。

Moebiusは自然画像データセットのPlaces2で、欠損領域の大きさや形状が異なる複数の条件を用いて評価されました。512x512ピクセルの画像を単一GPU(NVIDIA L40S)で処理した場合、Moebiusの推論時間は1ステップ当たり26.01ミリ秒で、FLUX.1-Fill-Devの161.01ミリ秒、SD3.5 Large-Inpaintingの151.02ミリ秒より大幅に短い結果でした。Places2の小さな欠損領域を対象とした評価では、MoebiusはFID 0.92、LPIPS 0.091を記録し、FLUX.1-Fill-DevのFID 0.94、LPIPS 0.099を上回りました。大きな欠損領域や自由形状のマスクを含む条件でも、大規模な産業用モデルと競争力のある補完品質を示しています。

論文では、Places2のテスト設定でLλMIブロックと軽量化処理の効果も比較しています。従来型の構成は約5億2600万パラメーター・約314GFLOPsでしたが、Local-λとInteractive-λを導入した構成では約4億8500万パラメーターまで削減され、画質指標もほぼ維持されました。さらにDepthwise ConvolutionとMix-FFNを組み合わせた最終構成では、パラメーター数を約2億2600万、計算量を約154GFLOPsまで削減しました。その際の評価値はFIDが約26、LPIPSが約0.26と、軽量化後も補完画像の品質を一定水準に維持しています。

ただし、モデルを小さくするだけでは画像を理解する力が弱まり、補完品質が下がることも論文内で確認されています。Moebiusでは、LλMIブロックによる効率化と、複数の粒度で特徴を学ばせる知識蒸留を組み合わせることで、小型モデルの表現力不足を補っています。
研究チームは、約2億2600万パラメーターのMoebiusは10B級の汎用モデルに近い画像補完品質を示しながら、総推論時間で15倍超の高速化を達成したと報告しています。同時に、この結果は画像補完や不要物除去のように目的が明確な用途ではモデルを単に大型化するのではなく、タスクに特化した軽量設計によって高品質と実用的な処理速度を両立できる可能性を示していると論じました。
