写真から3DCGモデルを作成するにはさまざまな方向から被写体を何枚も撮影する必要があります。クウェート大学・Meta・メリーランド大学の研究者が、たった1枚の写真から高解像度のCGモデルを生成する「Human-SGD」を発表しました。

[2311.09221] Single-Image 3D Human Digitization with Shape-Guided Diffusion

https://arxiv.org/abs/2311.09221

Human-SGD

https://human-sgd.github.io/

研究チームの1人であるJia-Bin Huang氏が、Human-SGDがどういうモデルなのかを解説するムービーをYouTubeで公開しています。

3D Human Digitization from a Single Image! - YouTube

ライダージャケットを着た女性の写真が1枚。



この写真から生成した3DCGモデルが以下。写真は正面から撮影したもののみですが、360度のどこから見ても破綻が少ない高精度な3DCGモデルとなっています。



ポロシャツと半ズボンで歩く男性の写真



テクスチャだけではなく、半ズボンの裾やズボンから出たポロシャツの裾といった細かい形状も再現されています。



Human-SGDは入力した写真からシェイプとテクスチャを生成し、組み合わせています。



生成するプロセスは以下の通り。Human-SGDは写真のシルエットからシェイプをレンダリングし、さらに正面の写真から背面の写真を自動生成して組み合わせてレンダリングします。



テクスチャは拡散モデルで生成され、「微分可能レンダリング」と呼ばれる技術でUVマッピングが最適化されるとのこと。



比較用に提示されたのが以下の3枚の写真。



2019年に発表されたPIFuで生成したCGモデルはこんな感じ。正面から見ると写真に近いのですが、横から見るとシェイプの精度が低く、顔部分を中心に解像度が低いことがわかります。



2023年に発表されたTEXTureはテクスチャの解像度こそPIFuより高くなっていますが、真横から見ると細かい部分でノイズが非常に多いことが見て取れます。



Magic-123はシェイプが過度になめらかになることでやや人間離れした形状になっており、さらにテクスチャも無理やり写真を貼り付けたような印象。



TeCHはシェイプが細かく描写されていますが、ポーズが前傾していたりがに股になっていたりしていて精度は低め。テクスチャにもノイズが多いように見えます。



HUMAN-SGDで生成したモデルはシェイプも比較的自然で、さらにノイズの少ないテクスチャが無理なく貼り付けられています。



写真に写っていない背面側も自然で、破綻が少ない印象。



ただし、研究チームによれば、陰影が強くついた写真だとテクスチャの生成に支障をきたすとのこと。また、既存の方法ではより精密にシェイプを生成することが難しいため、さらなる研究が求められるとのことです。