Vol.02 ボリュメトリックビデオのキーワード解説[VOLUMETRIC NEW ERA]

2023年2月3日 17時0分

ボリュメトリックビデオ技術は機材面に関して最新CG業界と重複する部分もあり、映像業界からすると不慣れなキーワードも多い。そこでボリュメトリックビデオ業界で使われる主な関連キーワードを解説しよう。

自由視点映像

2001年のスーパーボウル中継にはカーネギーメロン大学金出武雄教授が開発したEyeVisionがCBSの全米テレビ中継で採用された

ボリュメトリックキャプチャによって生成された3Dデータは、撮影後の後処理にて被写体の上下左右前後の自由な視点からの2D映像としてレンダリングできることから、自由視点映像と呼ばれることもある。古くは当時米国カーネギーメロン大学の金出武雄教授らがEyeVisionと呼ばれる技術を開発し、2001年1月に開催されたアメリカンフットボールの大会「第35回スーパーボウル」で使われて話題になった。

3Dスキャン

次世代LiDARデバイスが特徴の3Dスキャナー「Matterport Pro3」

ボリュメトリックビデオは時間方向に動くビデオ＝動画であるが、3Dスキャンは建物の屋内外やモノなどの静止物の形状＋テクスチャをキャプチャする技術であり、生成されたデータが動くことは想定されていない。3Dスキャンを行うためには、被写体の表面のテクスチャを撮影するためのRGBカメラと、被写体の3D形状を計測するためのスキャナー（レーザー、ライダー、赤外線等）を併用する。

フォトグラメトリ

Armchair by RealityScan on Sketchfab

スマートフォン対応の3Dスキャンアプリ「RealityScan」の例

フォトグラメトリは写真測量法とも呼ばれており、多量の写真＝静止画像より3Dモデルを生成する手法である。撮影は一般的なデジタルカメラで行って、その写真データをフォトグラメトリ専用のソフトウェアで処理をすることで3Dデータが得られる。使用ハードウェアが市販のカメラやパソコンであることから、気軽に3Dモデルを作れる手法でもある。被写体が静止していることが前提になっている。

モーションキャプチャ

ボリュメトリックキャプチャが被写体の動きとテクスチャ（実写）を同時に撮るのに対して、被写体でも特に人間の動きだけを取る方法のことをモーションキャプチャと呼ぶ。VR用のヘッドマウントディスプレイ（HMD）では、HMDと手に持つコントローラの動きや傾きが取れることで、画面内に映る自分＝アバターの頭や手が、HMDとコントローラの物理的な動きに応じて動くのはモーションキャプチャの一例である。

ライトフィールドカメラ

ライトフィールド（Light Field）カメラとは、直訳すると光線場を記録できるカメラということになる。通常のカメラのセンサーでは、そのセンサーに入ってくる光の強さや色を記録するのだが、その際に光が入ってくる角度までは記録できない。その角度も含めて記録することで、撮影した写真のフォーカスを後処理で変更したり、照明変更・質感変更なども可能になるのがライトフィールドの活用方法である。

デプスカメラ

視覚モデルや音声モデル作成の開発者キット、AIセンサーを組み合わせた「Azure Kinect DK」

カメラから被写体までの距離を計測できる装置のことをデプスカメラと呼ぶ。以下の表は2020年の時点で発売されていたデプスカメラの例であるが、その深度の計測方法にもいろいろな手法があるのがわかると思う。上述した3Dスキャンにおいても、専用の3Dスキャナーだけではなく、これらデプスカメラが用いられることもある。

■3Dスキャンに用いられるデプスカメラ（深度センサー）例

	Microsoft Azure Kinect DK	Intel RealSense D457	Intel RealSense L515
方式	Active IR Stereo（ToF）		LiDAR
特徴	Image Sensorテクノロジー GLOBAL Shutter Depth FOV：120°×120° Resolution：1024×1024 Depth Flamerate：30fps Maxim Depth Distance：0.25m 使用環境屋内	Image Sensorテクノロジー GLOBAL Shutter Depth FOV：87°×58° Resolution：1280×720 Depth Flamerate：最大90fps Maxim Depth Distance：0.52m 使用環境屋内/屋外	MEMS MIROR Laser Scanning Depth FOV:70°×55° Resolution:1024×768 Depth Flamerate：30fps Maxim Depth Distance：0.25m 使用環境屋内

視体積交差法（Visual Hull）

様々な方向から見たシルエット像を手がかりに，空間を削り出すようにして被写体の存在領域を絞り込む

ボリュメトリックキャプチャに用いられる基本的なデータ処理アルゴリズムの一つが視体積交差法である。視体積交差法では、同期したカメラで複数枚の2次元シルエットを撮影し、カメラ位置を頂点としてシルエットが断面となる視体積を作り、シルエットを3次元空間に逆投影し、その交差部分として3次元形状を復元する手法である。Shape from Silhouetteとも呼ばれる。

点群（ポイントクラウド）

3D点群イメージ（KDDI総合研究所の「点群圧縮技術の最新の国際標準方式に対応したリアルタイムエンコーダーを開発」より）

ボリュメトリックビデオのデータフォーマットの一つが点群（Point Cloud）である。点群とは、カメラやセンサーで取得したデータの最小単位を点とし、(x、y、z)といった3次元座標と(r、g、b)といった色情報を一つの点が持つ情報として、それが集合となって群になっている。この3次元の点群データが、動画のように時間方向に続く。

メッシュ

ボリュメトリックビデオのデータフォーマットのもう一つが点と点を結んで面にしたメッシュである。点群データはズームアップしていくと点と点の間に空間が存在するが、メッシュデータでは各点が頂点となり、辺や面によって繋がっている。点群データからメッシュデータに変換する手法もいくつかあり、その過程でノイズ除去、スムージング、補間、超解像的創造等を行うこともあり、データの高画質化・高精度化が実現される。

リライティング（Relighting）

ボリュメトリックビデオのテクスチャは撮影時の照明条件を反映したものであることが多く、その3Dデータを撮影時とは全く異なる照明環境で使用する場合は、テクスチャの明るさ、色、陰影などが再現されない。その問題を解決するのがリライティング技術である。リライティングが可能な3Dデータでは、テクスチャデータに反射係数がつけられ、より再現力が高いボリュメトリックビデオデータになる。

青木崇行｜プロフィール
カディンチェ株式会社代表取締役。2009年慶應義塾大学より博士（政策・メディア）取得。ソニー株式会社を経て、カディンチェ株式会社を設立。カディンチェではXRに関するソフトウェア開発に従事。2018年には松竹株式会社との合弁会社であるミエクル株式会社を設立、2022年1月に代官山メタバーススタジオを開設し、バーチャルプロダクション手法を用いたコンテンツ制作に取り組む。