撮影中の映像からリアルタイムで人物を抜き出してパーツごとに認識可能な「BodyPix」

映像や画像からピクセル単位で人物や特定の物体を認識する「セグメンテーション」の分野では、Googleが「クロマキー合成なしで撮影中のムービーから背景をリアルタイムに除去」することに成功しています。さらに、Googleが公開した機械学習モデルTensorFlow.jsを活用した新たなセグメンテーション手法である「BodyPix」では、人と背景を区別するだけでなく人体を24個のパーツに分けて認識することが可能となりました。
https://blog.tensorflow.org/2019/11/updated-bodypix-2.html
ニューヨーク大学のInteractive Telecommunications Programの研究チームが開発した「BodyPix」を使用して、人物を認識した画像がこれです。頭や胴体、四肢だけでなく、左右の手足の区別など、人体を最大24個のパーツごとに色分けすることができるようになっています。

BodyPixがセグメンテーションを行うのは、大きく分けて2つの段階に分かれています。最初の段階である「人物と背景の区別」ではまず、BodyPixのアルゴリズムが映像をピクセル単位で分析し、各ピクセルが人物の一部である可能性を0から1までのスコアで評価します。その後、全体から人物とみなすべきスコアのしきい値を決めて、その値以下を0、それ以外を1として人物を抜き出します。

次の「体のパーツの区別」では、上記と同じプロセスで各ピクセルがどのパーツに属しているかを判断していきます。例えば、以下の画像では、一番左の元の画像を「顔の右半分」と「顔の左半分」ごとに評価しているところです。

こうして、映像を24個のパーツに区別しています。

2019年2月のリリース当初は1人の人物しか処理できませんでしたが、11月のアップデートにより複数の人物もリアルタイムで認識可能になりました。

BodyPixの大きな特徴の1つが、特殊な機材は不要で、ノートPCに付いているwebカメラやスマートフォンのカメラなどでリアルタイムに動作するという点です。「BodyPix」自体もGitHub上で公開されており、クラウドを経由したどこかのサーバーで処理をしているわけでもないため、PCやスマートフォン1つあれば動作します。
研究チームは過去にも、リアルタイムで人の姿勢を認識可能な「PoseNet」を開発しています。
Interactive Telecommunications ProgramのDan Oved氏は、「BodyPixとPoseNetにより、普通のPCやスマートフォンを使って、撮影室ではない野外でも簡単にモーションキャプチャができるようになります」と述べています。
