東工大、0.5秒後のパンチを予測する格闘訓練システム「FuturePose」発表
東京工業大学の研究チームは、0.5秒後の相手の動きをディープラーニングにより予測する格闘技トレーニングシステム「FuturePose」を発表しました。

本研究は、1台のRGBカメラが捉えた画像から30fps(1フレーム=1/30秒)のうち15フレーム先、つまり0.5秒後のポーズを予測して格闘訓練を行うシステムを開発したもの。対戦相手となるトレーナーは生身で、訓練者本人はVRヘッドセットを装着して相手の現在および予測ポーズの両方を確認できます。

まずRGB画像はResidual Network(出力から入力を引いた残差を学習する機械学習)により解析され、相手の2D間接位置を推定。その位置をLSTM(長期の時系列データを学習できるモデル)に入力して時間的特徴を学習し、未来の2D間接位置を予測。

そこに格子オプティカルフロー(視覚表現において物体の動きをベクトルで表すもの。物体を格子により簡略化することで計算量を抑える)を使用し、人間にとって分かりやすい「移動」の表現を加えるわけです。

こうして予測されたポーズは赤いスケルトンモデルで示され、リアルタイムで人間の動きの予測が視覚化。0.5秒というと短いようにも思えますが、たとえば初期のポリゴン対戦格闘ゲームも同様の30fpsで1フレームの差し合いが勝敗の分かれ目になったこともあり、15フレームといえば絶大なアドバンテージと言えます。

さて実験では、HTC Viveを装着したユーザーが予測なし映像と予測あり映像の2つでテスト。その結果、予測なしの平均反応時間は0.62秒に対して予測ありは0.41秒前後となって、予測ありのほうが攻撃を回避しやすいことが示されています。

なお実際の映像では、たしかに反応速度は上がっているものの、ゲームならぬ生身では視覚情報を脳が処理して身体が反応するまでにタイムラグがあるためか、トレーナーの攻撃を紙一重で避けきれていない感もあります。よく異能力バトル漫画で「○秒先の未来が見える」敵を見かけますが、やはり0.5秒では不足で10数秒は必要と思われます。

また、本研究はオンラインビデオにも適用され、サッカーのゴールキーパーの動きやダンスの動きも予測できると実証しています。キーパーが右に動くか左に動くかを0.5秒前に予測できることが観客にとって実用的かはさておき、相手の動きを先読みしておけばスムーズになる社交ダンスなど、様々な応用が期待できるかもしれません。