カメラ空間におけるセマンティックアグリゲーションと適応型2D-1Dレジストレーションを用いたハンドメッシュ回復

近年、3Dハンドメッシュの復元技術において顕著な進展が見られている。しかし、2Dから3Dへの変換に inherent な不確かさ(2D→3Dの曖昧性)が存在するため、単一のRGB画像からカメラ空間における3D情報を復元することは依然として困難である。本研究では、この課題に対処するため、カメラ空間におけるメッシュ復元を、2つのサブタスクに分解するアプローチを提案する。すなわち、ルート相対メッシュ復元(root-relative mesh recovery)とルート位置復元(root recovery)である。まず、入力となる単一のRGB画像から関節のランドマークおよび輪郭(silhouette)を抽出し、3D復元タスクに向けた2Dの手がかりを提供する。ルート相対メッシュ復元タスクでは、関節間の意味的関係を活用して、抽出された2D手がかりから3Dメッシュを生成する。生成された3Dメッシュの座標は、ルート位置(本研究では手首)を基準として相対的に表現される。次に、ルート位置復元タスクでは、生成された3Dメッシュを2D手がかりに再投影(align)することで、ルート位置をカメラ空間に正確に登録する。これにより、カメラ空間における3Dメッシュの完全な復元が実現される。本パイプラインの特徴は以下の2点にあり、(1) 関節間の既知の意味的関係を明示的に利用していること、(2) 輪郭およびメッシュの1次元投影(1D projection)を活用して、堅牢な再投影登録を実現している点である。FreiHAND、RHD、Human3.6Mなど、代表的なデータセットを用いた広範な実験により、本手法がルート相対メッシュ復元およびルート位置復元の両面で、現行の最先端技術(state-of-the-art)を上回る性能を達成することが示された。本研究のコードは、GitHubにて公開されている:https://github.com/SeanChenxy/HandMesh。