11日前

意味のあるグラフアテンションネットワークと距離情報に基づく3D全身ポーズ推定

Sihan Wen, Xiantan Zhu, Zhiming Tan
意味のあるグラフアテンションネットワークと距離情報に基づく3D全身ポーズ推定
要約

近年、3次元姿勢推定に関する多様な手法が多数提案されている。その中でも、自己注意(self-attention)機構とグラフ畳み込み(graph convolution)は、いずれも有効かつ実用的な手法として実証されている。これらの技術の長所を踏まえ、本研究では、自己注意機構によるグローバルな文脈の捉え方と、グラフ畳み込みによる骨格の局所的接続性および構造的制約の処理を両立できる新たな「意味的グラフ注意ネットワーク(Semantic Graph Attention Network)」を提案する。さらに、体の特定部位に関する情報を効果的に抽出・精緻化するための「体部デコーダ(Body Part Decoder)」を設計した。また、空間的な関係性を正確に理解・予測する能力を高めるために、距離情報をモデルに組み込み、その効果を発揮させた。さらに、人体の姿勢に自然に従うべき構造的制約を厳密に課すため、幾何学的損失(Geometry Loss)を導入した。実験結果により、本手法の有効性が検証され、システム内のすべての要素が姿勢推定の精度向上に不可欠であることが示された。最先端手法と比較した結果、本研究で提案する手法は、既存のベンチマークを満たすだけでなく、それを上回る性能を達成した。