9日前
SRNet:Split-and-Recombineアプローチを用いた3D人体ポーズ推定における一般化性能の向上
Ailing Zeng, Xiao Sun, Fuyang Huang, Minhao Liu, Qiang Xu, Stephen Lin

要約
トレーニングデータに存在しない、あるいは稀な姿勢(ポーズ)は、ネットワークが予測する上で困難を伴う。視覚認識における「長尾分布(long-tailed distribution)」問題と同様に、こうしたポーズの例が少ないため、ネットワークがその構造を適切にモデル化する能力が制限される。興味深いことに、局所的なポーズ分布は長尾問題の影響を受けにくい。つまり、稀なポーズ内の局所的な関節配置(joint configuration)は、トレーニングデータ内の他のポーズにおいてもしばしば出現するため、それ自体はあまり稀ではない。本研究では、この性質を活用して、稀なおよび未観測のポーズに対する汎化性能を向上させることを提案する。具体的には、体を局所的な領域に分割し、それぞれを独立したネットワークブランチで処理する。このアプローチは、関節の位置が主にその局所的な体領域内の関節に依存するという性質を利用している。各ブランチに対して、残りの体領域から得られるグローバルなコンテキストを低次元ベクトルとして再結合することで、グローバルな整合性を維持する。これにより、関連性の低い体領域の次元が低減され、ネットワークブランチ内のトレーニングデータ分布が、グローバルな体ポーズの統計ではなく、局所的なポーズの統計に近づく。同時に、関節推定に必要な情報は損なわれない。本研究で提案する「分割・再結合(split-and-recombine)」アプローチ、すなわちSRNetは、単一画像モデルおよび時系列モデルの両方に容易に適用可能であり、稀なおよび未観測のポーズの予測性能において顕著な向上をもたらす。