単一の低解像度画像から自己教師学習を用いた3D人体形状とポーズの推定

単眼画像からの3次元人体形状およびポーズ推定は、コンピュータビジョン分野において活発な研究テーマであり、行動認識から仮想アバターの作成に至るまで、新しい応用分野の発展に大きな影響を与えている。既存の深層学習手法では、3次元人体形状およびポーズ推定に比較的高解像度の入力画像を必要としているが、監視映像やスポーツ中継など多くの実用的状況では高解像度の視覚コンテンツが常に確保できるわけではない。現実世界における低解像度画像は解像度の範囲が広く、ある解像度で訓練されたモデルは他の解像度では通常、滑らかに性能が低下するわけではない。低解像度入力に対する代表的な対策として、入力画像に超解像技術を適用する方法と、各解像度ごとに個別にモデルを学習する方法があるが、前者は視覚的なアーティファクトを引き起こす可能性があり、後者は多くの実用的応用において非現実的である。本論文では、これらの課題に対処するため、解像度に敏感なネットワーク(Resolution-aware network)、自己教師学習損失(Self-supervision loss)、および対照学習スキーム(Contrastive learning scheme)から構成される新規アルゴリズムRSC-Netを提案する。提案手法は、単一のモデルにより異なる解像度間で3次元人体形状およびポーズを学習可能である。自己教師学習損失は出力のスケール一貫性を促進し、対照学習スキームは深層特徴のスケール一貫性を強制する。実験により、これらの新規トレーニング損失が弱教師あり学習において3次元形状およびポーズの推定に高いロバスト性をもたらすことが示された。広範な実験結果から、RSC-Netは挑戦的な低解像度画像に対して、従来の最先端手法と比較して一貫して優れた性能を達成することが明らかになった。