16日前
AggPose:乳児ポーズ推定のためのディープアグリゲーションビジョン変換器
Xu Cao, Xiaoye Li, Liya Ma, Yi Huang, Xuan Feng, Zening Chen, Hongwu Zeng, Jianguo Cao

要約
新生児の運動および姿勢評価は、経験豊富な小児科医が神経発達障害を予測する上で有効であり、関連疾患に対する早期介入を可能にする。しかし、現在の最先端のAI人体姿勢推定手法の多くは成人を対象としており、新生児向けの姿勢推定に関する公開ベンチマークが不足している。本論文では、このギャップを埋めるために新生児姿勢推定データセットと、人体姿勢推定用のDeep Aggregation Vision Transformer(AggPose)を提案する。本手法は、初期段階で畳み込み演算を用いない高速学習可能な完全Transformerフレームワークを導入し、特徴抽出を実現している。さらに、Transformer + MLPの枠組みを高解像度の深層特徴マップ内での階層的凝集に拡張することで、異なる視覚レベル間の情報統合を可能にしている。AggPoseはCOCO姿勢データセットで事前学習を行い、新たに公開した大規模な新生児姿勢推定データセットに適用した結果、異なる解像度間の多スケール特徴を効果的に学習でき、新生児姿勢推定性能が顕著に向上することが示された。また、新生児姿勢推定データセットにおいて、ハイブリッドモデルであるHRFormerおよびTokenPoseを上回ることを確認した。さらに、COCO検証データセットにおける姿勢推定性能においても、AggPoseはHRFormer平均で0.8 APの優位性を示した。本研究のコードは、github.com/SZAR-LAB/AggPoseにて公開されている。