2달 전
인체-물체 상호작용을 위한 상세한 2D-3D 병합 표현
Li, Yong-Lu ; Liu, Xinpeng ; Lu, Han ; Wang, Shiyi ; Liu, Junqi ; Li, Jiefeng ; Lu, Cewu

초록
Human-Object Interaction (HOI) 검출은 행동 이해의 핵심을 이루고 있습니다. 인간과 물체의 외관 및 위치와 같은 2D 정보뿐만 아니라, HOI 학습에서는 시점 독립성을 갖는 3D 자세도 일반적으로 활용됩니다. 그러나, 대략적인 3D 신체 관절은 희소한 신체 정보만을 제공하므로 복잡한 상호작용을 이해하기에 충분하지 않습니다. 따라서 더 깊이 있는 이해를 위해 상세한 3D 신체 형태가 필요합니다. 또한, 3D에서의 상호작용 물체도 HOI 학습에서 충분히 연구되지 않았습니다. 이러한 점들을 고려하여, 우리는 상세한 2D-3D 결합 표현 학습 방법을 제안합니다.먼저, 단일 뷰 인간 체형 캡처 방법을 사용하여 상세한 3D 신체, 얼굴 및 손 형태를 얻습니다. 다음으로, 2D 인간-물체 공간 구성과 물체 카테고리 사전 정보를 참조하여 3D 물체의 위치와 크기를 추정합니다. 마지막으로, 결합 학습 프레임워크와 다중 모달 일관성 작업을 제안하여 결합된 HOI 표현을 학습합니다.모델들의 2D 애매함 처리 능력을 더 잘 평가하기 위해, 우리는 어려운 애매한 이미지를 포함하는 새로운 벤치마크인 Ambiguous-HOI를 제안합니다. 대규모 HOI 벤치마크와 Ambiguous-HOI에서 수행된 광범위한 실험들은 우리의 방법이 뛰어난 효과를 보임을 입증하고 있습니다. 코드와 데이터는 https://github.com/DirtyHarryLYL/DJ-RN에서 확인할 수 있습니다.