16일 전

포즈 기반 모듈러 네트워크를 이용한 인간-객체 상호작용 탐지

Zhijun Liang, Junfa Liu, Yisheng Guan, Juan Rojas
포즈 기반 모듈러 네트워크를 이용한 인간-객체 상호작용 탐지
초록

인간-객체 상호작용(HOI) 탐지는 장면 이해에서 핵심적인 과제이다. 이 작업의 목표는 장면 내에서 삼중항 <주체, 서술어, 객체>를 추론하는 것이다. 본 연구에서는 인간의 자세 자체뿐 아니라, 목표 객체에 대한 인간 자세의 상대적 공간 정보가 HOI 탐지에 유용한 단서를 제공할 수 있음을 관찰하였다. 이를 바탕으로 기존 네트워크와 완전히 호환되는 기반 자세 모듈러 네트워크(Pose-based Modular Network, PMN)를 제안한다. 본 모듈은 각 관절에 대한 상대적 공간 자세 특징을 독립적으로 처리하는 브랜치와, 완전 연결 그래프 구조를 통해 절대 자세 특징을 업데이트하는 다른 브랜치로 구성된다. 처리된 자세 특징은 이후 행동 분류기로 전달된다. 제안한 방법의 성능을 평가하기 위해 최신 기술인 VS-GATs 모델과 본 모듈을 결합하였으며, 공개 벤치마크인 V-COCO와 HICO-DET에서 유의미한 성능 향상을 달성하였다. 이는 제안된 방법의 효과성과 유연성을 입증한다. 코드는 \url{https://github.com/birlrobotics/PMN}에서 공개되어 있다.

포즈 기반 모듈러 네트워크를 이용한 인간-객체 상호작용 탐지 | 최신 연구 논문 | HyperAI초신경