2달 전
그래프 파싱 신경망을 이용한 인간-물체 상호작용 학습
Siyuan Qi; Wenguan Wang; Baoxiong Jia; Jianbing Shen; Song-Chun Zhu

초록
본 논문은 이미지와 비디오에서 인간-물체 상호작용(Human-Object Interaction, HOI)을 감지하고 인식하는 과제를 다룹니다. 우리는 구조적 지식을 통합하면서 끝까지 미분 가능한 그래프 파싱 신경망(Graph Parsing Neural Network, GPNN) 프레임워크를 소개합니다. 주어진 장면에 대해 GPNN은 i) 인접 행렬로 표현되는 HOI 그래프 구조와 ii) 노드 라벨을 포함하는 파싱 그래프를 추론합니다. 메시지 전달 추론 프레임워크 내에서 GPNN은 반복적으로 인접 행렬과 노드 라벨을 계산합니다. 우리는 HICO-DET, V-COCO, 그리고 CAD-120 데이터셋 등 세 개의 HOI 감지 벤치마크에서 모델을 광범위하게 평가하였습니다. 우리의 접근 방식은 기존 최신 방법들을 크게 능가하며, 이는 GPNN이 대규모 데이터셋에 확장 가능하며 시공간 설정에도 적용될 수 있음을 확인해주고 있습니다. 코드는 https://github.com/SiyuanQi/gpnn 에서 제공됩니다.