2달 전

시각적 구성 학습을 이용한 인간-물체 상호작용 검출

Hou, Zhi ; Peng, Xiaojiang ; Qiao, Yu ; Tao, Dacheng
시각적 구성 학습을 이용한 인간-물체 상호작용 검출
초록

인물-객체 상호작용(HOI) 검출은 이미지 내에서 인물과 객체 간의 관계를 위치 추정 및 추론하는 것을 목표로 합니다. 이는 객체와 동사 유형의 엄청난 수의 가능한 조합이 장미 분포(long-tail distribution)를 형성하기 때문에 어려운 문제입니다. 우리는 이 문제를 효과적으로 해결할 수 있는 단순하면서도 효율적인 시각적 구성 학습(Visual Compositional Learning, VCL) 프레임워크를 제안합니다. VCL은 먼저 HOI 표현을 객체와 동사 특징으로 분해한 후, 분해된 특징들을 연결(stitching)하여 특징 공간에서 새로운 상호작용 샘플을 생성합니다. 분해와 구성의 통합은 VCL이 다양한 HOI 샘플과 이미지 간에 객체와 동사 특징을 공유하고, 새로운 상호작용 샘플과 새로운 종류의 HOI를 생성할 수 있게 하며, 이로 인해 장미 분포 문제를 크게 완화시키고 저샷(low-shot) 또는 제로샷(zero-shot) HOI 검출에 도움을 줍니다. 광범위한 실험 결과는 제안된 VCL이 HICO-DET 및 V-COCO 데이터셋에서 HOI 검출의 일반화 성능을 효과적으로 향상시킨다는 것을 보여주며, 최근 최신 방법들보다 HICO-DET에서 우수한 성능을 나타냅니다. 코드는 https://github.com/zhihou7/VCL에서 확인할 수 있습니다.

시각적 구성 학습을 이용한 인간-물체 상호작용 검출 | 최신 연구 논문 | HyperAI초신경