11일 전

ConsNet: 제로샷 인간-객체 상호작용 탐지를 위한 일관성 그래프 학습

Ye Liu, Junsong Yuan, Chang Wen Chen
ConsNet: 제로샷 인간-객체 상호작용 탐지를 위한 일관성 그래프 학습
초록

인간-객체 상호작용(HOI) 탐지는 이미지 내에서 <인간, 행동, 객체> 형태로 구성된 HOI 인스턴스를 탐지하고 인식하는 것을 목표로 한다. 기존의 대부분의 연구들은 HOI를 개별적인 상호작용 카테고리로 취급하기 때문에, 행동 레이블의 장꼬리 분포(long-tail distribution) 및 다의성(polysemy) 문제를 효과적으로 다루지 못한다. 우리는 희귀하거나 사전에 보지 못한 HOI의 의미적 표현을 생성하는 데 있어 객체, 행동, 상호작용 간의 다수준 일관성(multi-level consistencies)이 강력한 신호가 될 수 있다고 주장한다. HOI 레이블의 구성적 및 관계적 특성을 활용하여, 객체, 행동, 상호작용 간의 관계를 무방향 그래프로 표현한 일관성 그래프(consistency graph)에 명시적으로 인코딩하는 지식 인식형 프레임워크인 ConsNet을 제안한다. 이 프레임워크는 그래프 주의망(GATs)을 사용하여 HOI 카테고리와 그 구성 요소들 간에 지식을 전파한다. 제안한 모델은 후보 인간-객체 쌍의 시각적 특징과 HOI 레이블의 워드 임베딩을 입력으로 받아, 이를 시각-의미적 결합 임베딩 공간으로 매핑하고, 유사도를 측정함으로써 탐지 결과를 도출한다. 제안한 모델은 도전적인 V-COCO 및 HICO-DET 데이터셋에서 광범위하게 평가되었으며, 완전 감독(fully-supervised) 및 제로샷(zero-shot) 설정 모두에서 최신 기술을 능가하는 성능을 입증하였다. 코드는 https://github.com/yeliudev/ConsNet 에서 공개되어 있다.

ConsNet: 제로샷 인간-객체 상호작용 탐지를 위한 일관성 그래프 학습 | 최신 연구 논문 | HyperAI초신경