GEN-VLKT: HOI 탐지를 위한 관계 간소화 및 상호작용 이해 강화

인간-객체 상호작용(HOI) 탐지의 과제는 인간-객체 연결과 상호작용 이해라는 두 가지 핵심 문제로 나눌 수 있다. 본 논문에서는 기존의 쿼리 기반 HOI 탐지기의 단점을 두 가지 측면에서 분석하고 개선한다. 먼저 연결 측면에서, 기존의 이중 브랜치 방법은 복잡하고 비용이 큰 후처리 매칭을 필요로 하며, 단일 브랜치 방법은 각 작업 간 특징 차이를 무시한다는 문제를 지닌다. 이를 해결하기 위해 우리는 후처리 매칭 없이 이중 브랜치 파이프라인을 구현할 수 있는 가이드 임베딩 네트워크(Guided-Embedding Network, GEN)를 제안한다. GEN에서는 두 개의 독립적인 쿼리 세트를 사용하여 인간과 객체를 각각 탐지하는 인스턴스 디코더(instance decoder)와, 동일 위치에 존재하는 인간과 객체를 쌍으로 표시하는 위치 기반 임베딩(position-guided embedding, p-GE)을 설계한다. 또한, 상호작용을 분류하기 위한 상호작용 디코더(interaction decoder)를 추가로 제안하며, 이 디코더의 상호작용 쿼리는 각 인스턴스 디코더 레이어의 출력에서 생성된 인스턴스 기반 임베딩(instance-guided embedding, i-GE)로 구성된다. 다음으로 상호작용 이해 측면에서, 기존 방법은 긴 꼬리 분포(long-tailed distribution) 문제와 제로샷 탐지(zero-shot discovery) 문제를 겪는다. 본 논문은 시각-언어 사전 훈련 모델 CLIP에서 지식을 전이함으로써 상호작용 이해 능력을 향상시키는 시각-언어 지식 전이(Visual-Linguistic Knowledge Transfer, VLKT) 훈련 전략을 제안한다. 구체적으로, CLIP을 사용하여 모든 레이블의 텍스트 임베딩을 추출하여 분류기의 초기화를 수행하고, GEN과 CLIP 간의 시각적 특징 거리가 최소화되도록 미미 손실(mimic loss)을 도입한다. 그 결과, GEN-VLKT는 여러 데이터셋에서 최신 기술을 크게 상회하며, 특히 HICO-Det에서 +5.05 mAP의 성능 향상을 기록했다. 소스 코드는 https://github.com/YueLiao/gen-vlkt 에서 공개되어 있다.