HOICLIP: 비전-언어 모델을 통한 HOI 탐지에서의 효율적인 지식 전이

인간-객체 상호작용(HOI) 탐지는 인간-객체 쌍을 국지화하고 그들의 상호작용을 인식하는 것을 목표로 한다. 최근, 대조적 언어-이미지 사전학습(CLIP)은 지식 전달 기법을 통해 HOI 탐지기에게 상호작용 사전 지식을 제공하는 데 큰 잠재력을 보여주고 있다. 그러나 이러한 접근 방식은 대규모 학습 데이터에 의존하는 경우가 많으며, 소수/제로샷 시나리오에서는 성능이 낮은 경향이 있다. 본 논문에서는 CLIP로부터 효율적으로 사전 지식을 추출하고 더 우수한 일반화 성능을 달성하는 새로운 HOI 탐지 프레임워크를 제안한다. 구체적으로, 우리는 크로스 어텐션 메커니즘을 활용하여 CLIP의 시각적 특징 맵에서 정보가 풍부한 영역을 추출하는 새로운 상호작용 디코더를 도입한다. 이 영역은 지식 통합 블록을 통해 탐지 백본과 융합되어 더 정확한 인간-객체 쌍 탐지가 가능하게 된다. 또한, CLIP의 텍스트 인코더 내에 포함된 사전 지식을 활용하여 HOI 설명을 임베딩함으로써 분류기 생성을 수행한다. 세부적인 상호작용을 구분하기 위해, 시각적 의미 산술을 통해 학습 데이터로부터 동사 분류기를 구축하고, 가벼운 동사 표현 어댑터를 도입한다. 더불어, CLIP의 전역적 HOI 예측을 활용하기 위한 학습 없이 적용 가능한 개선 기법을 제안한다. 광범위한 실험을 통해 제안하는 방법이 다양한 설정에서 최신 기술을 크게 앞서는 성능을 보임을 입증하였으며, 예를 들어 HICO-Det에서 +4.04 mAP의 성능 향상을 달성하였다. 소스 코드는 다음 링크에서 공개되어 있다: https://github.com/Artanic30/HOICLIP.