3달 전

예상치 못한 더 이상 없음: 생성적 제로샷 HOI 탐지에 대한 CLIP의 잠재력 열기

Yixin Guo, Yu Liu, Jianghao Li, Weimin Wang, Qi Jia
예상치 못한 더 이상 없음: 생성적 제로샷 HOI 탐지에 대한 CLIP의 잠재력 열기
초록

제로샷 인간-객체 상호작용(HOI) 탐지기는 훈련 과정에서 접한 적 없는 HOI 카테고리에도 일반화할 수 있는 능력을 갖추고 있다. CLIP가 제공하는 놀라운 제로샷 능력에 영감을 받아, 최신 연구들은 CLIP 임베딩을 활용하여 제로샷 HOI 탐지 성능을 향상시키려는 노력을 기울이고 있다. 그러나 이러한 임베딩 기반의 방법들은 훈련 시 본 적 있는 클래스들만을 기반으로 분류기를 학습하기 때문에, 추론 과정에서 본 적 없는 클래스와의 혼동이 불가피하게 발생한다. 게다가, 프롬프트 튜닝(prompt-tuning)과 어댑터(adapter)를 사용할 경우, 본 적 있는 클래스와 본 적 없는 클래스 간의 정확도 간 격차가 더욱 커지는 것을 발견하였다. 이러한 문제를 해결하기 위해, 우리는 CLIP을 활용한 제로샷 HOI 탐지에서 처음으로 생성 기반 모델을 제안한다. 이를 HOIGen이라 명명한다. HOIGen은 CLIP의 임베딩을 단순히 특징 추출에만 사용하는 것을 넘어서, 특징 생성의 잠재력을 극대화할 수 있도록 한다. 이를 달성하기 위해, 인간, 객체, 그리고 합성 특징의 생성에 부합하는 CLIP 주입형 특징 생성기(clip-injected feature generator)를 개발하였다. 이후, 실제 본 적 있는 샘플의 특징을 추출하고, 이를 합성 특징과 혼합함으로써, 본 적 있는 클래스와 본 적 없는 클래스를 함께 학습할 수 있도록 하였다. 또한, HOI 점수를 풍부하게 하기 위해, 쌍별 HOI 인식 브랜치에서는 생성형 프로토타입 은행(generative prototype bank)을, 이미지 수준의 HOI 인식 브랜치에서는 다지식 프로토타입 은행(multi-knowledge prototype bank)을 각각 구축하였다. HICO-DET 벤치마크에서 실시한 광범위한 실험 결과, 다양한 제로샷 설정 하에서 기존의 최고 성능을 기록한 방법들과 비교하여, HOIGen이 본 적 있는 클래스와 본 적 없는 클래스 모두에서 우수한 성능을 달성함을 입증하였다. 코드는 다음 링크에서 제공된다: https://github.com/soberguo/HOIGen