3달 전
텍스트-이미지 디퓨전 모델을 활용한 인간-객체 상호작용 탐지 성능 향상
Jie Yang, Bingliang Li, Fengyu Yang, Ailing Zeng, Lei Zhang, Ruimao Zhang

초록
본 논문은 기존 HOI(사람-개체-행위) 탐지 방법의 문제점을 분석하고, 사전 훈련된 텍스트-이미지 확산 모델을 기반으로 한 새로운 HOI 탐지 기법인 DiffHOI를 제안한다. 이 방법은 향상된 데이터 다양성과 HOI 표현력을 통해 탐지기의 성능을 향상시킨다. 우리는 동결된 텍스트-이미지 확산 모델의 내부 표현 공간이 동사 개념 및 관련 맥락과 매우 높은 상관관계를 가짐을 입증한다. 이를 바탕으로, 동결된 확산 모델과 CLIP 모델로부터 다양한 의미적 표현을 추출하기 위한 어댑터 형식의 튜닝 방법을 제안하며, 사전 훈련된 탐지기의 사람과 개체 표현을 강화함으로써 상호작용 예측의 모호성을 줄인다. 또한, 기존 HOI 데이터셋의 부족을 보완하기 위해, 14만 개 이상의 HOI 이미지와 완전한 삼중 항목(annotation)을 포함한 클래스 균형, 대규모, 고다양성의 합성 데이터셋인 SynHOI를 제안한다. SynHOI는 다양한 고정밀도 HOI 레이블 데이터를 자동적이고 확장 가능한 파이프라인을 통해 생성하는 설계를 통해 구축되었으며, 기존 데이터셋의 긴 꼬리(long-tail) 문제를 효과적으로 완화하고 상호작용 표현 학습을 촉진할 수 있다. 광범위한 실험을 통해 DiffHOI가 일반 탐지(41.50 mAP) 및 제로샷 탐지에서 최신 기술을 크게 능가함을 입증하였다. 더불어 SynHOI는 모델 독립적이고 백본 독립적인 HOI 탐지에 성능 향상을 가져오며, 특히 희귀 클래스에서 11.55%의 놀라운 mAP 향상을 보였다.