이중 단계 및 단일 단계 HOI 탐지의 이점 탐색

다단계 기반의 방법이 수년간 인간-객체 상호작용(HOI) 탐지 분야를 지배해왔다. 최근에는 단단계 HOI 탐지 방법이 점차 인기를 끌고 있다. 본 논문에서는 이러한 두 가지 접근법의 본질적인 장단점을 탐구하고자 한다. 이를 위해 기존의 다단계 방법이 주로 양성 상호작용 인스턴스(인간-객체 쌍)의 정확한 위치 추정에 어려움을 겪는 반면, 단단계 방법은 객체 탐지와 상호작용 분류라는 다중 작업 학습 간에 적절한 트레이드오프를 이루는 데 어려움을 겪는다는 점을 발견하였다. 따라서 핵심적인 문제는 기존 두 가지 방법의 장점을 취하고 단점을 배제하는 것이다. 이를 해결하기 위해, 우리는 단계적으로 인간-객체 탐지와 상호작용 분류를 분리하는 새로운 단단계 프레임워크를 제안한다. 구체적으로, 최신 단단계 HOI 탐지기 기반으로 상호작용 분류 모듈 또는 헤드를 제거한 인간-객체 쌍 생성기(Generator)를 설계한 후, 각 인간-객체 쌍에 대해 독립적으로 작동하는 상호작용 분류기(Classifier)를 개발한다. 제안하는 프레임워크 내의 두 개의 단계적 디코더는 각각 탐지 또는 상호작용 분류라는 특정 작업에 집중할 수 있도록 설계되었다. 구현 면에서, 기반 모델로 트랜스포머 기반의 HOI 탐지기를 채택하였다. 새로 도입된 분리적(Disentangling) 설계 방식은 기존 방법 대비 크게 우수한 성능을 보이며, HICO-Det 데이터셋에서 상대적 mAP 점수에서 9.32%의 뚜렷한 향상을 달성하였다. 소스 코드는 https://github.com/YueLiao/CDN 에서 공개되어 있다.