16일 전
새로운 유니어리-페어와이즈 트랜스포머를 이용한 효율적인 두 단계 인간-객체 상호작용 탐지
Frederic Z. Zhang, Dylan Campbell, Stephen Gould

초록
시각 데이터를 위한 트랜스포머 모델의 최근 발전은 인식 및 탐지 작업에서 큰 성과를 거두었다. 특히 영역 제안(region proposals) 대신 학습 가능한 쿼리(learnable queries)를 사용한 방식은 단계적 탐지 모델의 새로운 클래스를 탄생시켰으며, 이는 Detection Transformer(DETR)를 중심으로 발전하였다. 이러한 단계적 접근 방식의 변형들은 이후 인간-객체 상호작용(HOI) 탐지 분야에서 주도적인 위치를 차지하게 되었다. 그러나 이러한 단계적 HOI 탐지기의 성공은 트랜스포머의 표현 능력에 크게 기인한다. 우리는 동일한 트랜스포머를 갖춘 이중 단계 대안 모델이 더 높은 성능과 메모리 효율성을 달성할 수 있으며, 훈련 시간은 단지 일부에 불과함을 발견하였다. 본 연구에서는 인간-객체 상호작용을 위한 이중 단계 탐지기인 유니어리-페어와이즈 트랜스포머(Unary-Pairwise Transformer)를 제안한다. 제안하는 모델은 유니어리(unary)와 페어와이즈(pairwise) 표현을 활용하며, 네트워크 내에서 두 부분이 서로 특화된 역할을 수행함을 관찰하였다. 즉, 유니어리 부분은 긍정 예제의 점수를 우선적으로 높이고, 페어와이즈 부분은 부정 예제의 점수를 낮춘다. 제안한 방법은 HICO-DET 및 V-COCO 데이터셋에서 평가되었으며, 기존 최고 성능 기법들을 크게 능가하였다. 추론 시점에서는 ResNet50 기반의 본 모델이 단일 GPU에서 실시간 성능에 근접함을 확인하였다.