11일 전
인간-객체 상호작용 탐지에서 Transformer의 디코딩 경로 증강을 통한 일관성 학습
Jihwan Park, SeungJun Lee, Hwan Heo, Hyeong Kyu Choi, Hyunwoo J.Kim

초록
인간-객체 상호작용 감지는 객체 탐지와 상호작용 분류를 포함하는 종합적인 시각 인식 과제이다. 기존의 HOI(인간-객체 상호작용) 감지 연구는 다양한 하위 집합 예측 조합을 통해 접근해 왔으며, 예를 들어 Image → HO → I, Image → HI → O와 같은 방식이다. 최근에는 트랜스포머 기반 아키텍처가 HOI 감지에 등장하여 이미지를 직접적으로 HOI 삼중항을 종단 간(end-to-end)으로 예측하는 방식(Image → HOI)을 채택하고 있다. HOI 감지에 대한 다양한 추론 경로에 착안하여, 본 연구에서는 증강된 디코딩 경로를 활용하여 트랜스포머 기반 모델의 HOI 감지 성능을 향상시키는 새로운 종단 간 학습 전략인 교차 경로 일관성 학습(Cross-Path Consistency Learning, CPC)을 제안한다. CPC 학습은 순열된 추론 시퀀스로부터 가능한 모든 예측이 일관되도록 강제한다. 이 간단한 구조는 모델이 일관된 표현을 학습하도록 유도함으로써, 모델 용량을 증가시키지 않으면서도 일반화 성능을 향상시킨다. 실험 결과를 통해 제안한 방법의 효과성을 입증하였으며, 기준 모델 대비 V-COCO 및 HICO-DET 데이터셋에서 유의미한 성능 향상을 달성하였다. 본 연구의 코드는 다음 링크에서 확인할 수 있다: https://github.com/mlvlab/CPChoi.