11일 전

HOTR: Transformer를 활용한 엔드투엔드 인간-객체 상호작용 탐지

Bumsoo Kim, Junhyun Lee, Jaewoo Kang, Eun-Sol Kim, Hyunwoo J. Kim
HOTR: Transformer를 활용한 엔드투엔드 인간-객체 상호작용 탐지
초록

인간-객체 상호작용(HOI) 탐지는 이미지 내 '상호작용 집합'을 식별하는 작업으로, 이는 상호작용의 주체(즉, 인간)와 대상(즉, 객체)의 위치를 파악하고, 상호작용 레이블을 분류하는 두 가지 과정을 포함한다. 기존 대부분의 방법들은 인간과 객체 인스턴스를 별도로 탐지한 후, 탐지된 인스턴스 쌍을 개별적으로 추론하는 간접적인 접근 방식을 사용해왔다. 본 논문에서는 트랜스포머 인코더-디코더 아키텍처를 기반으로, 이미지로부터 <인간, 객체, 상호작용> 3종 세트를 직접 예측하는 새로운 프레임워크인 HOTR를 제안한다. 집합 예측을 통해 제안된 방법은 이미지 내 본질적인 의미적 관계를 효과적으로 활용할 수 있으며, 기존 방법의 주요 성능 저하 요인인 시간 소모가 큰 후처리 과정이 필요하지 않다. 제안된 알고리즘은 두 가지 HOI 탐지 벤치마크에서 최신 기술 수준의 성능을 달성하였으며, 객체 탐지 이후 추론 시간은 1ms 미만으로 이루어진다.

HOTR: Transformer를 활용한 엔드투엔드 인간-객체 상호작용 탐지 | 최신 연구 논문 | HyperAI초신경