ERNet: 효율적이고 신뢰할 수 있는 인간-객체 상호작용 탐지
인간-객체 상호작용(HOI) 탐지는 사람과 객체 간의 상호작용을 인식하는 기술로, 자율주행 차량 및 협업 로봇과 같은 자율 시스템에서 매우 유용하다. 그러나 기존의 HOI 탐지기들은 예측 과정에서 모델의 비효율성과 신뢰성 부족으로 인해 한계를 겪는 경우가 많아 실세계 적용 가능성을 제한하고 있다. 본 논문에서는 이러한 문제를 해결하기 위해, HOI 탐지를 위한 엔드투엔드 학습 가능한 컨볼루션-트랜스포머 네트워크인 ERNet을 제안한다. 제안된 모델은 효율적인 다중 스케일 변형 가능 주의(Deformable Attention)를 활용하여 핵심적인 HOI 특징을 효과적으로 포착한다. 또한, 의미적으로 � бог rich한 인스턴스 및 상호작용 토큰을 적응적으로 생성하기 위한 새로운 탐지 주의 모듈을 제안한다. 이러한 토큰들은 사전 탐지(pre-emptive detection)를 통해 초기 영역 및 벡터 제안을 생성하며, 이 제안들은 트랜스포머 디코더 내에서 특징 정제 과정을 강화하는 쿼리(query)로도 활용된다. 더불어, HOI 표현 학습의 성능을 향상시키기 위해 여러 효과적인 개선 기법을 도입하였다. 또한, 인스턴스 및 상호작용 분류 헤드에 예측 불확실성 추정 프레임워크를 도입하여 각 예측의 불확실성을 정량화한다. 이를 통해 어려운 환경에서도 정확하고 신뢰할 수 있는 HOI 예측이 가능하다. HICO-Det, V-COCO, HOI-A 데이터셋에서 수행한 실험 결과, 제안된 모델이 탐지 정확도와 학습 효율성 측면에서 최신 기술 수준(SOTA)의 성능을 달성함을 입증하였다. 코드는 공개적으로 제공되며, https://github.com/Monash-CyPhi-AI-Research-Lab/ernet 에서 확인할 수 있다.