11일 전

다중의미 해독 네트워크를 통한 강건한 인간-객체 상호작용 탐지

Xubin Zhong, Changxing Ding, Xian Qu, Dacheng Tao
다중의미 해독 네트워크를 통한 강건한 인간-객체 상호작용 탐지
초록

인간-객체 상호작용(HOI) 탐지는 인간 중심의 장면 이해 작업에서 중요한 역할을 한다. 기존 연구들은 동일한 동사가 다양한 HOI 카테고리 내에서 유사한 시각적 특성을 가진다고 가정하는 경향이 있으며, 이는 동사의 다양한 의미적 함의를 간과하는 문제를 야기한다. 본 논문에서는 이러한 문제를 해결하기 위해, HOI 탐지에서 동사의 시각적 다의성(visual polysemy)을 세 가지 방식으로 해독하는 새로운 다의성 해독 네트워크(PD-Net)를 제안한다. 첫째, 언어 사전 지식을 기반으로 한 두 가지 새로운 모듈인 언어 사전 유도 채널 주의 메커니즘(LPCA)과 언어 사전 기반 특징 증강(LPFA)을 도입하여 HOI 탐지를 위한 특징을 다의성 인식형으로 개선한다. LPCA는 각 HOI 카테고리에 해당하는 인간 및 객체 외형 특징 내에서 중요한 요소를 강조하며, LPFA는 언어 사전 지식을 활용해 인간 자세 및 공간적 특징을 증강함으로써, 동사 분류기가 언어적 힌트를 수신할 수 있도록 하여 동일한 동사에 대한 클래스 내 변동성을 줄이는 데 기여한다. 둘째, 새로운 다의성 인식 모달 융합 모듈(PAMF)을 도입하여, 언어 사전 지식에 따라 더 중요한 특징 유형을 기반으로 PD-Net이 결정을 내리도록 유도한다. 셋째, 의미적으로 유사한 HOI 카테고리들 간에 동사 분류기를 공유함으로써 동사의 다의성 문제를 완화하는 전략을 제안한다. 더불어, 동사의 다의성 문제에 대한 연구를 촉진하기 위해, 실제 세계에서 다양한 의미를 지닌 일반적인 동사(서술어)를 포함하는 새로운 벤치마크 데이터셋인 HOI-VerbPolysemy(HOIVP)를 구축하였다. 마지막으로, 동사의 시각적 다의성을 해독함으로써, 제안된 방법은 HICO-DET, V-COCO, HOI-VP 데이터셋에서 최신 기법들을 상당한 성능 차이로 압도함을 실험을 통해 입증하였다. 본 논문의 코드 및 데이터는 https://github.com/MuchHair/PD-Net에서 공개되어 있다.

다중의미 해독 네트워크를 통한 강건한 인간-객체 상호작용 탐지 | 최신 연구 논문 | HyperAI초신경