16일 전

VLPD: 시각-언어 시맨틱 자기지도 학습을 통한 맥락 인지 보행자 탐지

Mengyin Liu, Jie Jiang, Chao Zhu, Xu-Cheng Yin
VLPD: 시각-언어 시맨틱 자기지도 학습을 통한 맥락 인지 보행자 탐지
초록

도시 환경에서 보행자를 정확히 탐지하는 것은 자율주행이나 영상 감시와 같은 현실적인 응용 분야에서 매우 중요한 과제이다. 그러나 인간과 유사한 외형을 가진 물체들이 자주 오류 탐지의 원인이 되며, 소형 또는 심각하게 가려진 보행자들은 특이한 외형으로 인해 쉽게 놓치게 된다. 이러한 문제를 해결하기 위해서는 단순히 물체 영역만을 고려하는 것은 부족하며, 더 명시적이고 의미론적인 맥락을 효과적으로 활용하는 방법이 핵심 과제가 된다. 한편 기존의 맥락 인식 보행자 탐지 기법들은 시각적 단서를 통해 잠재적 맥락만을 학습하거나, 명시적이고 의미론적인 맥락을 얻기 위해 번거로운 레이블링 작업이 필요하다는 한계를 가지고 있다. 이를 해결하기 위해 본 논문에서는 추가적인 레이블 없이 명시적인 의미론적 맥락을 모델링할 수 있는 새로운 접근법, 즉 시각-언어 의미론적 자기지도 학습을 통한 맥락 인식 보행자 탐지(Vision-Language semantic self-supervision for context-aware Pedestrian Detection, VLPD)를 제안한다. 먼저, 시각-언어 모델을 통해 자동으로 생성된 의미 클래스의 명시적 레이블을 활용하여, 완전 지도 학습 기반의 보행자 탐지 및 맥락 세그멘테이션을 동시에 학습하는 자기지도 시각-언어 의미론(VLS) 세그멘테이션 방법을 제안한다. 더불어, VLS를 통해 얻은 더 명시적이고 의미론적인 맥락을 기반으로, 보행자와 다른 클래스를 보다 효과적으로 구분할 수 있도록 자기지도 프로토타입 의미론적 대조(PSC) 학습 방법을 제안한다. 주요 벤치마크에서 실시한 광범위한 실험 결과는 제안한 VLPD가 기존 최고 성능 기법들에 비해 우수한 성능을 보이며, 특히 소형 및 심각한 가림 상황과 같은 도전적인 환경에서도 뛰어난 성능을 나타낸다는 것을 확인할 수 있었다. 코드는 https://github.com/lmy98129/VLPD 에서 공개되어 있다.

VLPD: 시각-언어 시맨틱 자기지도 학습을 통한 맥락 인지 보행자 탐지 | 최신 연구 논문 | HyperAI초신경