17일 전

다중모달 객체 탐지: 채널 스위칭과 공간 주의력 기반 방법

{Zheng Liu, Erik Blasch, Jozsef Hamari, Junchi Bin, Yue Cao}
다중모달 객체 탐지: 채널 스위칭과 공간 주의력 기반 방법
초록

최근 몇 년 동안 다중 모달 객체 탐지에 대한 관심이 크게 증가하고 있다. 다양한 모달에서 얻은 정보는 서로 보완적으로 작용하여 탐지 모델의 정확성과 안정성을 효과적으로 향상시키기 때문이다. 그러나 단일 모달 입력을 처리하는 것과 비교해 다중 모달 정보를 융합하는 것은 모델의 계산 복잡도를 크게 증가시키며, 이로 인해 모델의 효율성이 저하될 수 있다. 따라서 다중 모달 융합 모듈은 탐지 모델의 성능을 향상시키면서도 계산 자원 소모를 최소화할 수 있도록 신중하게 설계되어야 한다. 본 논문에서는 채널 스위칭과 공간 주의 메커니즘(Channel Switching and Spatial Attention, CSSA)을 활용하여 다양한 모달 입력을 효율적으로 융합할 수 있는 새로운 경량 융합 모듈을 제안한다. 제안된 모듈의 효과성과 일반화 능력은 두 가지 공개된 다중 모달 데이터셋인 LLVIP 및 FLIR을 이용해 검증되었으며, 이들 데이터셋은 적외선(IR) 이미지와 가시광선(RGB) 이미지의 쌍을 포함하고 있다. 실험 결과, 제안된 CSSA 모듈은 과도한 계산 자원 소비 없이도 다중 모달 객체 탐지의 정확도를 상당히 향상시킬 수 있음을 입증하였다.

다중모달 객체 탐지: 채널 스위칭과 공간 주의력 기반 방법 | 최신 연구 논문 | HyperAI초신경