다중 스펙트럼 보행자 검출을 위한 약간 정렬된 크로스 모달 학습

다중 스펙트럼 보행자 검출은 열 영상이 색상 영상에 대한 보완 정보를 제공하기 때문에 저조도 환경에서 큰 장점을 보여주고 있습니다. 그러나 실제 다중 스펙트럼 데이터는 위치 이동 문제(position shift problem)에 직면해 있으며, 즉, 색상-열 영상 쌍이 엄격하게 정렬되지 않아 동일한 객체가 서로 다른 모달리티에서 다른 위치에 나타납니다. 딥 러닝 기반 방법에서는 이러한 문제가 두 모달리티의 특징 맵을 융합하는 것을 어렵게 만들며, CNN 학습을 혼란스럽게 합니다. 본 논문에서는 약간 정렬된 다중 스펙트럼 데이터를 단계적으로 처리할 수 있는 새로운 Aligned Region CNN (AR-CNN)을 제안합니다. 첫째, Region Feature Alignment (RFA) 모듈을 설계하여 위치 이동을 포착하고 두 모달리티의 지역 특징을 적응적으로 정렬합니다. 둘째, 신뢰성이 더 높은 특징을 선택하고 불필요한 특징을 억제하는 새로운 다모달 융합 방법을 제시합니다. 또한, 다양한 장비와 시스템 설정에서 예기치 않은 이동 패턴에 대한 견고성을 향상시키기 위해 새로운 RoI jitter 전략을 제안합니다. 마지막으로, 우리의 방법은 각 모달리티에 맞는 바운딩 박스(bounding boxes)라는 새로운 종류의 라벨링에 의존하므로, KAIST 데이터셋을 수작업으로 재라벨링하여 두 모달리티에서 바운딩 박스를 위치시키고 그 관계를 구축하여 새로운 KAIST-Paired Annotation을 제공합니다. 기존 데이터셋에서 광범위한 실험 검증이 수행되어 제안된 방법의 효과성과 견고성이 입증되었습니다. 코드와 데이터는 https://github.com/luzhang16/AR-CNN에서 이용 가능합니다.