2달 전

시각적 기초 모델과 크로스 어텐션 메커니즘을 이용한 강건한 장면 변화 감지

Chun-Jung Lin; Sourav Garg; Tat-Jun Chin; Feras Dayoub
시각적 기초 모델과 크로스 어텐션 메커니즘을 이용한 강건한 장면 변화 감지
초록

장면 변화 감지에 있어 새로운 방법을 제시합니다. 이 방법은 시각적 기초 모델인 DINOv2의 강력한 특성 추출 능력을 활용하고, 전체 이미지 크로스 어텐션(full-image cross-attention)을 통합하여 조명 변화, 계절 변동, 그리고 시점 차이와 같은 주요 과제를 해결합니다. 이미지 쌍 간의 변화 감지 작업에서 대응 관계와 비대응 관계를 효과적으로 학습하기 위해, 우리는 a) 백본(backbone)을 "고정(freeze)"하여 밀도 기초 특성의 일반성을 유지하고, b) "전체 이미지" 크로스 어텐션을 사용하여 이미지 쌍 간의 시점 차이를 더 잘 처리할 수 있도록 제안합니다. 우리의 접근 방식은 VL-CMU-CD와 PSCD 두 벤치마크 데이터셋 및 그들의 시점 변형 버전에서 평가되었습니다. 실험 결과는 특히 이미지 쌍 간의 기하학적 변화가 있는 상황에서 F1 점수에 큰 개선을 보였습니다. 결과는 우리의 방법이 기존 최신 접근 방식보다 우수한 일반화 능력을 지니며, 광학적 및 기하학적 변동에 대한 견고성을 보여주었으며, 새로운 환경에 적응하기 위해 미세 조정(fine-tuning)될 때 더욱 나은 전반적인 일반화 성능을 나타냈습니다. 자세한 아블레이션 연구(ablation studies)는 우리 아키텍처의 각 구성 요소가 미치는 영향을 추가로 검증하였습니다. 우리의 소스 코드는 다음 링크에서 확인 가능합니다: https://github.com/ChadLin9596/Robust-Scene-Change-Detection.

시각적 기초 모델과 크로스 어텐션 메커니즘을 이용한 강건한 장면 변화 감지 | 최신 연구 논문 | HyperAI초신경