
초록
깊이/온도 정보는 전통적인 RGB 이미지에서 주요 객체를 감지하는 데 유용합니다. 그러나 이중 모달 주요 객체 감지(SOD) 모델에서는 노이즈 입력과 모달 부족에 대한 강건성이 중요하지만 거의 연구되지 않았습니다. 이 문제를 해결하기 위해, 우리는 두 가지 핵심 구성 요소로 이루어진 \textbf{Co}nditional Dropout과 \textbf{LA}nguage-driven(\textbf{CoLA}) 프레임워크를 소개합니다.1) 언어 기반 품질 평가(LQA): 사전 훈련된 비전-언어 모델과 프롬프트 학습기를 활용하여 LQA는 추가적인 품질 주석 없이 이미지의 기여도를 재조정합니다. 이 접근 방식은 노이즈 입력의 영향을 효과적으로 완화시킵니다.2) 조건부 드롭아웃(CD): CD는 모달 부족 상황에서 모델의 적응성을 강화하면서, 완전한 모달 조건 하에서의 성능을 유지하는 학습 방법입니다. CD는 모달 부족을 조건으로 처리하는 플러그인 훈련 방식으로, 다양한 이중 모달 SOD 모델의 전체적인 강건성을 강화합니다.범위 넓은 실험 결과, 제안된 방법이 완전한 모달 조건과 모달 부족 조건 모두에서 최신 이중 모달 SOD 모델보다 우수한 성능을 보임을 입증하였습니다. 논문이 수락되면 소스 코드를 공개할 계획입니다.