
초록
다중 모달 이미지 데이터 기반 어두운 장면 이해는 가시광선 모달과 보조 모달 모두가 해당 작업에 대해 제한된 의미 정보를 제공하기 때문에 도전적인 과제이다. 기존의 방법들은 두 모달을 융합하는 데 초점을 맞추지만, 손실을 최소화하여 픽셀을 레이블과 일치시키는 과정에서 의미 클래스 간의 상관관계를 간과하여 정확한 클래스 예측을 어렵게 한다. 이러한 문제를 해결하기 위해, 의미 클래스 간의 상관관계를 감독으로 활용하여 다중 모달 간 및 내부 모달 간의 대비 학습을 동시에 수행함으로써 학습된 다중 모달 특징 공간의 의미 구분 능력을 향상시키는 감독형 다중 모달 대비 학습 접근법을 제안한다. 다중 모달 대비는 두 모달에서 같은 클래스의 임베딩을 가깝게 하고, 다른 클래스의 임베딩은 멀리 떨어지도록 유도한다. 내부 모달 대비는 각 모달 내에서 동일 클래스 또는 다른 클래스의 임베딩이 서로 가까이 있거나 멀리 떨어지도록 강제한다. 제안한 방법은 다양한 조도 조건과 이미지 모달을 포함하는 다양한 작업에 대해 검증되었으며, 실험 결과, 제한된 의미 정보를 가진 다중 모달 이미지 기반 어두운 장면 이해를 효과적으로 향상시킬 수 있음을 보여준다. 이는 의미 구분 특징 공간을 설계함으로써 가능해진다. 기존 방법들과의 비교를 통해 제안 방법이 최상의 성능을 보임을 입증하였다. 코드 및 사전 학습된 모델은 https://github.com/palmdong/SMMCL 에서 제공된다.