
딥 네트워크 모델은 훈련 및 미지 데이터에 대한 추론 과정에서 일반적으로 순수하게 유도적(inductive)이다. 이러한 모델을 예측에 활용할 경우, 데이터셋 내 중요한 의미 정보와 은닉된 의존 관계를 제대로 포착하지 못할 수 있다. 최근의 연구 동향에 따르면, 대규모 시각 및 언어 환경에서 다양한 모달리티를 결합함으로써 이해 능력과 일반화 성능을 향상시킬 수 있음이 입증되었다. 그러나 모델의 크기가 증가함에 따라, 소수의 다운스트림 작업에 대해서도 미세 조정(fine-tuning)과 배포가 계산적으로 매우 비용이 많이 드는 문제를 겪게 된다. 더불어, 특히 대규모이고 노이즈가 많은 환경에서, 도메인 지식이나 사전 지식을 역전파(backpropagation)에 적합한 방식으로 명시적으로 정의하는 방법은 여전히 명확하지 않다. 이러한 문제들을 해결하기 위해, 사전 훈련된 딥 네트워크의 특징과 자유롭게 이용 가능한 의미적 명시적 지식을 결합하는 간소화된 대안을 제안한다. 이미지와 잘 맞지 않는 관련 없는 명시적 지식을 제거하기 위해, 음성적(implicit)으로 분포 외(out-of-distribution, OOD) 탐지 기능을 갖춘 미분 가능한 OOD 탐지 레이어를 도입한다. 이 레이어는 미분 가능한 함수의 고정점(fixed point)을 해결하는 방식으로 이상치 탐지 문제를 해결하며, 고정점 해법의 최종 반복값을 활용하여 역전파를 수행한다. 실제 적용 사례로는 다양한 데이터셋에서의 시각질의응답(visual question answering), 시각적 추론(visual reasoning), 이미지-텍스트 검색(image-text retrieval) 등 여러 시각-언어 다운스트림 작업에 본 모델을 적용하였다. 실험 결과, 최첨단 성능과 유사한 결과를 달성할 수 있으나, 훈련 샘플 수와 훈련 시간을 크게 줄일 수 있음을 확인하였다. 본 연구의 모델 및 코드는 다음에서 공개되어 있다: https://github.com/ellenzhuwang/implicit_vkood