
초록
일반적으로 깊은 신경망 모델은 학습 과정과 미지 데이터에 대한 추론 수행 시 순수하게 귀납적(inductive) 방식을 사용한다. 따라서 이러한 모델을 예측에 활용할 때, 집단 수준에서 객체(또는 개념) 간에 존재하는 의미 정보 및 암묵적 종속성(implicit dependencies)을 잘 포착하지 못한다는 것은 잘 알려진 문제이다. 더불어, 대규모이고 노이즈가 많은 환경에서 백프로파게이션(Backpropagation) 친화적인 방식으로 도메인 또는 사전 모달 지식(prior modal knowledge)을 어떻게 명시할 수 있을지 여전히 명확하지 않다. 본 연구에서는 명시적인 지식 그래프를 포함하는 엔드 투 엔드 시각-언어 모델을 제안한다. 또한, 암묵적 네트워크 연산자(implicit network operator)를 활용한 상호작용형 이상 탐지(OOD, out-of-distribution) 층을 도입하여 외부 지식 기반에서 유입되는 노이즈를 필터링하는 기능을 수행한다. 실질적으로, 본 모델은 다양한 데이터셋에서 시각질의응답(Visual Question Answering), 시각적 추론(Visual Reasoning), 이미지-텍스트 검색(Image-Text Retrieval) 등 여러 시각-언어 하류 작업에 적용되었다. 실험 결과, 최신 기술(SOTA) 수준의 성능을 유사하게 달성할 수 있음이 입증되었으며, 이는 훨씬 적은 샘플 수와 학습 시간으로도 가능함을 보여준다.