COFAR: 이미지 검색에서의 일반 지식 및 사실 기반 추론

현대 인공지능 모델과 인간을 구분짓는 특징 중 하나는 시각적으로 명확하게 드러나지 않은 정보까지 해석할 수 있는 능력이다. 다음 두 가지 자연어 검색 쿼리를 고려해 보자. (i) "아이스크림을 사기 위해 인내심 있게 기다리는 고객들의 줄", (ii) "인도의 유명한 무굴 건축물을 보기 위해 가는 관광객들의 줄". 이러한 쿼리를 해석하기 위해서는 (i) 일반 지식(commonsense)을 활용하여 사람들을 고객이나 관광객으로 해석하고, 행동을 '사기 위해 기다리다' 또는 '보기 위해 가다'로 해석해야 하며, (ii) 명명된 시각적 실체와 관련된 사실 지식 또는 세계 지식을 필요로 한다. 예를 들어, 이미지 속 상점이 아이스크림을 판매하는지 여부, 또는 이미지 속 랜드마크가 인도에 위치한 무굴 건축물인지 여부를 판단해야 한다. 이러한 추론은 단순한 시각 인식을 넘어서는 작업이다. 본 연구에서는 이러한 일반 지식과 사실 지식을 이미지 검색에 통합적으로 적용할 수 있도록, 명명된 시각적 실체를 백과사전 지식으로 연결하는 통합 프레임워크인 지식 검색 증강 다모달 트랜스포머(Knowledge Retrieval-Augmented Multimodal Transformer, KRAMT)를 제안한다. KRAMT는 이미지 내 명명된 시각적 실체를 지식의 접속점으로 삼아, 자연어 쿼리와 함께 관련 지식을 정렬(grounding)하는 데 활용한다. 또한 KRAMT는 시각적 콘텐츠와 정렬된 지식을 원활하게 통합하여 이미지와 검색 쿼리 간의 의미적 일치를 학습한다. 이 통합 프레임워크는 일반 지식과 사실 지식을 필요로 하는 이미지 검색 작업에 활용된다. KRAMT의 검색 성능은 새로 제안한 데이터셋인 COFAR에서 관련 기법들과 비교하여 평가된다. 본 연구의 코드와 데이터셋은 https://vl2g.github.io/projects/cofar 에서 공개한다.