11일 전

언어 지침을 이미지-텍스트 매칭에 통합하여 거짓 음성 수정하기

{Zhongtian Du, Jenq-Neng Hwang, Zerun Feng, Caili Guo, Zheng Li}
초록

이미지-텍스트 매칭(Image-Text Matching, ITM)은 이미지와 문장 간의 대응 관계를 설정하는 것을 목표로 한다. ITM는 다양한 시각 및 언어 이해 작업의 기초가 되는 핵심 과제이다. 그러나 기존 ITM 벤치마크의 구성 방식에는 한계가 존재한다. 기존 ITM 벤치마크는 구축 과정에서 이미지와 문장을 쌍으로 수집한다. 따라서 수집 시점에서 쌍으로 연결된 샘플만 긍정(positive)으로 레이블링되고, 그 외의 모든 샘플은 부정(negative)으로 레이블링된다. 이 과정에서 부정으로 레이블링된 샘플들 사이에는 많은 관련성이 존재할 수 있으나, 이를 놓치게 된다. 예를 들어, 특정 문장은 수집 시점에서 오직 하나의 이미지와만 매칭된다. 이 경우 해당 이미지만 문장에 대해 긍정으로 레이블링되고, 나머지 모든 이미지는 부정으로 레이블링된다. 그러나 이 부정으로 레이블링된 이미지들 중에는 문장과 실제로 관련성이 있는 이미지가 포함될 수 있다. 이러한 잘못된 레이블링된 샘플을 ‘거짓 부정(false negatives)’이라고 한다. 기존 ITM 모델들은 이러한 잘못된 레이블을 포함한 어노테이션을 기반으로 최적화되기 때문에, 학습 과정에서 노이즈가 발생할 수 있다. 본 논문에서는 거짓 부정을 보정하기 위한 언어 지도(Language Guidance, LG) 기반 ITM 프레임워크를 제안한다. 제안된 프레임워크에는 언어 사전훈련 모델을 도입하여 거짓 부정을 탐지한다. 거짓 부정을 보정하기 위해, 시각-의미 벡터 공간 내에서 거짓 부정의 위치를 적응적으로 수정하는 언어 지도 손실(Language Guidance Loss)을 제안한다. 두 가지 ITM 벤치마크에서 실시한 광범위한 실험 결과, 제안된 방법이 기존 ITM 모델의 성능을 향상시킬 수 있음을 확인하였다. 거짓 부정 보정 성능을 검증하기 위해, ECCV Caption 데이터셋에서 추가 실험을 수행하였다. ECCV Caption는 어노테이션 내 거짓 부정이 사전에 보정된 검증된 데이터셋이다. 실험 결과, 본 방법이 더 많은 관련 있는 거짓 부정 샘플을 재발견할 수 있음을 입증하였다.

언어 지침을 이미지-텍스트 매칭에 통합하여 거짓 음성 수정하기 | 최신 연구 논문 | HyperAI초신경