ViSTA: 크로스모달 검색을 위한 시각 및 장면 텍스트 집약

시각적 외관은 크로스모달 검색에서 이미지를 이해하기 위한 가장 중요한 단서로 간주되며, 이미지 내에 나타나는 장면 텍스트(scene text)는 때때로 시각적 의미를 이해하는 데 유용한 정보를 제공할 수 있다. 기존의 대부분의 크로스모달 검색 방법들은 장면 텍스트 정보를 무시하는 경향이 있으며, 이 정보를 단순히 추가할 경우 장면 텍스트가 없는 상황에서는 성능 저하를 초래할 수 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 단일한 Vision 및 Scene Text Aggregation 프레임워크(ViSTA) 내에서 다양한 크로스모달 검색 시나리오를 통합하는 완전한 트랜스포머 아키텍처를 제안한다. 구체적으로 ViSTA는 트랜스포머 블록을 활용하여 이미지 패치를 직접 인코딩하고, 장면 텍스트 임베딩을 융합하여 크로스모달 검색을 위한 통합된 시각 표현을 학습한다. 장면 텍스트의 부재 문제를 해결하기 위해, 융합 토큰(fusion token) 기반의 새로운 트랜스포머 융합 방법을 제안하여, 필수적인 장면 텍스트 정보만 융합 토큰을 통해 교환하고 각 모달리티에서 가장 중요한 특징에 집중한다. 또한 시각 모달리티의 강화를 위해 이미지-텍스트 쌍과 융합-텍스트 쌍을 모두 동일한 크로스모달 공간에 임베딩하기 위한 이중 대비 학습 손실(dual contrastive learning losses)을 개발하였다. 기존 방법들과 비교해 볼 때, ViSTA는 시각적 외관과 관련된 장면 텍스트 의미를 효과적으로 통합할 수 있어, 장면 텍스트가 없는 상황과 장면 텍스트를 인식하는 상황 모두에서 성능 향상을 달성한다. 실험 결과, ViSTA는 장면 텍스트 인식 검색 작업에서 Recall@1 기준으로 기존 방법들보다 최소 8.4% 이상 우수한 성능을 보였다. 또한 최첨단의 장면 텍스트 없이 작동하는 검색 방법들과 비교했을 때, Flicker30K 및 MSCOCO 데이터셋에서 더 높은 정확도를 달성하면서 동시에 추론 단계에서 최소 3배 이상 빠른 속도를 기록하여 제안된 프레임워크의 효과성을 입증하였다.