2달 전
TagAlign: 다중 태그 분류를 이용한 시각-언어 정렬 개선
Qinying Liu; Wei Wu; Kecheng Zheng; Zhan Tong; Jiawei Liu; Yu Liu; Wei Chen; Zilei Wang; Yujun Shen

초록
비전-언어 모델을 학습하는 핵심은 시각적 데이터와 언어적 데이터에서 의미적으로 일치하는 정보를 추출하는 것입니다. 기존의 시도들은 대체로 거친 일치 문제에 직면해 있습니다. 예를 들어, 비전 인코더는 속성 지정 객체의 위치를 파악하는 데 어려움을 겪습니다. 본 연구에서는 이미지-텍스트 쌍 외에 추가적인 데이터 형식이 필요하지 않은, 매우 간단한 접근법을 제안합니다. 구체적으로, 이미지와 그에 대응하는 텍스트가 주어졌을 때, 설명에서 객체(예: 고양이)와 속성(예: 검은색)을 파싱하여 이미지에 존재할 가능성이 높은 요소들을 추출합니다. 이 파싱 과정은 완전히 자동화되어 있어 확장성이 우수합니다. 이러한 파싱된 의미를 감독 신호로 사용하면, 일반적으로 사용되는 이미지-텍스트 대조 손실 함수에 다중 태그 분류 손실 함수를 보완할 수 있습니다. 다양한 의미 분할 데이터셋에서 수행된 광범위한 실험 결과는 우리의 프레임워크가 기존 방법들보다 평균 5.2% 개선됨을 입증합니다. 또한 시각화 결과는 속성 감독이 비전-언어 모델이 속성 지정 객체를 정확하게 위치시키는 데 도움을 준다는 것을 보여줍니다. 프로젝트 페이지는 https://qinying-liu.github.io/Tag-Align에서 확인할 수 있습니다.