7일 전
GIT: 시각 및 언어를 위한 생성형 이미지-텍스트 트랜스포머
Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang

초록
이 논문에서는 이미지/비디오 캡셔닝 및 질문 응답과 같은 시각-언어 작업들을 통합하기 위해 생성형 이미지-텍스트 트랜스포머(GIT)를 설계하고 훈련한다. 생성형 모델은 사전 훈련과 미세 조정 간에 일관된 네트워크 아키텍처를 제공하지만, 기존 연구들은 일반적으로 복잡한 구조(일반/다중 모달 인코더/디코더)를 포함하며, 객체 탐지기, 태그기, 광학 문자 인식(OCR)과 같은 외부 모듈에 의존한다. 반면 GIT에서는 단일 언어 모델링 작업 아래에서 하나의 이미지 인코더와 하나의 텍스트 디코더로 아키텍처를 단순화한다. 또한 사전 훈련 데이터와 모델 크기를 확대하여 모델 성능을 향상시켰다. 복잡한 기능 없이도, 우리의 GIT는 12개의 도전적인 벤치마크에서 큰 차이로 새로운 최고 성능을 달성했다. 예를 들어, TextCaps에서 CIDEr 점수 기준으로 인간 성능(125.5)을 처음으로 초과하는 성과(138.2)를 기록했다. 더불어 생성 기반 이미지 분류 및 장면 텍스트 인식을 위한 새로운 방안을 제안하여 표준 벤치마크에서 우수한 성능을 달성했다. 코드는 \url{https://github.com/microsoft/GenerativeImage2Text}에서 공개된다.