
시각-언어 학습을 위한 기존 방법들은 각각의 작업에 대해 특화된 아키텍처와 목적함수를 설계해야 하는 단점이 있다. 예를 들어, 시각 질문 응답(visual question answering)을 위한 다중 레이블 답변 분류기, 표현 지시어 이해(referring expression comprehension)를 위한 영역 점수 산정 모델, 이미지 설명(image captioning)을 위한 언어 디코더 등이 있다. 이러한 번거로움을 완화하기 위해 본 연구에서는 단일 아키텍처 내에서 동일한 언어 모델링 목표—다중모달 조건부 텍스트 생성(multimodal conditional text generation)—을 통해 다양한 작업을 통합적으로 학습하는 프레임워크를 제안한다. 이 모델은 시각적 입력과 텍스트 입력을 기반으로 텍스트 형태의 레이블을 생성하도록 학습한다. 시각 질문 응답, 표현 지시어 이해, 시각적 공감각 추론(visual commonsense reasoning) 등 기존에 주로 구분형(discriminative) 작업으로 모델링된 7개의 대표적인 시각-언어 벤치마크에서, 본 연구의 생성형 접근법(단일 통합 아키텍처)은 최근의 작업별 최고 성능을 달성한 시각-언어 모델들과 비교해 유사한 성능을 보였다. 더불어, 드문 답변을 가진 질문에 대해서도 본 연구의 생성형 접근법이 더 우수한 일반화 능력을 보였다. 또한, 본 프레임워크가 단일 아키텍처와 단일 파라미터 세트를 통해 다중 작업 학습을 가능하게 하며, 별도로 최적화된 단일 작업 모델들과 유사한 성능을 달성함을 보였다. 본 연구의 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/j-min/VL-T5