2달 전

Pix2Struct: 스크린샷 파싱을 통한 시각적 언어 이해의 사전 학습

Lee, Kenton ; Joshi, Mandar ; Turc, Iulia ; Hu, Hexiang ; Liu, Fangyu ; Eisenschlos, Julian ; Khandelwal, Urvashi ; Shaw, Peter ; Chang, Ming-Wei ; Toutanova, Kristina
Pix2Struct: 스크린샷 파싱을 통한 시각적 언어 이해의 사전 학습
초록

시각적으로 위치한 언어는 보편적입니다. 그 출처는 도표가 있는 교과서에서 이미지와 표가 포함된 웹 페이지, 버튼과 양식이 있는 모바일 앱에 이르기까지 다양합니다. 이러한 다양성 때문인지, 이전 연구에서는 주로 특정 영역에 특화된 방법론을 사용하여 기저 데이터, 모델 아키텍처, 목표 간의 공유를 제한적으로 수행하였습니다. 우리는 순수 시각적 언어 이해를 위한 사전 학습된 이미지-텍스트 모델인 Pix2Struct(픽스투스트럭트)을 소개합니다. Pix2Struct은 웹 페이지의 마스크 처리된 스크린샷을 단순화된 HTML로 분석하는 것을 통해 사전 학습됩니다. 시각 요소가 HTML 구조에 명확히 반영되어 있는 웹은 다양한 후속 작업에 적합한 대규모 사전 학습 데이터 소스를 제공합니다. 직관적으로 보면, 이 목표는 OCR, 언어 모델링, 이미지 캡셔닝 등의 일반적인 사전 학습 신호를 포괄합니다. 새로운 사전 학습 전략 외에도, 우리는 가변 해상도 입력 표현과 언어 및 시각 입력을 더 유연하게 통합하는 방법을 제안합니다. 여기서 언어 프롬프트(질문 등)는 입력 이미지 위에 직접 렌더링됩니다. 우리는 처음으로 단일 사전 학습 모델이 문서, 일러스트레이션, 사용자 인터페이스, 자연 이미지 등 네 가지 영역에서 아홉 개의 작업 중 여섯 개에서 최고 수준의 결과를 달성할 수 있음을 보여줍니다.