2달 전
ScreenAI: UI 및 인포그래픽 이해를 위한 시각-언어 모델
Baechler, Gilles ; Sunkara, Srinivas ; Wang, Maria ; Zubach, Fedir ; Mansoor, Hassan ; Etter, Vincent ; Cărbune, Victor ; Lin, Jason ; Chen, Jindong ; Sharma, Abhanshu

초록
화면 사용자 인터페이스(UI)와 인포그래픽은 비슷한 시각 언어와 디자인 원칙을 공유하며, 인간 간의 의사소통과 인간-기계 상호작용에서 중요한 역할을 합니다. 우리는 UI와 인포그래픽 이해에 특화된 비전-언어 모델인 ScreenAI를 소개합니다. 우리의 모델은 pix2struct의 유연한 패치 전략을 적용하여 PaLI 아키텍처를 개선하였으며, 독특한 데이터셋 혼합으로 훈련되었습니다. 이 혼합의 핵심은 모델이 UI 요소의 종류와 위치를 식별해야 하는 새로운 화면 주석 작업입니다. 우리는 이러한 텍스트 주석을 Large Language Models에 제공하여 대규모로 질문-답변(QA), UI 탐색, 및 요약 훈련 데이터셋을 자동 생성합니다. 또한, 이러한 설계 선택의 영향을 입증하기 위해 축차적 연구(ablation studies)를 수행하였습니다. ScreenAI는 단지 50억 개의 매개변수만으로도 다중 페이지 문서 VQA(Multi-page DocVQA), 웹 소스 코드 탐색(WebSRC), MoTIF, 위젯 캡셔닝(Widget Captioning) 등 UI 및 인포그래픽 기반 과제에서 새로운 최고 수준의 결과를 달성하였으며, 유사한 크기의 다른 모델들과 비교해 차트 QA(Chart QA), DocVQA, InfographicVQA에서도 최고 성능을 보였습니다. 마지막으로, 우리는 세 가지 새로운 데이터셋을 공개합니다: 하나는 화면 주석 작업에 초점을 맞추고 있으며, 나머지 두 개는 질문-답변에 중점을 둔 것입니다.