2달 전
Unified-IO: 시각, 언어 및 다중 모드 작업을 위한 통합 모델
Lu, Jiasen ; Clark, Christopher ; Zellers, Rowan ; Mottaghi, Roozbeh ; Kembhavi, Aniruddha

초록
우리는 다양한 AI 작업을 수행하는 Unified-IO 모델을 제안합니다. 이 모델은 자세 추정, 객체 검출, 깊이 추정, 이미지 생성 등 전통적인 컴퓨터 비전 작업뿐만 아니라 영역 캡셔닝과 지시 표현 같은 시각-언어 작업, 그리고 질문 응답과 재구성 같은 자연어 처리 작업까지 포괄합니다. 이러한 다양한 작업에 대한 단일 통합 모델의 개발은 각 작업에 속한 이질적인 입력 및 출력(예: RGB 이미지, 픽셀별 맵, 바이너리 마스크, 경계 상자, 언어)으로 인해 독특한 도전 과제를 제기합니다. 우리는 이를 통해 모든 지원되는 입력과 출력을 이산 어휘 토큰의 시퀀스로 균일화하여 통합을 실현하였습니다. 이러한 공통 표현은 모든 작업에서 단일 트랜스포머 기반 아키텍처를 90여 개 이상의 시각 및 언어 분야의 다양한 데이터셋 위에서 공동으로 학습할 수 있게 합니다. Unified-IO는 GRIT 벤치마크에서 7개의 모든 작업을 수행할 수 있는 첫 번째 모델이며, NYUv2-Depth, ImageNet, VQA2.0, OK-VQA, Swig, VizWizGround, BoolQ, SciTail 등 16개의 다양한 벤치마크에서 강력한 결과를 보여주며 특정 작업에 대한 미세 조정 없이도 성능을 발휘합니다. Unified-IO의 코드와 데모는 다음 주소에서 확인할 수 있습니다: https://unified-io.allenai.org.