2달 전

플로렌스: 컴퓨터 비전을 위한 새로운 기초 모델

Lu Yuan; Dongdong Chen; Yi-Ling Chen; Noel Codella; Xiyang Dai; Jianfeng Gao; Houdong Hu; Xuedong Huang; Boxin Li; Chunyuan Li; Ce Liu; Mengchen Liu; Zicheng Liu; Yumao Lu; Yu Shi; Lijuan Wang; Jianfeng Wang; Bin Xiao; Zhen Xiao; Jianwei Yang; Michael Zeng; Luowei Zhou; Pengchuan Zhang
플로렌스: 컴퓨터 비전을 위한 새로운 기초 모델
초록

다양하고 개방된 세계의 자동 시각 이해는 컴퓨터 비전 모델이 특정 작업에 대한 최소한의 맞춤 설정으로도 잘 일반화될 수 있어야 함을 요구하며, 이는 인간의 시각과 유사합니다. 컴퓨터 비전 기반 모델은 다양한 대규모 데이터셋에서 훈련되어 다양한 후속 작업에 적용될 수 있으므로, 실제 세계의 컴퓨터 비전 응용 프로그램을 해결하는 데 중요한 역할을 합니다. 기존의 비전 기반 모델인 CLIP, ALIGN, 그리고 우도 2.0(Wu Dao 2.0)은 주로 이미지와 텍스트 표현을 교차 모달 공유 표현으로 매핑하는 데 중점을 두고 있지만, 우리는 이러한 표현을 거칠게(장면)부터 세밀하게(객체), 정적으로(이미지)부터 동적으로(비디오), RGB에서 다중 모달(캡션, 깊이)까지 확장하기 위해 새로운 컴퓨터 비전 기반 모델인 플로렌스(Florence)를 소개합니다. 웹 규모의 이미지-텍스트 데이터에서 보편적인 시각-언어 표현을 통합함으로써 우리의 플로렌스 모델은 분류, 검색, 객체 감지, VQA, 이미지 캡션 생성, 비디오 검색 및 행동 인식과 같은 다양한 컴퓨터 비전 작업에 쉽게 적응할 수 있습니다. 또한 플로렌스는 완전 샘플링 미세 조정(fully sampled fine-tuning), 선형 탐침(linear probing), 소수 샘플 전송 학습(few-shot transfer), 그리고 새로운 이미지와 객체에 대한 제로 샷 전송 학습(zero-shot transfer) 등 여러 유형의 전이 학습에서 뛰어난 성능을 보여줍니다. 이러한 모든 특성은 일반 목적의 시각 작업을 수행하기 위한 우리의 비전 기반 모델에 필수적입니다. 플로렌스는 44개 대표 벤치마크 중 대부분에서 새로운 최고 성능 결과를 달성했습니다. 예를 들어 ImageNet-1K 제로 샷 분류에서는 상위 1등급 정확도가 83.74%, 상위 5등급 정확도가 97.18%이며, COCO 미세 조정에서는 62.4 mAP, VQA에서는 80.36%, Kinetics-600에서는 87.8%의 성능을 보였습니다.

플로렌스: 컴퓨터 비전을 위한 새로운 기초 모델 | 최신 연구 논문 | HyperAI초신경