17일 전

Florence-2: 다양한 비전 작업을 위한 통합 표현의 발전

Bin Xiao, Haiping Wu, Weijian Xu, Xiyang Dai, Houdong Hu, Yumao Lu, Michael Zeng, Ce Liu, Lu Yuan
Florence-2: 다양한 비전 작업을 위한 통합 표현의 발전
초록

우리는 다양한 컴퓨터 비전 및 비전-언어 작업에 대해 통합적이고 프롬프트 기반의 표현을 갖춘 새로운 비전 기초 모델인 Florence-2를 소개한다. 기존의 대규모 비전 모델들은 전이 학습에서 뛰어난 성능을 보이지만, 간단한 지시사항만으로 다양한 작업을 수행하는 능력에는 한계가 있다. 이 능력은 다양한 공간 계층 구조와 의미적 세분화 수준을 처리할 수 있다는 것을 의미한다. Florence-2는 텍스트 프롬프트를 작업 지시사항으로 받아들여, 캡셔닝, 물체 탐지, 지정(그라운딩), 세그멘테이션 등 다양한 작업에서 텍스트 형식으로 바람직한 결과를 생성하도록 설계되었다. 이러한 다중 작업 학습 환경은 대규모이고 고품질의 주석 데이터를 요구한다. 이를 위해 우리는 자동 이미지 주석화와 모델 개선을 반복적으로 수행하는 전략을 활용하여, 1억 2600만 장의 이미지에 대해 총 54억 개의 포괄적인 시각적 주석을 포함하는 FLD-5B 데이터셋을 공동 개발하였다. Florence-2는 다양한 비전 작업을 수행할 수 있도록 시퀀스-투-시퀀스 구조를 채택하여 훈련하였다. 수많은 작업에 대한 광범위한 평가를 통해 Florence-2가 기존 모델들과 비교해도 뛰어난 제로샷 및 미세조정 능력을 갖춘 강력한 비전 기초 모델임이 입증되었다.

Florence-2: 다양한 비전 작업을 위한 통합 표현의 발전 | 최신 연구 논문 | HyperAI초신경