Command Palette

Search for a command to run...

14일 전

FineVision: 오픈 데이터는 당신이 필요한 전부다

Luis Wiedmann Orr Zohar Amir Mahla Xiaohan Wang Rui Li Thibaud Frere Leandro von Werra Aritra Roy Gosthipaty Andrés Marafioti

FineVision: 오픈 데이터는 당신이 필요한 전부다

초록

시각-언어 모델(VLM)의 발전은 일관성 없고 오염된 공개 데이터셋이 산재한 복잡한 환경에 의해 제한되고 있다. 본 연구에서는 2,400만 개의 샘플로 구성된, 가장 큰 개방형 자료집 중 하나인 FineVision을 소개한다. 이는 철저히 수집·정제·통합된 코퍼스로, 200개 이상의 다양한 출처를 반자동화된 인간-입력(하이브리드) 파이프라인을 통해 185개의 하위 집합으로 통합하였다. 이 파이프라인에서는 자동화 시스템이 대량의 데이터 수집과 스키마 매핑을 수행하고, 검토자가 매핑 결과와 출력 샘플을 점검하여 annotation의 정확한 반영, 적절한 포맷팅, 데이터 다양성, 안전성 등을 확인한다. 문제 상황이 발견될 경우, 정밀한 수정과 재실행이 수행된다. 이 워크플로우는 출처 내외의 엄격한 중복 제거 및 66개의 공개 벤치마크에 대한 오염 제거를 추가로 적용한다. FineVision은 통일된 액션 공간을 갖춘 에이전트/GUI 작업을 포함하며, 검토자가 스키마를 검증하고 샘플 트래잭터리(경로)를 점검함으로써 실행 가능성의 정확성(실행 정밀도)을 확인한다. FineVision을 기반으로 훈련된 모델은 다양한 평가 벤치마크에서 기존의 개방형 혼합 데이터셋을 사용한 모델들보다 일관되게 뛰어난 성능을 보여주며, 규모, 데이터 품질, 그리고 인간의 감시를 포함한 균형 잡힌 자동화의 중요성을 입증한다. 본 연구는 코퍼스와 정제 도구를 공개함으로써 데이터 중심의 VLM 연구를 가속화하고자 한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
FineVision: 오픈 데이터는 당신이 필요한 전부다 | 연구 논문 | HyperAI초신경