라마 네모트론 VLM v1 다중 모달 이미지 및 텍스트 데이터 세트
날짜
7일 전
발행 주소
라이선스
CC BY 4.0
Llama Nemotron VLM v1은 NVIDIA가 2025년에 VLM 사후 학습용으로 공개한 고품질 이미지 및 텍스트 데이터셋입니다. NVIDIA에서 공개한 Llama-3.1-Nemotron-Nano-VL-8B-V1 문서 이해 모델(문서 질의응답, 그래프 질의응답, AI2D 및 기타 시나리오 지원)을 지원하는 데 사용됩니다.
이 데이터 세트는 21개의 하위 집합으로 구성되어 있으며, 총 2,863,854개의 샘플을 포함하고 있습니다. 시각적 질의응답(VQA), 캡션(이미지 설명), 광학 문자 인식(OCR)의 세 가지 범주를 포괄하며, 재주석 처리된 공개 이미지 데이터 세트, 완전 및 반합성 OCR 데이터(중국어 및 영어, 문자, 단어, 페이지 수준), 그리고 내부적으로 주석 처리된 OCR 세트를 포함합니다. 또한 이 데이터 세트는 기존 QA(질의응답) 또는 캡션을 개선하고 향상시켜 지능형 에이전트, 채팅 도우미, RAG와 같은 애플리케이션의 다중 모드 학습 및 평가에 적합합니다.
데이터에는 다음이 포함됩니다.
- VQA(시각적 질의응답): 1,917,755개 예시
- 캡션: 131,718개 샘플
- OCR(텍스트 인식): 814,381개 샘플