Command Palette

Search for a command to run...

VL3-Syn7M 다중 모드 이미지-텍스트 데이터 세트

날짜

6달 전

크기

3.67 GB

기관

논문 URL

arxiv.org

VL3-Syn7M 데이터 세트는 Alibaba DAMO Academy가 2025년에 발표한 고품질 이미지-텍스트 데이터 세트입니다. 이 데이터 세트는 비디오 이해를 위한 최첨단 멀티모달 기본 모델인 VideoLLaMA3가 멀티모달 이해에서 상당한 진전을 이루도록 돕는 것을 목표로 합니다. 관련 논문 결과는 다음과 같습니다.VideoLLaMA 3: 이미지 및 비디오 이해를 위한 최전선 다중 모달 기반 모델". 이 데이터셋은 이미지의 상세 캡션, 짧은 캡션, 이미지 출처 정보를 포함한 다차원 미세 주석을 포함하고 있으며, 장면 이미지, 문서 이미지, 텍스트 이미지 등 다양한 유형의 데이터를 포괄하여 모델이 다중 모드 정보를 학습하는 데 필요한 풍부한 자료를 제공합니다. 이러한 고품질 데이터는 다중 모드 상호작용 시스템의 이미지 의미 이해 및 최적화에 대한 심층 연구를 지원하고, 지능형 시각 보조 장치, 문서 이해 도구, 이미지 유도 로봇 상호작용 등 관련 산업의 발전을 촉진합니다.

주요 특징

  • 대규모 데이터 규모: 700만 개의 이미지와 해당 주석이 포함되어 있어 모델 학습을 위한 방대한 샘플을 제공하고, 대규모 데이터에 대한 복잡한 모델의 요구 사항을 충분히 충족하며, 다양한 시각적 장면과 의미를 이해하는 모델의 능력을 향상시키는 데 도움이 됩니다.
  • 데이터 소스는 광범위합니다. 장면 이미지는 Object365, SA-1B 등 다양한 데이터 세트에서 나오므로 데이터 다양성이 크게 증가합니다. 장면 텍스트 이미지는 BLIP3-OCR에서 가져왔습니다. 문서 이미지는 pdfa-eng-wds 및 idl-wds 등에서 선택됩니다. 광범위한 데이터 소스 덕분에 데이터가 풍부하고 다양한 시각적 콘텐츠와 장면을 포괄하도록 보장하여 모델이 다양한 유형의 이미지를 일반화하고 이해하는 능력을 향상시킬 수 있습니다.
  • 높은 주석 품질: 짧은 자막은 InternVL2-8B로 생성되고, 자세한 자막은 InternVL2-26B로 완성되며, 대량의 일반 텍스트 데이터를 포함합니다. 고품질 캡션 주석은 모델이 이미지와 텍스트 간의 연관성을 학습할 수 있도록 정확한 지침을 제공하는 반면, 일반 텍스트 데이터는 모델이 시각적 및 텍스트 입력과 관련된 작업에 따른 지침을 처리하는 능력을 향상시키는 데 도움이 됩니다.
VL3-Syn7M.torrent
시딩 1다운로드 중 0완료됨 52총 다운로드 횟수 142
  • VL3-Syn7M/
    • README.md
      2.45 KB
    • README.txt
      4.9 KB
      • data/
        • VL3-Syn7M.zip
          3.67 GB

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
VL3-Syn7M 다중 모드 이미지-텍스트 데이터 세트 | 데이터셋 | HyperAI초신경