Command Palette

Search for a command to run...

텍스트-이미지 변환-2M 텍스트-이미지 변환 훈련 데이터 세트

날짜

4달 전

라이선스

MIT

Discord 커뮤니티 참여

Text-to-Image-2M은 텍스트-이미지 모델 미세 조정을 위해 설계된 고품질 텍스트-이미지 쌍 데이터셋입니다. 기존 공개 데이터셋은 이미지 이해 데이터셋, 비공식적으로 수집되거나 특정 작업에 특화된 데이터셋, 그리고 크기 제한 등 제약이 있는 경우가 많습니다. 이러한 문제를 해결하기 위해 연구팀은 기존의 고품질 데이터셋을 고급 텍스트-이미지 및 캡션 모델과 결합하고 개선하여 Text-to-Image-2M 데이터셋을 개발했습니다.

이 데이터 세트에는 약 200만 개의 샘플이 포함되어 있으며, 이는 2개의 핵심 하위 세트인 data_512_2M(512×512 해상도 이미지와 주석 200만 개)과 data_1024_10K(10,000개의 1024×1024 고해상도 이미지와 주석)로 나뉘며, 다양한 정확도 요구 사항에 맞춰 모델을 학습할 수 있는 유연한 옵션을 제공합니다.

데이터 구성:

  • 데이터_512_2M:
    • LLaVA-next 미세 조정 데이터 세트(약 70만 개 샘플, 텍스트는 정확도 향상을 위해 Qwen2-VL로 재생성됨)
    • LLaVA 사전 학습된 데이터 세트(약 50만 개의 샘플, 이미지는 Flux-dev 모델로 생성되었으며 원본 텍스트 설명은 그대로 유지됨)
    • ProGamerGov 합성 데이터 세트(약 90만 개의 샘플, 중앙에서 잘리고 유효성 필터링됨)
    • GPT-4o에서 생성된 데이터 세트(100,000개 샘플, GPT-4o에서 디자인한 텍스트, Flux-dev에서 생성한 이미지)
  • 데이터_1024_10K:
    • GPT-4o에서 생성된 텍스트와 Flux-dev 모델에서 렌더링된 이미지를 포함하여 10,000개의 고해상도 이미지가 포함되어 있으며 풍부한 세부 정보가 있는 복잡한 장면에 초점을 맞춥니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
텍스트-이미지 변환-2M 텍스트-이미지 변환 훈련 데이터 세트 | 데이터셋 | HyperAI초신경