Command Palette
Search for a command to run...
텍스트-이미지 변환-2M 텍스트-이미지 변환 훈련 데이터 세트
Text-to-Image-2M은 텍스트-이미지 모델 미세 조정을 위해 설계된 고품질 텍스트-이미지 쌍 데이터셋입니다. 기존 공개 데이터셋은 이미지 이해 데이터셋, 비공식적으로 수집되거나 특정 작업에 특화된 데이터셋, 그리고 크기 제한 등 제약이 있는 경우가 많습니다. 이러한 문제를 해결하기 위해 연구팀은 기존의 고품질 데이터셋을 고급 텍스트-이미지 및 캡션 모델과 결합하고 개선하여 Text-to-Image-2M 데이터셋을 개발했습니다.
이 데이터 세트에는 약 200만 개의 샘플이 포함되어 있으며, 이는 2개의 핵심 하위 세트인 data_512_2M(512×512 해상도 이미지와 주석 200만 개)과 data_1024_10K(10,000개의 1024×1024 고해상도 이미지와 주석)로 나뉘며, 다양한 정확도 요구 사항에 맞춰 모델을 학습할 수 있는 유연한 옵션을 제공합니다.
데이터 구성:
- 데이터_512_2M:
- LLaVA-next 미세 조정 데이터 세트(약 70만 개 샘플, 텍스트는 정확도 향상을 위해 Qwen2-VL로 재생성됨)
- LLaVA 사전 학습된 데이터 세트(약 50만 개의 샘플, 이미지는 Flux-dev 모델로 생성되었으며 원본 텍스트 설명은 그대로 유지됨)
- ProGamerGov 합성 데이터 세트(약 90만 개의 샘플, 중앙에서 잘리고 유효성 필터링됨)
- GPT-4o에서 생성된 데이터 세트(100,000개 샘플, GPT-4o에서 디자인한 텍스트, Flux-dev에서 생성한 이미지)
- 데이터_1024_10K:
- GPT-4o에서 생성된 텍스트와 Flux-dev 모델에서 렌더링된 이미지를 포함하여 10,000개의 고해상도 이미지가 포함되어 있으며 풍부한 세부 정보가 있는 복잡한 장면에 초점을 맞춥니다.