Command Palette
Search for a command to run...
Ensemble De Données d'entraînement texte-image Text-to-Image-2M
Text-to-Image-2M est un jeu de données de haute qualité conçu pour affiner les modèles texte-image. Les jeux de données publics existants présentent souvent des limites (jeux de données de compréhension d'images, jeux de données collectés de manière informelle ou spécifiques à une tâche, et limitations de taille). Pour résoudre ces problèmes, l'équipe a combiné et amélioré des jeux de données de haute qualité existants avec des modèles avancés de conversion texte-image et de sous-titrage afin de créer le jeu de données Text-to-Image-2M.
L'ensemble de données contient environ 2 millions d'échantillons, divisés en 2 sous-ensembles principaux : data_512_2M (2 millions d'images et d'annotations de résolution 512×512) et data_1024_10K (10 000 images et annotations haute résolution 1024×1024), offrant des options flexibles pour la formation de modèles avec différentes exigences de précision.
Composition des données :
- données_512_2M:
- Ensemble de données de réglage fin LLaVA-next (environ 700 000 échantillons, le texte est régénéré par Qwen2-VL pour améliorer la précision)
- Ensemble de données pré-entraînées LLaVA (environ 500 000 échantillons, les images sont générées par le modèle Flux-dev et les descriptions textuelles originales sont conservées)
- Ensemble de données synthétiques ProGamerGov (environ 900 000 échantillons, recadrés au centre et filtrés en fonction de la validité)
- Ensemble de données généré par GPT-4o (100 000 échantillons, texte conçu par GPT-4o, images générées par Flux-dev)
- données_1024_10K:
- Contient 10 000 images haute résolution, avec du texte généré par GPT-4o et des images rendues par le modèle Flux-dev, se concentrant sur des scènes complexes avec des détails riches
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.