Command Palette
Search for a command to run...
Ensemble De Données d'images Et De Textes Multimodaux CapsFusion-120M

Cet ensemble de données est un ensemble de données multimodales d'images et de textes lancé par l'Université Tsinghua et BAAI en 2024. Résultats de l'article « CapsFusion : repenser les données image-texte à grande échelle »Il a été accepté par le CVPR 2024.
Cet ensemble de données est une ressource de haute qualité qui peut être utilisée pour une pré-formation multimodale à grande échelle. Cette version comprend les légendes correspondantes des ensembles de données LAION-2B et LAION-COCO, facilitant l'analyse comparative et d'autres études approfondies sur la qualité des données image-texte.
Chaque entrée de données comporte quatre champs :
- URL de l'image
- Titre LAION-2B (texte alternatif original du Web)
- Sous-titres LAION-COCO (synthétisés par BLIP)
- Titre CapsFusion (Équipe de recherche)
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.