Command Palette
Search for a command to run...
Ensemble De Données image-texte Multimodal VL3-Syn7M
Date
Taille
URL de l'article
L'ensemble de données VL3-Syn7M est un ensemble de données image-texte de haute qualité publié par Alibaba DAMO Academy en 2025. Il vise à aider le modèle de base multimodal de pointe VideoLLaMA3 pour la compréhension vidéo à réaliser des progrès significatifs dans la compréhension multimodale. Les résultats pertinents de l'étude sont les suivants :VideoLLaMA 3 : Modèles multimodaux de base pour la compréhension des images et des vidéosL'ensemble de données contient des annotations fines multidimensionnelles, notamment des légendes détaillées d'images, des légendes courtes et des informations sur la source des images. Il couvre divers types de données, telles que des images de scènes, des images de documents et des images de texte, fournissant ainsi au modèle un matériel riche pour l'apprentissage d'informations multimodales. Ces données de haute qualité constituent un support précieux pour la recherche approfondie sur la compréhension sémantique des images et l'optimisation des systèmes d'interaction multimodaux, et favorisent le développement de secteurs connexes tels que les assistants visuels intelligents, les outils de compréhension de documents et l'interaction robotique guidée par l'image.
Caractéristiques principales
- Grande échelle de données : contient 7 millions d'images et les annotations correspondantes, fournissant des échantillons massifs pour la formation du modèle, répondant pleinement aux besoins des modèles complexes pour les données à grande échelle et contribuant à améliorer la capacité du modèle à comprendre diverses scènes visuelles et sémantiques.
- Les sources de données sont vastes : les images de scènes proviennent de plusieurs ensembles de données différents tels que Object365 et SA-1B, ce qui augmente considérablement la diversité des données ; les images de texte de scène proviennent de BLIP3-OCR ; Les images de documents sont sélectionnées à partir de pdfa-eng-wds et idl-wds, etc. La large gamme de sources de données garantit que les données couvrent un contenu visuel et des scènes riches et diversifiés, ce qui peut améliorer la capacité du modèle à généraliser et à comprendre différents types d'images.
- Haute qualité d'annotation : les sous-titres courts sont générés par InternVL2-8B et les sous-titres détaillés sont complétés par InternVL2-26B et contiennent une grande quantité de données en texte brut. Les annotations de légende de haute qualité fournissent des conseils précis au modèle pour apprendre l'association entre les images et le texte, tandis que les données en texte brut aident à améliorer la capacité du modèle à gérer les instructions suivant les tâches impliquant des entrées visuelles et textuelles.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.