M³IT : Ensemble De Données De Réglage D'instructions Multi-modes Et Multi-langues
Date
il y a un an
URL de publication
Catégories
L'ensemble de données se compose de 40 ensembles de données.Cela comprend 2,4 millions d’instances et 400 instructions de tâches écrites manuellement.et reformaté en une structure visuelle en texte. L'ensemble de données compile une variété de tâches issues de tâches classiques de langage visuel, notamment le sous-titrage, la réponse visuelle aux questions (VQA), la génération conditionnelle visuelle, le raisonnement et la classification.