HyperAIHyperAI
il y a 18 jours

WIT : Jeu de données d'images et de textes basé sur Wikipedia pour l'apprentissage automatique multimodal multilingue

Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork
WIT : Jeu de données d'images et de textes basé sur Wikipedia pour l'apprentissage automatique multimodal multilingue
Résumé

Les progrès marquants apportés par les techniques d’apprentissage profond de représentations et de pré-entraînement ont permis d’obtenir des gains significatifs de performance sur diverses tâches en traitement du langage naturel (NLP), recherche d’information (IR) et vision par ordinateur. Les méthodes de modélisation multimodale visent à exploiter de grandes bases de données de haute qualité combinant données visuelles et linguistiques afin d’apprendre des informations complémentaires entre les modalités image et texte. Dans cet article, nous présentons le jeu de données Wikipedia-based Image Text (WIT) (https://github.com/google-research-datasets/wit), conçu pour mieux soutenir l’apprentissage multimodal et multilingue. WIT se compose d’un ensemble soigneusement sélectionné de 37,6 millions d’exemples image-texte riches en entités, incluant 11,5 millions d’images uniques réparties sur 108 langues Wikipedia. Sa taille considérable permet de l’utiliser comme jeu de données d’entraînement préalable pour des modèles multimodaux, comme nous le démontrons dans des tâches downstream telles que la récupération image-texte. WIT présente quatre avantages principaux et uniques. Premièrement, WIT est actuellement le plus grand jeu de données multimodale en nombre d’exemples image-texte, avec un volume trois fois supérieur à celui des jeux de données précédents (au moment de la rédaction). Deuxièmement, WIT est massivement multilingue (premier jeu de données de ce type), couvrant plus de 100 langues (chaque langue disposant d’au moins 12 000 exemples) et offrant des textes multilingues pour de nombreuses images. Troisièmement, WIT représente un ensemble plus diversifié de concepts et d’entités du monde réel par rapport aux jeux de données antérieurs. Enfin, WIT fournit un ensemble de tests réalistes et particulièrement exigeants, comme nous l’illustrons empiriquement à travers une tâche de récupération image-texte.