HyperAIHyperAI
vor 18 Tagen

WIT: Wikipedia-basiertes Bild-Text-Datensatz für multimodale multilinguale maschinelles Lernen

Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork
WIT: Wikipedia-basiertes Bild-Text-Datensatz für multimodale multilinguale maschinelles Lernen
Abstract

Die durch tiefes Repräsentationslernen und Vortrainingsverfahren erzielten Meilensteine haben erhebliche Leistungssteigerungen bei nachgeschalteten Aufgaben im Bereich der natürlichen Sprachverarbeitung (NLP), Informationssuche (IR) und Computer Vision ermöglicht. Multimodale Modellierungstechniken zielen darauf ab, große, hochwertige visuo-linguistische Datensätze zu nutzen, um ergänzende Informationen über die Modalitäten Bild und Text zu lernen. In diesem Paper stellen wir die auf Wikipedia basierende Image-Text-Datenbank (WIT-Dataset, https://github.com/google-research-datasets/wit) vor, um multimodales, mehrsprachiges Lernen besser zu fördern. Das WIT-Dataset besteht aus einer sorgfältig ausgewählten Sammlung von 37,6 Millionen entitätenreichen Bild-Text-Beispielen mit 11,5 Millionen einzigartigen Bildern in 108 verschiedenen Wikipedia-Sprachen. Seine Größe ermöglicht es, das Dataset als Vortrainingsdatensatz für multimodale Modelle zu nutzen, wie wir anhand von Anwendungen auf nachgeschaltete Aufgaben wie die Bild-Text-Recherche zeigen. Das WIT-Dataset weist vier wesentliche und einzigartige Vorteile auf. Erstens ist WIT mit dreifach mehr Bild-Text-Beispielen die größte multimodale Datensammlung dieser Art (zum Zeitpunkt der Niederschrift). Zweitens ist WIT massiv mehrsprachig (erste ihrer Art) mit Abdeckung von über 100 Sprachen (jede verfügt über mindestens 12.000 Beispiele) und liefert mehrsprachige Texte für viele Bilder. Drittens repräsentiert WIT eine vielfältigere Palette an Konzepten und realen Entitäten im Vergleich zu früheren Datensätzen. Schließlich bietet WIT eine besonders anspruchsvolle Testmenge für reale Weltanwendungen, wie wir empirisch anhand einer Bild-Text-Recherche-Aufgabe belegen.