ChinaOpen: Ein Datensatz für offene Welt multimodale Lernverfahren

Diese Arbeit stellt ChinaOpen vor, einen Datensatz, der aus Bilibili, einer beliebten chinesischen Video-Plattform, stammt, für das offene Welt-Multimodal-Lernen. Obwohl die derzeit fortschrittlichsten Multimodal-Lernnetzwerke beeindruckende Leistungen bei der automatisierten Videoannotierung und der cross-modalen Video-Abfrage auf YouTube-Videos mit englischen Texten gezeigt haben, erfolgt ihre Trainings- und Evaluierung vorwiegend auf englischsprachigen YouTube-Daten. Ihre Wirksamkeit auf chinesischen Datensätzen bleibt bisher unüberprüft. Um das Multimodal-Lernen in diesem neuen Kontext zu unterstützen, erstellen wir ChinaOpen-50k, eine webbasiert annotierte Trainingsmenge mit 50.000 Bilibili-Videos, die mit benutzererstellten Titeln und Tags versehen sind. Sowohl textbasierte als auch inhaltbasierte Datenreinigung werden durchgeführt, um vorab niedrigwertige Videos zu entfernen. Für eine umfassende Evaluation erstellen wir ChinaOpen-1k, eine manuell annotierte Testmenge mit 1.000 Videos. Jedes Testvideo wird von einem manuell überprüften Benutzertitel und einer manuell verfassten Beschreibung begleitet. Zudem werden jeweils manuell Tags für Objekte, Aktionen und Szenen in der visuellen Inhaltsdarstellung hinzugefügt. Auch die ursprünglichen Benutzertags werden manuell validiert. Darüber hinaus werden alle chinesischen Texte ins Englische übersetzt, sodass ChinaOpen-1k auch zur Evaluierung von Modellen geeignet ist, die auf englischen Daten trainiert wurden. Neben ChinaOpen schlagen wir den Generativen Video-to-Text-Transformer (GVT) für die chinesische Video-Beschreibung vor. Wir führen eine umfassende Evaluation von aktuellen Ein- und Mehraufgaben-Modellen auf dem neuen Datensatz durch, was zu einer Reihe neuer Erkenntnisse und Einsichten führt.