MSVD-Indonesisch: Eine Referenz für multimodale Video-Text-Aufgaben auf Indonesisch

Das multimodale Lernen mit Video- und Textdaten erhält von vielen Forschern in verschiedenen Aufgabenbereichen zunehmende Aufmerksamkeit, darunter die Text-zu-Video-Retrieval, die Video-zu-Text-Retrieval und das Video-Kapionieren (video captioning). Obwohl für diese anspruchsvollen Aufgaben bereits viele Algorithmen vorgeschlagen wurden, sind die meisten davon auf englischsprachigen Datensätzen entwickelt worden. Trotz der Tatsache, dass Indonesisch eine der am häufigsten gesprochenen Sprachen der Welt ist, bleibt die Forschung zum multimodal-video-textuellen Bereich mit indonesischen Sätzen unterrepräsentiert, wahrscheinlich aufgrund des Mangels an öffentlichen Benchmark-Datensätzen. Um dieses Problem zu lösen, erstellen wir den ersten öffentlichen indonesischen Video-Text-Datensatz durch Übersetzung der englischen Sätze aus dem MSVD-Datensatz in indonesische Sätze. Mit Hilfe unseres Datensatzes trainieren wir dann neuronale Netzwerke, die ursprünglich für den englischen Video-Text-Datensatz entwickelt wurden, an drei Aufgaben: Text-zu-Video-Retrieval, Video-zu-Text-Retrieval und Video-Kapionieren.Die neuesten Ansätze zur Bearbeitung von Video-Text-Aufgaben basierend auf neuronalen Netzwerken nutzen oft einen Feature-Extractor, der hauptsächlich auf einem englischen visuellen-sprachlichen Datensatz vorab trainiert wurde. Da die Verfügbarkeit von Vorabtrainingsressourcen mit indonesischen Sätzen relativ begrenzt ist, bleibt die Anwendbarkeit dieser Ansätze auf unseren Datensatz fragwürdig. Um den Mangel an Vorabtrainingsressourcen zu überwinden, wenden wir cross-lingual Transfer Learning an, indem wir Feature-Extractors verwenden, die auf dem englischen Datensatz vorab trainiert wurden, und diese anschließend auf unserem indonesischen Datensatz feintunen. Unsere experimentellen Ergebnisse zeigen, dass dieser Ansatz dazu beitragen kann, die Leistung bei den drei Aufgaben in allen Metriken zu verbessern. Schließlich diskutieren wir potentielle zukünftige Arbeiten mit unserem Datensatz und inspirieren damit weitere Forschungen im Bereich der indonesischen multimodalen Video-Text-Aufgaben. Wir glauben, dass unser Datensatz und unsere experimentellen Ergebnisse wertvolle Beiträge zur Gemeinschaft leisten können. Unser Datensatz ist auf GitHub verfügbar.