Ausnutzung mehrerer Sequenzlängen bei schnellem End-to-End-Training für Bildbeschreibung

Wir stellen eine Methode namens Expansion-Mechanismus vor, die die Eingabe verarbeitet, ohne durch die Anzahl der Elemente in der Sequenz eingeschränkt zu sein. Auf diese Weise kann das Modell effektiver lernen als herkömmliche auf Aufmerksamkeit basierende Ansätze. Um diese Behauptung zu untermauern, entwickeln wir eine neuartige Architektur, ExpansionNet v2, die starke Ergebnisse beim MS COCO 2014 Image Captioning-Wettbewerb erzielt und die State-of-the-Art-Leistung in ihrer Kategorie erreicht: 143,7 CIDErD im offline Testsplit, 140,8 CIDErD im Online-Evaluierungsserver und 72,9 AllCIDEr auf dem nocaps Validierungsset. Zudem führen wir einen End-to-End-Trainingsalgorithmus ein, der bis zu 2,8-mal schneller ist als etablierte Alternativen. Quellcode verfügbar unter: https://github.com/jchenghu/ExpansionNet_v2