Dichtes Regressionsnetzwerk für Video-Grounding

Wir behandeln das Problem der Video-Grundierung anhand natürlichsprachlicher Abfragen. Die Hauptausforderung bei dieser Aufgabe besteht darin, dass ein Trainingsvideo möglicherweise nur wenige annotierte Anfangs- und Endbilder enthält, die als positive Beispiele für das Modelltraining verwendet werden können. Die meisten herkömmlichen Ansätze trainieren einen binären Klassifikator direkt mit solchen unbalancierten Daten, wodurch sie unterdurchschnittliche Ergebnisse erzielen. Der Kerngedanke dieses Papers ist es, die Abstände zwischen den Bildern innerhalb der Grundwahrheit und dem Anfangs- (End-)bild als dichte Supervisions zu verwenden, um die Genauigkeit der Video-Grundierung zu verbessern. Insbesondere entwickeln wir ein neues dichtes Regressionsnetzwerk (DRN), um die Abstände von jedem Bild zum Anfangs- (End-)bild des durch die Abfrage beschriebenen Videosegments zu regredieren. Darüber hinaus schlagen wir ein einfaches, aber effektives IoU-Regressionskopfmodul vor, um die Lokalisierungsqualität der Grundierungsresultate explizit zu berücksichtigen (d.h., den IoU zwischen der vorhergesagten Position und der Grundwahrheit). Experimentelle Ergebnisse zeigen, dass unser Ansatz auf drei Datensätzen (nämlich Charades-STA, ActivityNet-Captions und TACoS) signifikant bessere Ergebnisse als der Stand der Technik erzielt.