HyperAIHyperAI

Command Palette

Search for a command to run...

Dichtes Regressionsnetzwerk für Video-Grounding

Zeng Runhao ; Xu Haoming ; Huang Wenbing ; Chen Peihao ; Tan Mingkui ; Gan Chuang

Zusammenfassung

Wir behandeln das Problem der Video-Grundierung anhand natürlichsprachlicher Abfragen. Die Hauptausforderung bei dieser Aufgabe besteht darin, dass ein Trainingsvideo möglicherweise nur wenige annotierte Anfangs- und Endbilder enthält, die als positive Beispiele für das Modelltraining verwendet werden können. Die meisten herkömmlichen Ansätze trainieren einen binären Klassifikator direkt mit solchen unbalancierten Daten, wodurch sie unterdurchschnittliche Ergebnisse erzielen. Der Kerngedanke dieses Papers ist es, die Abstände zwischen den Bildern innerhalb der Grundwahrheit und dem Anfangs- (End-)bild als dichte Supervisions zu verwenden, um die Genauigkeit der Video-Grundierung zu verbessern. Insbesondere entwickeln wir ein neues dichtes Regressionsnetzwerk (DRN), um die Abstände von jedem Bild zum Anfangs- (End-)bild des durch die Abfrage beschriebenen Videosegments zu regredieren. Darüber hinaus schlagen wir ein einfaches, aber effektives IoU-Regressionskopfmodul vor, um die Lokalisierungsqualität der Grundierungsresultate explizit zu berücksichtigen (d.h., den IoU zwischen der vorhergesagten Position und der Grundwahrheit). Experimentelle Ergebnisse zeigen, dass unser Ansatz auf drei Datensätzen (nämlich Charades-STA, ActivityNet-Captions und TACoS) signifikant bessere Ergebnisse als der Stand der Technik erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp