Video-Salienz erneut betrachtet: Eine umfangreiche Benchmark-Studie und ein neues Modell

In dieser Arbeit leisten wir zwei wesentliche Beiträge zur Forschung über Video-Salienz. Erstens führen wir eine neue Benchmark für die Vorhersage von menschlichen Augenbewegungen während der freien Betrachtung dynamischer Szenen ein, was seit langem in diesem Bereich gefordert wurde. Unser Datensatz, benannt DHF1K (Dynamic Human Fixation), besteht aus 1.000 hochwertigen, sorgfältig ausgewählten Videosequenzen, die eine große Vielfalt an Szenen, Bewegungen, Objekttypen und Hintergrundkomplexität abdecken. Bestehende Video-Salienz-Datensätze fehlen an Vielfalt und Allgemeingültigkeit von üblichen dynamischen Szenen und sind nicht in der Lage, herausfordernde Situationen in unbeschränkten Umgebungen zu erfassen. Im Gegensatz dazu macht DHF1K einen signifikanten Sprung hinsichtlich Skalierbarkeit, Vielfalt und Schwierigkeit und soll die Modellierung von Video-Salienz erheblich fördern.Zweitens schlagen wir ein neues Video-Salienz-Modell vor, das die CNN-LSTM-Netzarchitektur durch einen Aufmerksamkeitsmechanismus ergänzt, um schnelles, end-to-end Salienzlernen zu ermöglichen. Der Aufmerksamkeitsmechanismus kodiert statische Salienzinformationen explizit, wodurch LSTM sich auf das Lernen flexibler zeitlicher Salienzdarstellungen über aufeinanderfolgende Frames konzentrieren kann. Diese Designentscheidung nutzt vollständig bestehende groß angelegte statische Fixationsdatensätze aus, vermeidet Overfitting und verbessert erheblich Trainings-effizienz und Testleistung. Wir untersuchen die Leistung unseres Modells gründlich im Vergleich zu den besten aktuellen Salienzmodellen anhand dreier groß angelegter Datensätze (nämlich DHF1K, Hollywood2 und UCF Sports). Experimentelle Ergebnisse an mehr als 1.200 Testvideos mit 400.000 Frames zeigen, dass unser Modell anderen Konkurrenten überlegen ist.