DeepVS: Ein auf Deep Learning basierender Ansatz zur Vorhersage von Video-Salienz

In diesem Paper stellen wir eine neuartige, auf tiefen Lernverfahren basierende Methode zur Vorhersage von Video-Salienz vor, die als DeepVS bezeichnet wird. Konkret etablieren wir eine großskalige Augenverfolgungs-Datenbank für Videos (LEDOV), die Fixationen von 32 Probanden auf insgesamt 538 Videos enthält. Aus der LEDOV-Datenbank ergibt sich, dass menschliche Aufmerksamkeit stärker von Objekten angezogen wird, insbesondere von bewegten Objekten oder bewegten Teilen von Objekten. Dementsprechend entwickeln wir ein Objekt-zu-Bewegung-Convolutional Neural Network (OM-CNN), um die intra-frame Salienz für DeepVS vorherzusagen. Das OM-CNN besteht aus zwei Unternetzen: einem Objekt-Netzwerk (Objectness-Subnet) und einem Bewegungs-Netzwerk (Motion-Subnet). Im OM-CNN werden ein Cross-Net-Mask-Verfahren sowie eine hierarchische Merkmalsnormalisierung vorgeschlagen, um räumliche Merkmale aus dem Objectness-Subnet und zeitliche Merkmale aus dem Motion-Subnet effektiv zu kombinieren. Weitere Analysen unserer Datenbank zeigen zudem eine zeitliche Korrelation der menschlichen Aufmerksamkeit mit einem glatten Übergang der Salienz zwischen den Videoframes. Basierend darauf schlagen wir ein salienzstrukturiertes convolutionales Long Short-Term Memory-Netzwerk (SS-ConvLSTM) vor, das die aus dem OM-CNN extrahierten Merkmale als Eingabe verwendet. Dadurch können inter-frame Salienzkarten generiert werden, die sowohl eine strukturierte Ausgabe mit Zentrum-Bias als auch die zeitlichen Übergänge der menschlichen Aufmerksamkeitskarten berücksichtigen. Abschließend zeigen die experimentellen Ergebnisse, dass DeepVS die bisher beste Leistung in der Vorhersage von Video-Salienz erreicht.