TASED-Net: Netzwerk zur zeitlichen Aggregation von räumlichen Encodern und Decodern für die Erkennung von Video-Salienz

TASED-Net ist eine 3D-vollkonvolutionelle Netzwerkarchitektur für die Erkennung von Video-Salienz. Sie besteht aus zwei Bausteinen: zum einen extrahiert das Encoder-Netzwerk räumlich-zeitliche Merkmale mit niedriger Auflösung aus einem Eingabesequenz bestehend aus mehreren aufeinanderfolgenden Bildern, und zum anderen dekodiert das nachfolgende Vorhersagenetzwerk diese kodierten Merkmale räumlich, während es alle zeitlichen Informationen aggregiert. Das Ergebnis ist eine einzelne Vorhersagekarte, die aus einer Eingabesequenz mit mehreren Bildern generiert wird. Rahmensequentielle Salienzkarten können durch Anwendung von TASED-Net in gleitendem Fenstermodus auf ein Video vorhergesagt werden. Der vorgeschlagene Ansatz geht davon aus, dass die Salienzkarte eines beliebigen Bildes unter Berücksichtigung einer begrenzten Anzahl von vergangenen Bildern vorhergesagt werden kann. Die Ergebnisse unserer umfangreichen Experimente zur Video-Salienz-Erkennung bestätigen diese Annahme und zeigen, dass unser vollkonvolutionelles Modell mit der Methode der zeitlichen Aggregation wirksam ist. TASED-Net übertrifft die bisher besten Verfahren auf allen drei großen Video-Salienz-Datensätzen – DHF1K, Hollywood2 und UCFSports – erheblich. Nach einer qualitativen Analyse der Ergebnisse stellen wir fest, dass unser Modell insbesondere bei der Fokussierung auf bewegte Salienzobjekte überlegen ist.