Einfache versus komplexe zeitliche Rekurrenzen für die Vorhersage von Video-Salienz

Diese Arbeit untersucht die Modifizierung einer existierenden neuronalen Netzwerkarchitektur für die statische Salienzvorhersage durch die Integration von Informationen aus dem zeitlichen Bereich mittels zweier Arten von Rekurrenzen. Die erste Modifikation besteht in der Hinzufügung eines ConvLSTM innerhalb der Architektur, während die zweite eine konzeptionell einfache exponentielle gleitende Mittelung eines internen Faltungsstatus ist. Wir verwenden Gewichte, die auf dem SALICON-Datensatz vortrainiert wurden, und feinjustieren unser Modell anhand des DHF1K-Datensatzes. Unsere Ergebnisse zeigen, dass beide Modifikationen den aktuellen Stand der Technik erreichen und ähnliche Salienzkarten erzeugen. Der Quellcode ist unter https://git.io/fjPiB verfügbar.