Verschiebung des Fokus auf die Video-Salient-Object-Detection

Das letzte Jahrzehnt hat ein wachsendes Interesse an der Erkennung auffälliger Objekte in Videos (VSOD) gezeigt. Doch die Forschungsgemeinschaft litt lange Zeit unter dem Fehlen eines etablierten VSOD-Datensatzes, der realistische dynamische Szenen mit hochwertigen Annotationen repräsentativ abbildet. Um dieses Problem anzugehen, haben wir systematisch einen visuell-attentiven, dicht annotierten Datensatz namens DAVSOD (Densely Annotated VSOD) zusammengestellt, der 226 Videos mit insgesamt 23.938 Frames umfasst und eine Vielzahl realistischer Szenen, Objekte, Instanzen und Bewegungen abdeckt. Durch die Kombination mit realen menschlichen Augenfixierungsdaten erhalten wir präzise Ground-Truth-Daten. Dies ist die erste Arbeit, die explizit die Herausforderung des Saliency-Shifts betont, also die dynamische Veränderung des auffälligen Objekts oder der auffälligen Objekte innerhalb eines Videos. Um der Gemeinschaft einen umfassenden Benchmark zur Verfügung zu stellen, bewerten wir systematisch 17 repräsentative VSOD-Algorithmen über sieben bestehende VSOD-Datensätze sowie unseren DAVSOD-Datensatz mit insgesamt 84.000 Frames (größter Datensatz dieser Art). Unter Verwendung dreier bekannter Metriken präsentieren wir eine umfassende und tiefgehende Leistungsanalyse. Darüber hinaus stellen wir ein Basismodell vor, das über einen saliency-shift-orientierten convLSTM verfügt, welcher die Dynamik der Video-Saliency effizient durch das Lernen menschlicher Aufmerksamkeitsverschiebungen erfassen kann. Umfangreiche Experimente eröffnen vielversprechende neue Wege für die Weiterentwicklung und Bewertung von Modellen.