Nachbarschaftsbeziehungen sind bei der Video-Szenenerkennung von Bedeutung

Die Video-Szenenerkennung zielt darauf ab, Szenen durch zeitliche Verknüpfung von Aufnahmeszenen (shots) zu identifizieren, wobei semantisch kompakte Szenen entstehen sollen. Für diese Aufgabe ist es entscheidend, die zwischen den Szenen unterscheidbaren Affinitäten der Aufnahmeszenen durch eine Ähnlichkeitsbewertung zu erfassen. Die meisten bestehenden Methoden stützen sich jedoch auf herkömmliche, shot-zu-shot-Ähnlichkeiten, die dazu führen können, dass ähnliche Szenen fälschlicherweise miteinander verknüpft werden, selbst wenn sie aus unterschiedlichen Szenen stammen, während gleichzeitig unähnliche Szenen daran gehindert werden, zu einer vollständigen Szene zusammengefasst zu werden. In diesem Artikel stellen wir NeighborNet vor, ein Ansatz, der durch gezielte Analyse der Beziehungen zwischen semantischen und zeitlichen Nachbarn von Aufnahmeszenen innerhalb eines lokalen Zeitintervalls Kontextinformationen in die shot-zu-shot-Ähnlichkeiten integriert. Auf diese Weise werden die ursprünglichen shot-zu-shot-Ähnlichkeiten neu gemessen als semantik- und zeitnahheitsbewusste Ähnlichkeiten, sodass NeighborNet mittels eines Graphen-Convolutional Networks (GCN) Kontextinformationen in die Shot-Features einbetten kann. Dadurch werden die gelernten Shot-Features nicht nur die Affinität zwischen ähnlichen Szenen aus verschiedenen Szenen unterdrückt, sondern auch die Affinität zwischen unähnlichen Szenen innerhalb derselben Szene verstärkt. Experimentelle Ergebnisse auf öffentlichen Benchmark-Datensätzen zeigen, dass unser vorgeschlagenes NeighborNet erhebliche Verbesserungen bei der Video-Szenenerkennung erzielt und insbesondere die veröffentlichten State-of-the-Art-Methoden um mindestens 6 % im Average Precision (AP) übertrifft. Der Quellcode ist unter https://github.com/ExMorgan-Alter/NeighborNet verfügbar.