Sequenz-Level-Semantische Aggregation für die Video-Objekt-Erkennung

Die Video-Objekterkennung (VID) ist in den letzten Jahren eine aufstrebende Forschungsrichtung geworden. Ein zentrales Problem der VID ist die Verschlechterung des Erscheinungsbildes von Videobildern aufgrund schneller Bewegungen. Dieses Problem ist für ein einzelnes Bild im Wesentlichen nicht gut gestellt. Daher wird die Aggregation von Merkmalen aus anderen Bildern zu einer natürlichen Wahl. Bestehende Methoden basieren stark auf optischem Fluss oder rekurrenten neuronalen Netzen zur Merkmalsaggregation. Diese Ansätze legen jedoch mehr den Schwerpunkt auf zeitlich nahe liegende Bilder. In dieser Arbeit argumentieren wir, dass die Aggregation von Merkmalen auf Sequenzenebene zu diskriminierenderen und robusteren Merkmalen für die Video-Objekterkennung führen wird. Um dieses Ziel zu erreichen, entwickeln wir ein neuartiges Modul zur Sequenzenebene-Semantik-Aggregation (SELSA). Wir zeigen ferner die enge Beziehung zwischen der vorgeschlagenen Methode und der klassischen Spektralclustering-Methode, was einen neuen Blickwinkel für das Verständnis des VID-Problems bietet. Wir testen die vorgeschlagene Methode anhand des ImageNet VID-Datensatzes und des EPIC KITCHENS-Datensatzes und erzielen neue Stand der Technik-Ergebnisse (state-of-the-art results). Unser Verfahren benötigt keine komplizierten Nachbearbeitungsmethoden wie Seq-NMS oder Tubelet-Werteanpassung, wodurch der Workflow einfach und übersichtlich bleibt.