Extraktion von Inter-Video-Vorschlags-Beziehungen für die Video-Objektdetektion

Neuere Studien haben gezeigt, dass die Berücksichtigung von Kontextinformationen aus Vorschlägen in verschiedenen Frames die Leistung von Video-Objekterkennung deutlich verbessern kann. Allerdings nutzen diese Ansätze hauptsächlich die innerhalb einzelner Videos bestehenden Beziehungen zwischen Vorschlägen, während sie die innerhalb von verschiedenen Videos bestehenden Beziehungen zwischen Vorschlägen vernachlässigen, welche wichtige diskriminative Hinweise für die Erkennung verwirrender Objekte liefern können. Um diesen Limitierung zu begegnen, schlagen wir einen neuen Inter-Video-Vorschlag-Beziehung-Modul (Inter-Video Proposal Relation Module) vor. Auf Basis eines kompakten mehrstufigen Dreier-Selektionsansatzes kann dieser Modul effektive Objektrepräsentationen durch Modellierung der Beziehungen zwischen anspruchsvollen Vorschlägen aus verschiedenen Videos erlernen. Darüber hinaus entwerfen wir ein hierarchisches Video-Beziehungsnetzwerk (Hierarchical Video Relation Network, HVR-Net), indem wir innerhalb- und zwischen-Video-Vorschlagsbeziehungen hierarchisch integrieren. Diese Architektur ermöglicht es, schrittweise sowohl intra- als auch inter-Video-Kontextinformationen auszunutzen, um die Video-Objekterkennung zu verbessern. Wir evaluieren unsere Methode am großen Video-Objekterkennungsbenchmark ImageNet VID, wo HVR-Net SOTA-Ergebnisse erzielt. Die Codes und Modelle werden anschließend veröffentlicht.