Temporale RoI-Align für die Video-Objekterkennung

Die Objektdetektion in Videos ist herausfordernd, wenn bestimmte Videoframes eine Verschlechterung der Erscheinungsqualität aufweisen. Daher ist es naheliegend, zeitliche Informationen aus anderen Frames des gleichen Videos in den aktuellen Frame zu integrieren. Allerdings bleibt RoI Align, einer der zentralen Bausteine von Video-Detektoren, weiterhin darauf beschränkt, Merkmale aus einer einzigen Frame-Merkmalskarte für Vorschläge zu extrahieren, wodurch die abgerufenen RoI-Merkmale zeitliche Informationen aus dem Video vermissen. In dieser Arbeit wird ein neuartiger Temporal RoI Align-Operator vorgestellt, der unter Berücksichtigung der hohen Ähnlichkeit der Merkmale derselben Objektinstanz über mehrere Frames hinweg Merkmale aus den Merkmalskarten anderer Frames für die Vorschläge des aktuellen Frames mithilfe von Merkmalsimilarität extrahiert. Der vorgeschlagene Temporal RoI Align-Operator ermöglicht es, zeitliche Informationen aus dem gesamten Video für die Vorschläge zu gewinnen. Wir integrieren ihn in Einzelbild-Video-Detektoren sowie in andere state-of-the-art-Video-Detektoren und führen quantitative Experimente durch, die belegen, dass der vorgeschlagene Temporal RoI Align-Operator die Leistung konsistent und signifikant verbessert. Zudem lässt sich der vorgeschlagene Temporal RoI Align-Operator auch auf die Video-Instanzsegmentierung anwenden. Der Quellcode ist unter https://github.com/open-mmlab/mmtracking verfügbar.