PTSEFormer: Progressive Temporal-Spatial Enhanced TransFormer für die Video-Objekterkennung

In den letzten Jahren hat sich ein Trend abgezeichnet, kontextuelle Rahmen (context frames) zur Verbesserung der Leistung von Objektdetektionssystemen im Bereich der Video-Objektdetektion einzusetzen. Bisherige Ansätze aggregieren in der Regel die Merkmale in einem einzigen Schritt, um die Merkmalsrepräsentation zu verstärken. Diese Methoden verfügen jedoch oft über einen Mangel an räumlicher Information aus benachbarten Frames und leiden unter einer unzureichenden Merkmalsaggregation. Um diese Probleme anzugehen, führen wir einen progressiven Ansatz ein, um sowohl zeitliche als auch räumliche Informationen integriert zu nutzen, um die Merkmale zu verbessern. Die zeitliche Information wird durch ein Temporales Merkmalsaggregationsmodell (Temporal Feature Aggregation Model, TFAM) eingeführt, das eine Aufmerksamkeitsmechanik zwischen den Kontextframes und dem Zielframe (d. h. dem Frame, der detektiert werden soll) durchführt. Gleichzeitig nutzen wir ein Spatial Transition Awareness Model (STAM), um die Positionsübertragungsinformationen zwischen jedem Kontextframe und dem Zielframe zu übermitteln. Aufbauend auf einem Transformer-basierten Detektor (DETR) folgt unser PTSEFormer ebenfalls einem end-to-end-Ansatz, um aufwändige Nachbearbeitungsprozeduren zu vermeiden, während gleichzeitig eine mAP von 88,1 % auf dem ImageNet VID-Datensatz erreicht wird. Der Quellcode ist unter https://github.com/Hon-Wong/PTSEFormer verfügbar.