HyperAIHyperAI
vor 3 Monaten

TGBFormer: Transformer-GraphFormer-Mischer-Netzwerk für die Video-Objekterkennung

Qiang Qi, Xiao Wang
TGBFormer: Transformer-GraphFormer-Mischer-Netzwerk für die Video-Objekterkennung
Abstract

Die Video-Objektdetektion hat in den letzten Jahren erhebliche Fortschritte dank konvolutioneller neuronaler Netze (CNNs) und Vision-Transformer (ViTs) gemacht. Typischerweise überzeugen CNNs bei der Erfassung lokaler Merkmale, sind jedoch eingeschränkt in der Modellierung globaler Darstellungen. Im Gegensatz dazu sind ViTs besonders gut darin, langreichweitige globale Merkmale zu erfassen, stoßen jedoch bei der Darstellung feiner lokaler Merkmalsdetails auf Schwierigkeiten. Derzeitige Ansätze zur Video-Objektdetektion stützen sich ausschließlich auf CNNs oder ViTs zur Merkmalsaggregation, was ihre Fähigkeit einschränkt, globale und lokale Informationen gleichzeitig effektiv zu nutzen, was wiederum zu begrenzter Detektionsleistung führt. In diesem Artikel stellen wir ein Transformer-GraphFormer-Blender-Netzwerk (TGBFormer) für die Video-Objektdetektion vor, das drei zentrale technische Verbesserungen umfasst, um die Vorteile von Transformatoren und Graph-Convolutional Networks (GCNs) voll auszunutzen und gleichzeitig deren Schwächen zu kompensieren. Erstens entwickeln wir ein räumlich-zeitliches Transformer-Modul zur Aggregation globaler Kontextinformationen, das globale Darstellungen mit langreichweitigen Merkmalsabhängigkeiten bildet. Zweitens führen wir ein räumlich-zeitliches GraphFormer-Modul ein, das lokale räumliche und zeitliche Beziehungen nutzt, um Merkmale zu aggregieren und neue lokale Darstellungen zu erzeugen, die ergänzend zu den Transformer-Ausgaben sind. Drittens entwerfen wir ein global-lokales Merkmals-Blender-Modul, das die transformerbasierten globalen Darstellungen und die GraphFormer-basierten lokalen Darstellungen adaptiv verknüpft. Umfangreiche Experimente zeigen, dass unser TGBFormer neue SOTA-Ergebnisse auf dem ImageNet VID-Datensatz erzielt. Insbesondere erreicht unser TGBFormer eine mAP von 86,5 % bei einer Geschwindigkeit von etwa 41,0 FPS auf einer einzigen Tesla A100-GPU.