HyperAIHyperAI

Command Palette

Search for a command to run...

TGBFormer: Transformer-GraphFormer-Mischer-Netzwerk für die Video-Objekterkennung

Qiang Qi Xiao Wang

Zusammenfassung

Die Video-Objektdetektion hat in den letzten Jahren erhebliche Fortschritte dank konvolutioneller neuronaler Netze (CNNs) und Vision-Transformer (ViTs) gemacht. Typischerweise überzeugen CNNs bei der Erfassung lokaler Merkmale, sind jedoch eingeschränkt in der Modellierung globaler Darstellungen. Im Gegensatz dazu sind ViTs besonders gut darin, langreichweitige globale Merkmale zu erfassen, stoßen jedoch bei der Darstellung feiner lokaler Merkmalsdetails auf Schwierigkeiten. Derzeitige Ansätze zur Video-Objektdetektion stützen sich ausschließlich auf CNNs oder ViTs zur Merkmalsaggregation, was ihre Fähigkeit einschränkt, globale und lokale Informationen gleichzeitig effektiv zu nutzen, was wiederum zu begrenzter Detektionsleistung führt. In diesem Artikel stellen wir ein Transformer-GraphFormer-Blender-Netzwerk (TGBFormer) für die Video-Objektdetektion vor, das drei zentrale technische Verbesserungen umfasst, um die Vorteile von Transformatoren und Graph-Convolutional Networks (GCNs) voll auszunutzen und gleichzeitig deren Schwächen zu kompensieren. Erstens entwickeln wir ein räumlich-zeitliches Transformer-Modul zur Aggregation globaler Kontextinformationen, das globale Darstellungen mit langreichweitigen Merkmalsabhängigkeiten bildet. Zweitens führen wir ein räumlich-zeitliches GraphFormer-Modul ein, das lokale räumliche und zeitliche Beziehungen nutzt, um Merkmale zu aggregieren und neue lokale Darstellungen zu erzeugen, die ergänzend zu den Transformer-Ausgaben sind. Drittens entwerfen wir ein global-lokales Merkmals-Blender-Modul, das die transformerbasierten globalen Darstellungen und die GraphFormer-basierten lokalen Darstellungen adaptiv verknüpft. Umfangreiche Experimente zeigen, dass unser TGBFormer neue SOTA-Ergebnisse auf dem ImageNet VID-Datensatz erzielt. Insbesondere erreicht unser TGBFormer eine mAP von 86,5 % bei einer Geschwindigkeit von etwa 41,0 FPS auf einer einzigen Tesla A100-GPU.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp