HyperAIHyperAI
vor 17 Tagen

TransVOD: Ende-zu-Ende Video-Objekterkennung mit räumlich-zeitlichen Transformers

Qianyu Zhou, Xiangtai Li, Lu He, Yibo Yang, Guangliang Cheng, Yunhai Tong, Lizhuang Ma, Dacheng Tao
TransVOD: Ende-zu-Ende Video-Objekterkennung mit räumlich-zeitlichen Transformers
Abstract

Detection Transformer (DETR) und Deformable DETR wurden vorgeschlagen, um die Notwendigkeit vieler handgezeichneter Komponenten im Objektdetektionsprozess zu eliminieren, während sie gleichzeitig eine gute Leistung gegenüber früheren komplexen, handkurierten Detektoren zeigen. Ihre Leistung im Bereich der Video-Objektdetektion (Video Object Detection, VOD) wurde jedoch bisher noch nicht ausreichend erforscht. In diesem Artikel präsentieren wir TransVOD, das erste end-to-end-System für Video-Objektdetektion, das auf räumlich-zeitlichen Transformer-Architekturen basiert. Ziel dieses Werkes ist es, den VOD-Pipeline-Prozess zu vereinfachen und die Notwendigkeit vieler handgezeichneter Komponenten zur Merkmalsaggregation – beispielsweise optischer Flussmodelle oder Relationsnetzwerke – effektiv zu eliminieren. Darüber hinaus profitiert unsere Methode dank des Objekt-Query-Entwurfs in DETR von komplizierten Nachbearbeitungsmethoden wie Seq-NMS nicht mehr. Insbesondere stellen wir einen zeitlichen Transformer vor, der sowohl die räumlichen Objekt-Queries als auch die Merkmals-Speicher jeder Frame aggregiert. Unser zeitlicher Transformer besteht aus zwei Komponenten: dem Temporal Query Encoder (TQE), der die Objekt-Queries fusioniert, und dem Temporal Deformable Transformer Decoder (TDTD), der die Detektionsergebnisse für den aktuellen Frame generiert. Diese Architektur steigert die Leistung der starken Baseline Deformable DETR auf dem ImageNet VID-Datensatz signifikant um 3–4 % mAP. Anschließend stellen wir zwei verbesserte Varianten von TransVOD vor: TransVOD++ und TransVOD Lite. Ersteres integriert objektbezogene Informationen in die Objekt-Queries mittels dynamischer Faltung, während letzteres den gesamten Videoclip als Ausgabe modelliert, um die Inferenzgeschwindigkeit zu erhöhen. In der experimentellen Analyse geben wir eine detaillierte Bewertung aller drei Modelle. Insbesondere erreicht unser vorgeschlagenes TransVOD++ mit 90,0 % mAP einen neuen SOTA-Wert (state-of-the-art) hinsichtlich Genauigkeit auf ImageNet VID. TransVOD Lite erzielt zudem die bestmögliche Balance zwischen Geschwindigkeit und Genauigkeit mit 83,7 % mAP bei einer Geschwindigkeit von etwa 30 FPS auf einer einzelnen V100-GPU.