HyperAIHyperAI
vor 15 Tagen

BasicTAD: eine erstaunliche RGB-allein-basierte Baseline für die zeitliche Aktionsdetektion

Min Yang, Guo Chen, Yin-Dong Zheng, Tong Lu, Limin Wang
BasicTAD: eine erstaunliche RGB-allein-basierte Baseline für die zeitliche Aktionsdetektion
Abstract

Die zeitliche Aktionsdetektion (Temporal Action Detection, TAD) wird in der Gemeinschaft des Videoverstehens umfassend untersucht, wobei üblicherweise die Pipeline der Objektdetektion in Bildern als Grundlage dient. Dennoch sind in der TAD häufig komplexe Architekturen zu beobachten, wie beispielsweise zweistrombasierte Merkmalsextraktion, mehrstufiges Training, komplexe zeitliche Modellierung und die Fusion globaler Kontextinformationen. In diesem Artikel zielen wir nicht darauf ab, eine neue Technik für die TAD einzuführen. Stattdessen untersuchen wir einen einfachen, direkten und dennoch grundlegenden Baseline, da die derzeitige TAD-Forschung durch komplizierte Designs und geringe Detektionsgeschwindigkeit gekennzeichnet ist. In unserem einfachen Baseline (namens BasicTAD) zerlegen wir die TAD-Pipeline in mehrere wesentliche Komponenten: Datensampling, Backbone-Architektur, Neck-Struktur und Detektionskopf. Wir untersuchen ausführlich die bestehenden Techniken innerhalb jeder dieser Komponenten und stellen insbesondere die end-to-end-Trainingsoptimierung über die gesamte Pipeline dank der einfachen Architektur sicher. Als Ergebnis erzielt dieser einfache BasicTAD eine beeindruckende und in Echtzeit arbeitende RGB-allein-Baseline, die nahe an den derzeitigen State-of-the-Art-Methoden mit zweistromigen Eingaben liegt. Darüber hinaus verbessern wir BasicTAD durch eine bessere Erhaltung von zeitlichen und räumlichen Informationen in der Netzwerkrepräsentation (benannt als PlusTAD). Empirische Ergebnisse zeigen, dass unser PlusTAD äußerst effizient ist und die vorherigen Methoden erheblich auf den Datensätzen THUMOS14 und FineAction übertrifft. Zudem führen wir eine detaillierte Visualisierung und Fehleranalyse unserer Methode durch und versuchen, tiefere Einblicke in die Herausforderungen der TAD-Problematik zu liefern. Unser Ansatz kann als ein starker Baseline für zukünftige TAD-Forschung dienen. Der Quellcode und die Modelle werden unter https://github.com/MCG-NJU/BasicTAD veröffentlicht.

BasicTAD: eine erstaunliche RGB-allein-basierte Baseline für die zeitliche Aktionsdetektion | Neueste Forschungsarbeiten | HyperAI