vor 6 Monaten

Zusammenfassung

Die zeitliche Aktionsdetektion (Temporal Action Detection, TAD) zielt darauf ab, für jede Aktionsinstanz in einem ungeschnittenen Video sowohl die semantische Bezeichnung als auch das zeitliche Intervall zu bestimmen. Es handelt sich um eine grundlegende und herausfordernde Aufgabe im Bereich der Videoverstehens. Bisherige Ansätze bearbeiten diese Aufgabe mittels komplexer, mehrstufiger Pipelines. Häufig müssen mehrere Netzwerke trainiert werden, und es werden handkodierte Operationen wie die nicht-maximale Unterdrückung (non-maximal suppression) oder die Generierung von Anchors eingesetzt, was die Flexibilität einschränkt und eine end-to-end-Lernung verhindert. In diesem Artikel stellen wir eine end-to-end-Transformer-basierte Methode für die TAD vor, die als TadTR bezeichnet wird. Ausgehend von einer kleinen Menge lernbarer Embeddings, sogenannter Aktionsabfragen (action queries), extrahiert TadTR adaptiv zeitliche Kontextinformationen aus dem Video für jede Abfrage und prognostiziert direkt Aktionsinstanzen auf Basis dieses Kontextes. Um den Transformer für die TAD besser geeignet zu machen, schlagen wir drei Verbesserungen vor, um die Lokalitätsbewusstsein zu stärken. Kernstück ist ein zeitlich deformierbarer Aufmerksamkeitsmodul (temporal deformable attention), der selektiv auf eine spärliche Menge von Schlüssel-Snippets in einem Video fokussiert. Zusätzlich wurden eine Segmentverfeinerungsmechanismus und ein Actionness-Regression-Kopf entworfen, um jeweils die Grenzen und die Zuverlässigkeit der prognostizierten Instanzen zu verfeinern. Durch diese einfache Pipeline erfordert TadTR geringeren Rechenaufwand als frühere Detektoren und erreicht gleichzeitig bemerkenswerte Leistung. Als eigenständiger Detektor erzielt TadTR die bisher beste Performance auf THUMOS14 (56,7 % mAP) und HACS Segments (32,09 % mAP). In Kombination mit einem zusätzlichen Aktionsklassifikator erreicht es 36,75 % mAP auf ActivityNet-1.3. Der Quellcode ist unter https://github.com/xlliu7/TadTR verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Xiaolong Liu Qimeng Wang Yao Hu Xu Tang Shiwei Zhang Song Bai Xiang Bai

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Xiaolong Liu Qimeng Wang Yao Hu Xu Tang Shiwei Zhang Song Bai Xiang Bai

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

End-to-End Temporale Aktionsdetektion mit Transformer

Xiaolong Liu Qimeng Wang Yao Hu Xu Tang Shiwei Zhang Song Bai Xiang Bai

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

End-to-End Temporale Aktionsdetektion mit Transformer

Xiaolong Liu Qimeng Wang Yao Hu Xu Tang Shiwei Zhang Song Bai Xiang Bai

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

End-to-End Temporale Aktionsdetektion mit Transformer

Xiaolong Liu Qimeng Wang Yao Hu Xu Tang Shiwei Zhang Song Bai Xiang Bai

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters