HyperAIHyperAI

Command Palette

Search for a command to run...

Wissen, wo und wann man schauen soll: Effiziente Video-Aktionsmodellierung mit Aufmerksamkeit

Juan-Manuel Perez-Rua Brais Martinez Xiatian Zhu Antoine Toisoul Victor Escorcia Tao Xiang

Zusammenfassung

Aufmerksamkeitsbasiertes Video-Modellieren ist für die Aktionserkennung in unstrukturierten Videos entscheidend, da diese reichhaltige, jedoch redundante Information über Raum und Zeit enthalten. Die Einführung von Aufmerksamkeit in tiefen neuronalen Netzen für die Aktionserkennung ist jedoch aufgrund zweier Herausforderungen schwierig. Erstens muss ein effektives Aufmerksamkeitsmodul lernen, worauf (Objekte und ihre lokalen Bewegungsmuster), wo (räumlich) und wann (zeitlich) fokussiert werden soll. Zweitens muss ein Video-Aufmerksamkeitsmodul effizient sein, da bestehende Modelle zur Aktionserkennung bereits hohe Rechenkosten verursachen. Um beide Herausforderungen zu meistern, wird ein neuartiges What-Where-When (W3)-Video-Aufmerksamkeitsmodul vorgestellt. Im Gegensatz zu bestehenden Ansätzen modelliert unser W3-Modul alle drei Aspekte der Video-Aufmerksamkeit gemeinsam. Entscheidend ist, dass es äußerst effizient ist, indem es die hochdimensionalen Video-Features in niedrigdimensionale, sinnvolle Räume faktorisiert (einen eindimensionalen Kanalvektor für „Was“ und zweidimensionale räumliche Tensoren für „Wo“), gefolgt von leichtgewichtiger zeitlicher Aufmerksamkeits-Reasoning. Umfangreiche Experimente zeigen, dass unser Aufmerksamkeitsmodell bestehende Modelle zur Aktionserkennung erheblich verbessert und auf mehreren Benchmarks neue SOTA-Leistungen erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wissen, wo und wann man schauen soll: Effiziente Video-Aktionsmodellierung mit Aufmerksamkeit | Paper | HyperAI