HyperAIHyperAI

Command Palette

Search for a command to run...

EPIC-Fusion: Audiovisuelle zeitliche Bindung für egozentrische Aktionserkennung

Kazakos Evangelos ; Nagrani Arsha ; Zisserman Andrew ; Damen Dima

Zusammenfassung

Wir konzentrieren uns auf die multimodale Fusion für die egozentrische Aktionserkennung und schlagen eine neuartige Architektur für die multimodale zeitliche Bindung vor, d.h. die Kombination von Modalitäten innerhalb eines Bereichs von zeitlichen Verschiebungen. Die Architektur wird mit drei Modalitäten – RGB, Fluss (Flow) und Audio – trainiert und diese werden mittels einer mittelstufigen Fusion sowie einer dünnbesetzten zeitlichen Abtastung der gefusionierten Darstellungen kombiniert. Im Gegensatz zu früheren Arbeiten werden die Modalitäten vor der zeitlichen Aggregation fusioniert, wobei über die Zeit hinweg geteilte Gewichte für Modalitäten und Fusion verwendet werden. Unsere vorgeschlagene Architektur wird end-to-end trainiert und übertreffen sowohl einzelne Modalitäten als auch späte Fusion von Modalitäten.Wir zeigen die Bedeutung von Audio in der egozentrischen Vision auf klassenbasierter Ebene, sowohl für die Identifizierung von Aktionen als auch für interagierende Objekte. Unsere Methode erzielt den aktuellen Stand der Technik sowohl auf den gesehenen als auch auf den ungesehenen Testsets des größten egozentrischen Datensatzes: EPIC-Kitchens, bei allen Metriken unter Verwendung des öffentlichen Leaderboards.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp