HyperAIHyperAI
vor 2 Monaten

EPIC-Fusion: Audiovisuelle zeitliche Bindung für egozentrische Aktionserkennung

Kazakos, Evangelos ; Nagrani, Arsha ; Zisserman, Andrew ; Damen, Dima
EPIC-Fusion: Audiovisuelle zeitliche Bindung für egozentrische Aktionserkennung
Abstract

Wir konzentrieren uns auf die multimodale Fusion für die egozentrische Aktionserkennung und schlagen eine neuartige Architektur für die multimodale zeitliche Bindung vor, d.h. die Kombination von Modalitäten innerhalb eines Bereichs von zeitlichen Verschiebungen. Die Architektur wird mit drei Modalitäten – RGB, Fluss (Flow) und Audio – trainiert und diese werden mittels einer mittelstufigen Fusion sowie einer dünnbesetzten zeitlichen Abtastung der gefusionierten Darstellungen kombiniert. Im Gegensatz zu früheren Arbeiten werden die Modalitäten vor der zeitlichen Aggregation fusioniert, wobei über die Zeit hinweg geteilte Gewichte für Modalitäten und Fusion verwendet werden. Unsere vorgeschlagene Architektur wird end-to-end trainiert und übertreffen sowohl einzelne Modalitäten als auch späte Fusion von Modalitäten.Wir zeigen die Bedeutung von Audio in der egozentrischen Vision auf klassenbasierter Ebene, sowohl für die Identifizierung von Aktionen als auch für interagierende Objekte. Unsere Methode erzielt den aktuellen Stand der Technik sowohl auf den gesehenen als auch auf den ungesehenen Testsets des größten egozentrischen Datensatzes: EPIC-Kitchens, bei allen Metriken unter Verwendung des öffentlichen Leaderboards.

EPIC-Fusion: Audiovisuelle zeitliche Bindung für egozentrische Aktionserkennung | Neueste Forschungsarbeiten | HyperAI