vor 8 Monaten

Zusammenfassung

Wir konzentrieren uns auf die multimodale Fusion für die egozentrische Aktionserkennung und schlagen eine neuartige Architektur für die multimodale zeitliche Bindung vor, d.h. die Kombination von Modalitäten innerhalb eines Bereichs von zeitlichen Verschiebungen. Die Architektur wird mit drei Modalitäten – RGB, Fluss (Flow) und Audio – trainiert und diese werden mittels einer mittelstufigen Fusion sowie einer dünnbesetzten zeitlichen Abtastung der gefusionierten Darstellungen kombiniert. Im Gegensatz zu früheren Arbeiten werden die Modalitäten vor der zeitlichen Aggregation fusioniert, wobei über die Zeit hinweg geteilte Gewichte für Modalitäten und Fusion verwendet werden. Unsere vorgeschlagene Architektur wird end-to-end trainiert und übertreffen sowohl einzelne Modalitäten als auch späte Fusion von Modalitäten.Wir zeigen die Bedeutung von Audio in der egozentrischen Vision auf klassenbasierter Ebene, sowohl für die Identifizierung von Aktionen als auch für interagierende Objekte. Unsere Methode erzielt den aktuellen Stand der Technik sowohl auf den gesehenen als auch auf den ungesehenen Testsets des größten egozentrischen Datensatzes: EPIC-Kitchens, bei allen Metriken unter Verwendung des öffentlichen Leaderboards.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Aktionserkennung

Multimodal

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Kazakos Evangelos ; Nagrani Arsha ; Zisserman Andrew ; Damen Dima

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Aktionserkennung

Multimodal

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Kazakos Evangelos ; Nagrani Arsha ; Zisserman Andrew ; Damen Dima

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

EPIC-Fusion: Audiovisuelle zeitliche Bindung für egozentrische Aktionserkennung | Paper | HyperAI

Command Palette

EPIC-Fusion: Audiovisuelle zeitliche Bindung für egozentrische Aktionserkennung

Kazakos Evangelos ; Nagrani Arsha ; Zisserman Andrew ; Damen Dima

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

EPIC-Fusion: Audiovisuelle zeitliche Bindung für egozentrische Aktionserkennung

Kazakos Evangelos ; Nagrani Arsha ; Zisserman Andrew ; Damen Dima

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

EPIC-Fusion: Audiovisuelle zeitliche Bindung für egozentrische Aktionserkennung

Kazakos Evangelos ; Nagrani Arsha ; Zisserman Andrew ; Damen Dima

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters