HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Modal Temporal Convolutional Network zur Vorhersage von Aktionen in egozentrischen Videos

Olga Zatsarynna Yazan Abu Farha Juergen Gall

Zusammenfassung

Die Vorhersage menschlicher Handlungen ist eine zentrale Aufgabe, die für die Entwicklung zuverlässiger intelligenter Agenten – wie selbstfahrende Fahrzeuge oder Roboterassistenten – adressiert werden muss. Während die Fähigkeit, zukünftige Ereignisse mit hoher Genauigkeit vorherzusagen, entscheidend für die Gestaltung effektiver Vorhersagemethoden ist, ist auch die Geschwindigkeit der Inferenz nicht weniger wichtig. Verfahren, die zwar genau, aber nicht ausreichend schnell sind, würden eine hohe Latenz in den Entscheidungsprozess einführen und somit die Reaktionszeit des zugrundeliegenden Systems erhöhen. Dies stellt ein Problem für Anwendungsbereiche wie das autonome Fahren dar, bei denen die Reaktionszeit kritisch ist. In dieser Arbeit stellen wir eine einfache und effektive multimodale Architektur vor, die auf zeitlichen Konvolutionen basiert. Unser Ansatz baut eine Hierarchie zeitlicher konvolutionaler Schichten auf und verzichtet bewusst auf rekurrente Schichten, um eine schnelle Vorhersage zu gewährleisten. Darüber hinaus führen wir eine multimodale Fusionsmechanik ein, die paarweise Interaktionen zwischen den Modalitäten RGB, Optischer Fluss und Objekte erfasst. Ergebnisse auf zwei großen multimodalen Datensätzen egozentrischer Videos, EPIC-Kitchens-55 und EPIC-Kitchens-100, zeigen, dass unser Ansatz eine vergleichbare Leistung wie die aktuell besten Ansätze erzielt, gleichzeitig aber deutlich schneller ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multi-Modal Temporal Convolutional Network zur Vorhersage von Aktionen in egozentrischen Videos | Paper | HyperAI