vor 9 Tagen

Multi-Modal Temporal Convolutional Network zur Vorhersage von Aktionen in egozentrischen Videos

Olga Zatsarynna, Yazan Abu Farha, Juergen Gall

Abstract

Die Vorhersage menschlicher Handlungen ist eine zentrale Aufgabe, die für die Entwicklung zuverlässiger intelligenter Agenten – wie selbstfahrende Fahrzeuge oder Roboterassistenten – adressiert werden muss. Während die Fähigkeit, zukünftige Ereignisse mit hoher Genauigkeit vorherzusagen, entscheidend für die Gestaltung effektiver Vorhersagemethoden ist, ist auch die Geschwindigkeit der Inferenz nicht weniger wichtig. Verfahren, die zwar genau, aber nicht ausreichend schnell sind, würden eine hohe Latenz in den Entscheidungsprozess einführen und somit die Reaktionszeit des zugrundeliegenden Systems erhöhen. Dies stellt ein Problem für Anwendungsbereiche wie das autonome Fahren dar, bei denen die Reaktionszeit kritisch ist. In dieser Arbeit stellen wir eine einfache und effektive multimodale Architektur vor, die auf zeitlichen Konvolutionen basiert. Unser Ansatz baut eine Hierarchie zeitlicher konvolutionaler Schichten auf und verzichtet bewusst auf rekurrente Schichten, um eine schnelle Vorhersage zu gewährleisten. Darüber hinaus führen wir eine multimodale Fusionsmechanik ein, die paarweise Interaktionen zwischen den Modalitäten RGB, Optischer Fluss und Objekte erfasst. Ergebnisse auf zwei großen multimodalen Datensätzen egozentrischer Videos, EPIC-Kitchens-55 und EPIC-Kitchens-100, zeigen, dass unser Ansatz eine vergleichbare Leistung wie die aktuell besten Ansätze erzielt, gleichzeitig aber deutlich schneller ist.