Temporale Rekurrente Netze für die Online-Erkennung von Aktionen

Die meisten Arbeiten zur zeitlichen Aktionserkennung werden als Offline-Problem formuliert, bei dem die Start- und Endzeiten von Aktionen erst nach vollständiger Beobachtung des gesamten Videos bestimmt werden. Allerdings erfordern wichtige Echtzeit-Anwendungen wie Überwachungssysteme und Fahrerassistenzsysteme die Identifizierung von Aktionen so schnell wie möglich, sobald jeder Video-Frame eintrifft, und zwar ausschließlich auf der Grundlage aktueller und historischer Beobachtungen. In dieser Arbeit schlagen wir einen neuen Ansatz vor, das Temporal Recurrent Network (TRN), um den zeitlichen Kontext eines Video-Frames durch gleichzeitiges Online-Aktionsdetektion und Vorhersage der unmittelbaren Zukunft besser zu modellieren. Zu jedem Zeitpunkt nutzt unser Ansatz sowohl akkumulierte historische Beweise als auch vorhergesagte zukünftige Informationen, um die aktuell stattfindende Aktion besser zu erkennen, und integriert beides in eine einheitliche End-to-End-Architektur. Wir evaluieren unseren Ansatz anhand zweier beliebter Datensätze für Online-Aktionsdetektion, HDD und TVSeries, sowie einem weiteren weit verbreiteten Datensatz, THUMOS'14. Die Ergebnisse zeigen, dass TRN den aktuellen Stand der Technik signifikant übertrifft.