LSTA: Long Short-Term Attention für die Erkennung egozentrischer Aktionen

Die Erkennung egozentrischer Aktivitäten ist eine der anspruchsvollsten Aufgaben bei der Videoanalyse. Sie erfordert eine feingranulare Diskriminierung kleiner Objekte und ihrer Manipulation. Während einige Methoden auf starker Überwachung und Aufmerksamkeitsmechanismen basieren, sind sie entweder sehr aufwendig in Bezug auf Annotation oder berücksichtigen räumlich-zeitliche Muster nicht. In dieser Arbeit schlagen wir LSTA vor als Mechanismus, um sich auf Merkmale aus räumlich relevanten Bereichen zu konzentrieren, während die Aufmerksamkeit über die Videosequenz hinweg glatt verfolgt wird. Wir zeigen die Effektivität von LSTA bei der Erkennung egozentrischer Aktivitäten mit einer end-to-end trainierbaren Two-Stream-Architektur (zweistromarchitektur), wobei wir den Stand der Technik auf vier Standard-Benchmarks erreichen.