Wissen, wo und wann man schauen soll: Effiziente Video-Aktionsmodellierung mit Aufmerksamkeit

Aufmerksamkeitsbasiertes Video-Modellieren ist für die Aktionserkennung in unstrukturierten Videos entscheidend, da diese reichhaltige, jedoch redundante Information über Raum und Zeit enthalten. Die Einführung von Aufmerksamkeit in tiefen neuronalen Netzen für die Aktionserkennung ist jedoch aufgrund zweier Herausforderungen schwierig. Erstens muss ein effektives Aufmerksamkeitsmodul lernen, worauf (Objekte und ihre lokalen Bewegungsmuster), wo (räumlich) und wann (zeitlich) fokussiert werden soll. Zweitens muss ein Video-Aufmerksamkeitsmodul effizient sein, da bestehende Modelle zur Aktionserkennung bereits hohe Rechenkosten verursachen. Um beide Herausforderungen zu meistern, wird ein neuartiges What-Where-When (W3)-Video-Aufmerksamkeitsmodul vorgestellt. Im Gegensatz zu bestehenden Ansätzen modelliert unser W3-Modul alle drei Aspekte der Video-Aufmerksamkeit gemeinsam. Entscheidend ist, dass es äußerst effizient ist, indem es die hochdimensionalen Video-Features in niedrigdimensionale, sinnvolle Räume faktorisiert (einen eindimensionalen Kanalvektor für „Was“ und zweidimensionale räumliche Tensoren für „Wo“), gefolgt von leichtgewichtiger zeitlicher Aufmerksamkeits-Reasoning. Umfangreiche Experimente zeigen, dass unser Aufmerksamkeitsmodell bestehende Modelle zur Aktionserkennung erheblich verbessert und auf mehreren Benchmarks neue SOTA-Leistungen erzielt.