Hierarchische Feature-Aggregationsnetzwerke für die Aktionserkennung in Videos

Die meisten Aktionserkennungsmethoden basieren entweder a) auf einer späten Aggregation von CNN-Features auf Frame-Ebene mithilfe von Durchschnittspooling, Max-Pooling oder RNN, unter anderem, oder b) auf einer räumlich-zeitlichen Aggregation durch 3D-Faltungen. Die erste Gruppe nimmt eine gewisse Unabhängigkeit zwischen Frame-Features an und führt dann eine höhere Aggregation durch, während die zweite Gruppe räumlich-zeitliche Features aus gruppierten Frames als frühe Fusion extrahiert. In dieser Arbeit untersuchen wir den Raum zwischen diesen beiden Ansätzen, indem wir es benachbarten Feature-Zweigen ermöglichen, sich beim Entwickeln der höheren Repräsentation zu beeinflussen. Diese Interaktion findet auf jeder Hierarchieebene zwischen Feature-Differenzierung und -Durchschnittsbildung statt und hat eine faltungsbasierte Struktur, die lernt, den geeigneten Modus lokal zu selektieren, im Gegensatz zu früheren Arbeiten, die einen der Modi global (z.B. Feature-Differenzierung) als Designentscheidung vorschreiben. Wir beschränken diese Interaktion weiterhin darauf, konservativ zu sein; zum Beispiel wird eine lokale Feature-Subtraktion in einem Zweig durch eine Addition in einem anderen kompensiert, so dass der gesamte Featurefluss erhalten bleibt. Wir bewerten die Leistung unseres Vorschlags anhand mehrerer bestehender Modelle, nämlich TSN (Temporal Segment Network), TRN (Temporal Relation Network) und ECO (Efficient Convolutional Network), um seine Flexibilität und Effektivität bei der Verbesserung der Aktionserkennungsleistung zu demonstrieren.