Hochordnungstensor-Pooling mit Aufmerksamkeit für die Aktionserkennung

Wir streben die Erfassung von Hochordnungsstatistiken von durch ein neuronales Netzwerk generierten Merkmalsvektoren an und schlagen eine end-to-end-basierte zweite- und höherordentliche Pooling-Methode vor, um einen Tensor-Deskriptor zu bilden. Tensor-Deskriptoren erfordern eine robuste Ähnlichkeitsmaßnahme, da die Anzahl aggregierter Vektoren gering ist und das Phänomen der Burstiness auftritt, bei dem ein bestimmter Merkmalwert häufiger oder seltener vorkommt als statistisch erwartet. Der Wärme-Diffusions-Prozess (Heat Diffusion Process, HDP) auf einem Graph-Laplacian steht in enger Beziehung zur Eigenwert-Power-Normalisierung (Eigenvalue Power Normalization, EPN) der Kovarianz-/Autokorrelationsmatrix, deren Inverse einen geschlossenen (loopy) Graph-Laplacian bildet. Wir zeigen, dass sowohl der HDP als auch die EPN dieselbe Funktion erfüllen, nämlich die Stärke des Eigenwertspektrums zu verstärken oder zu dämpfen, um die Burstiness zu verhindern. Wir versehen höhere Ordnungstensoren mit der EPN, die als spektraler Detektor höherer Ordnung des Auftretens fungiert, um Burstiness zu vermeiden. Außerdem beweisen wir, dass für einen Tensor der Ordnung r, der aus d-dimensionalen Merkmalsdeskriptoren aufgebaut ist, ein solcher Detektor die Wahrscheinlichkeit angibt, falls mindestens ein höherordentliches Auftreten „projiziert“ in einen der (\binom{d}{r}) Unterräume eingebettet ist, die vom Tensor repräsentiert werden; dadurch entsteht eine Tensor-Power-Normalisierungsmetrik, die mit (\binom{d}{r}) solchen „Detektoren“ ausgestattet ist. In experimentellen Beiträgen wenden wir mehrere Varianten zweiter- und höherordentlicher Pooling-Methoden auf die Aktionserkennung an, liefern bisher nicht veröffentlichte Vergleiche dieser Pooling-Varianten und erzielen state-of-the-art-Ergebnisse auf den Datensätzen HMDB-51, YUP++ und MPII Cooking Activities.