GateHUB: Gated History Unit mit Hintergrundunterdrückung für die Online-Erkennung von Aktionen

Die Online-Aktionserkennung ist die Aufgabe, eine Aktion so schnell wie möglich in einem laufenden Video zu erkennen. Eine der größten Herausforderungen besteht darin, dass das Modell keinen Zugang zur Zukunft hat und sich ausschließlich auf die Vergangenheit stützen muss, d.h. auf die bisher beobachteten Frames, um Vorhersagen zu treffen. Es ist daher wichtig, Teile der Vergangenheit hervorzuheben, die für die Vorhersage des aktuellen Frames besonders informativ sind. Wir stellen GateHUB vor, ein neues Modell mit gattergesteuerter historischer Einheit und Hintergrundunterdrückung (Gated History Unit with Background Suppression), das einen innovativen positionsgesteuerten gattergesteuerten Cross-Attention-Mechanismus verwendet, um Teile der Vergangenheit zu verstärken oder zu unterdrücken, je nachdem, wie informativ sie für die Vorhersage des aktuellen Frames sind. GateHUB schlägt zudem Future-augmented History (FaH) vor, um durch die Verwendung subsequently observed frames (nachfolgender Frames) bei deren Verfügbarkeit die historischen Features informativer zu gestalten. In einem einheitlichen Framework integriert GateHUB sowohl die Fähigkeit des Transformers zur langfristigen zeitlichen Modellierung als auch die Kapazität rekurrenter Modelle, relevante Informationen selektiv zu kodieren. GateHUB führt außerdem ein Ziel zur Hintergrundunterdrückung ein, um falsch positive Hintergrundframes weiter zu reduzieren, die dem Aktionframe sehr ähnlich sind. Umfangreiche Validierungen an drei Benchmark-Datensätzen – THUMOS, TVSeries und HDD – zeigen, dass GateHUB alle existierenden Methoden erheblich übertrifft und zudem effizienter als das bisher beste Werk ist. Darüber hinaus erreicht eine flussfreie Version von GateHUB bei einer 2.8-fach höheren Framerate eine höhere oder vergleichbare Genauigkeit im Vergleich zu allen existierenden Methoden, die sowohl RGB- als auch optische Flussinformationen für Vorhersagen benötigen.