Wo ein starker Backbone auf starke Features trifft – ActionFormer für die Ego4D Moment Queries Herausforderung

Dieser Bericht beschreibt unsere Einreichung für die Ego4D Moment Queries Challenge 2022. Unsere Lösung basiert auf ActionFormer, dem aktuellen Stand der Technik für die zeitliche Aktionslokalisierung, sowie auf einem Dreier-Set leistungsstarker Videofeatures aus SlowFast, Omnivore und EgoVLP. Unser Ansatz erreicht mit 21,76 % durchschnittlichem mAP auf dem Testset den zweiten Platz auf dem öffentlichen Leaderboard – das entspricht fast einem Dreifachen des offiziellen Baselines. Zudem erzielen wir eine Recall@1x von 42,54 % bei tIoU = 0,5 auf dem Testset und schlagen damit die führende Lösung mit einem signifikanten Abstand von 1,41 absoluten Prozentpunkten. Der Quellcode ist unter https://github.com/happyharrycn/actionformer_release verfügbar.