TDN: Temporale Differenznetzwerke für eine effiziente Aktionserkennung

Die zeitliche Modellierung bleibt weiterhin eine Herausforderung für die Aktionserkennung in Videos. Um dieses Problem zu mildern, präsentieren wir in diesem Artikel eine neue Videoarchitektur namens Temporal Difference Network (TDN), die sich darauf konzentriert, multiskalare zeitliche Informationen effizient zu erfassen, um die Aktionserkennung zu verbessern. Der Kern unserer TDN besteht darin, einen effizienten zeitlichen Modul (Temporal Difference Module, TDM) zu entwerfen, indem explizit ein zeitlicher Differenzoperator genutzt wird, und dessen Einfluss auf die Modellierung kurzfristiger und langfristiger Bewegungen systematisch zu bewerten. Um die zeitliche Information über das gesamte Video hinweg vollständig erfassen zu können, basiert unsere TDN auf einem zweistufigen Differenzmodellierungsparadigma. Genauer gesagt wird für die lokale Bewegungsmodellierung die zeitliche Differenz zwischen aufeinanderfolgenden Frames verwendet, um 2D-CNNs feinere Bewegungsmuster zur Verfügung zu stellen, während für die globale Bewegungsmodellierung die zeitliche Differenz über Segmente integriert wird, um langreichweitige Strukturen zur Anregung von Bewegungsmerkmalen zu erfassen. Die TDN bietet einen einfachen und konsistenten Rahmen für die zeitliche Modellierung und kann mit bestehenden CNNs mit nur geringem zusätzlichen Rechenaufwand implementiert werden. Unser TDN erreicht eine neue State-of-the-Art-Leistung auf den Something-Something V1 & V2-Datensätzen und ist mit der besten Leistung auf dem Kinetics-400-Datensatz vergleichbar. Darüber hinaus führen wir umfassende Ablationsstudien durch und stellen visuelle Ergebnisse unserer TDN dar, um wertvolle Einblicke in die zeitliche Differenzmodellierung zu liefern. Den Quellcode stellen wir unter https://github.com/MCG-NJU/TDN zur Verfügung.