HyperAIHyperAI
vor 17 Tagen

DSANet: Dynamic Segment Aggregation Network für die Video-Level-Repräsentationslernen

Wenhao Wu, Yuxiang Zhao, Yanwu Xu, Xiao Tan, Dongliang He, Zhikang Zou, Jin Ye, Yingying Li, Mingde Yao, Zichao Dong, Yifeng Shi
DSANet: Dynamic Segment Aggregation Network für die Video-Level-Repräsentationslernen
Abstract

Langzeit- und Kurzzeit-zeitliche Modellierung sind zwei ergänzende und entscheidende Aspekte der Videobewertung. Die meisten aktuellen State-of-the-Art-Methoden konzentrieren sich auf die Kurzzeit-zeitliche räumlich-zeitliche Modellierung und mitteln anschließend mehrere Snippet-basierte Vorhersagen, um die endgültige videobasierte Vorhersage zu erzielen. Dadurch berücksichtigt ihre videobasierte Vorhersage jedoch nicht die räumlich-zeitlichen Merkmale, die beschreiben, wie sich ein Video entlang der zeitlichen Dimension entwickelt. In diesem Artikel stellen wir ein neuartiges Dynamic Segment Aggregation (DSA)-Modul vor, das Beziehungen zwischen Snippets erfassen kann. Genauer gesagt versuchen wir, einen dynamischen Kernel für eine Faltungsoperation zu generieren, um langfristige zeitliche Informationen zwischen benachbarten Snippets adaptiv zu aggregieren. Das DSA-Modul ist ein effizientes Plug-and-Play-Modul, das nahtlos mit existierenden clip-basierten Modellen (z. B. TSM, I3D) kombiniert werden kann, um leistungsstarke Langzeitmodellierung mit minimalen zusätzlichen Kosten zu ermöglichen. Die resultierende Gesamtarchitektur wird als DSANet bezeichnet. Wir führen umfangreiche Experimente auf mehreren Benchmarks für Videobewertung durch (z. B. Mini-Kinetics-200, Kinetics-400, Something-Something V1 und ActivityNet), um die Überlegenheit unseres Ansatzes zu demonstrieren. Unser vorgeschlagenes DSA-Modul zeigt sich als signifikant förderlich für eine Vielzahl von Videobewertungsmodellen. So steigert sich beispielsweise die Top-1-Accuracy von I3D ResNet-50 auf Kinetics-400 von 74,9 % auf 78,2 %, wenn das DSA-Modul integriert wird. Der Quellcode ist unter https://github.com/whwu95/DSANet verfügbar.