vor 17 Tagen

Cloze-Test-Hilfe: Effektive Video-Anomalieerkennung durch Lernen, Video-Ereignisse zu vervollständigen

Guang Yu, Siqi Wang, Zhiping Cai, En Zhu, Chuanfu Xu, Jianping Yin, Marius Kloft

Abstract

Als zentrales Thema der Medieninhaltsinterpretation hat die Video-Anomalieerkennung (VAD) dank tiefen neuronalen Netzwerken (DNN) erhebliche Fortschritte gemacht. Allerdings folgen bestehende Ansätze meist einem Rekonstruktions- oder Frame-Vorhersage-Paradigma und leiden unter zwei zentralen Schwächen: (1) Sie können Videoaktivitäten weder präzise noch umfassend lokalisieren. (2) Sie verfügen über unzureichende Fähigkeiten, hochwertige semantische Informationen und zeitliche Kontextinformationen effektiv zu nutzen. Inspiriert durch den häufig in der Sprachforschung eingesetzten Cloze-Test, stellen wir eine neuartige VAD-Lösung namens Video Event Completion (VEC) vor, um diese Lücken zu schließen: Erstens schlagen wir eine innovative Pipeline vor, die sowohl präzise als auch umfassende Lokalisierung von Videoaktivitäten ermöglicht. Dabei werden Erscheinungsbild und Bewegung als sich ergänzende Hinweise genutzt, um Regionen von Interesse (RoIs) zu identifizieren. Aus jeder RoI wird ein normalisierter räumlich-zeitlicher Würfel (STC) konstruiert, der als Video-Event fungiert und die Grundlage für VEC bildet sowie als grundlegende Verarbeitungseinheit dient. Zweitens fördern wir die Fähigkeit des DNN, hochwertige Semantik zu erfassen, indem wir es dazu bringen, einen visuellen Cloze-Test zu lösen. Dazu wird ein bestimmter Patch aus dem STC entfernt, wodurch ein unvollständiger Event (IE) entsteht. Das DNN lernt nun, den ursprünglichen Video-Event aus dem IE durch Schätzung des fehlenden Patches wiederherzustellen. Drittens wird ein zusätzliches DNN trainiert, um die optische Flussinformation der entfernten Patches zu inferieren, um reichhaltigere Bewegungsdynamik einzubeziehen. Schließlich werden zwei Ensemble-Strategien vorgeschlagen, die unterschiedliche Arten von unvollständigen Events und Modalitäten nutzen, um die Leistung der VAD weiter zu steigern und somit den zeitlichen Kontext sowie multimodale Informationen optimal auszunutzen. VEC übertrifft auf gängigen VAD-Benchmarks konstant die derzeit besten Methoden mit einer bemerkenswerten Lücke (typischerweise 1,5 % bis 5 % AUROC). Unsere Codes und Ergebnisse können auf github.com/yuguangnudt/VEC_VAD überprüft werden.