HyperAIHyperAI

Command Palette

Search for a command to run...

Cloze-Test-Hilfe: Effektive Video-Anomalieerkennung durch Lernen, Video-Ereignisse zu vervollständigen

Guang Yu Siqi Wang Zhiping Cai En Zhu Chuanfu Xu Jianping Yin Marius Kloft

Zusammenfassung

Als zentrales Thema der Medieninhaltsinterpretation hat die Video-Anomalieerkennung (VAD) dank tiefen neuronalen Netzwerken (DNN) erhebliche Fortschritte gemacht. Allerdings folgen bestehende Ansätze meist einem Rekonstruktions- oder Frame-Vorhersage-Paradigma und leiden unter zwei zentralen Schwächen: (1) Sie können Videoaktivitäten weder präzise noch umfassend lokalisieren. (2) Sie verfügen über unzureichende Fähigkeiten, hochwertige semantische Informationen und zeitliche Kontextinformationen effektiv zu nutzen. Inspiriert durch den häufig in der Sprachforschung eingesetzten Cloze-Test, stellen wir eine neuartige VAD-Lösung namens Video Event Completion (VEC) vor, um diese Lücken zu schließen: Erstens schlagen wir eine innovative Pipeline vor, die sowohl präzise als auch umfassende Lokalisierung von Videoaktivitäten ermöglicht. Dabei werden Erscheinungsbild und Bewegung als sich ergänzende Hinweise genutzt, um Regionen von Interesse (RoIs) zu identifizieren. Aus jeder RoI wird ein normalisierter räumlich-zeitlicher Würfel (STC) konstruiert, der als Video-Event fungiert und die Grundlage für VEC bildet sowie als grundlegende Verarbeitungseinheit dient. Zweitens fördern wir die Fähigkeit des DNN, hochwertige Semantik zu erfassen, indem wir es dazu bringen, einen visuellen Cloze-Test zu lösen. Dazu wird ein bestimmter Patch aus dem STC entfernt, wodurch ein unvollständiger Event (IE) entsteht. Das DNN lernt nun, den ursprünglichen Video-Event aus dem IE durch Schätzung des fehlenden Patches wiederherzustellen. Drittens wird ein zusätzliches DNN trainiert, um die optische Flussinformation der entfernten Patches zu inferieren, um reichhaltigere Bewegungsdynamik einzubeziehen. Schließlich werden zwei Ensemble-Strategien vorgeschlagen, die unterschiedliche Arten von unvollständigen Events und Modalitäten nutzen, um die Leistung der VAD weiter zu steigern und somit den zeitlichen Kontext sowie multimodale Informationen optimal auszunutzen. VEC übertrifft auf gängigen VAD-Benchmarks konstant die derzeit besten Methoden mit einer bemerkenswerten Lücke (typischerweise 1,5 % bis 5 % AUROC). Unsere Codes und Ergebnisse können auf github.com/yuguangnudt/VEC_VAD überprüft werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp