HyperAIHyperAI
vor 17 Tagen

Untersuchung zeitlicher Hinweise zur Verbesserung der Videoretrieval auf standardisierten CDVA

{Yukyung Choi, Joungil Yun, Joonsoo Kim, Guentaek Lim, Won Jo}
Abstract

Mit der zunehmenden Nachfrage nach großskaliger Videoanalyse wird auch die Forschung im Bereich der Video-Abfrage zunehmend aktiver. 2014 begann die ISO/IEC MPEG mit der Standardisierung kompakter Deskriptoren für die Videoanalyse, bekannt als CDVA (Compact Descriptors for Video Analysis), die mittlerweile als Standard anerkannt ist. Allerdings ist der standardisierte CDVA aufgrund der nicht öffentlich zugänglichen MPEG-CDVA-Datenbank, die zur Leistungsverifikation verwendet wird, nur schwer mit anderen Methoden vergleichbar, obwohl laufende Nachfolgestudien mehrere Versionen des CDVA-Experimentiermodells umfassen. Zudem sind die Analysen der einzelnen Module im CDVA-Framework in vorherigen Arbeiten unzureichend. Daher führen wir eine eigenständige Evaluierung von CDVA durch, um den Einfluss jedes Moduls auf die Abfragetaufgabe zu analysieren. Um die durch diese Eigenbewertungen identifizierten Herausforderungen zu überwinden, schlagen wir eine zeitliche verschachtelte Invarianz-Pooling-Methode vor, abgekürzt als TNIP (Temporal Nested Invariance Pooling). Diese Methode zielt darauf ab, eine zeitliche Robustheit zu erreichen, indem die verschachtelte Invarianz-Pooling-Methode (NIP – Nested Invariance Pooling), eine der zentralen Merkmale von CDVA, verbessert wird. Schließlich stellen wir Benchmarks sowohl für die bestehende CDVA-Implementierung als auch für den vorgeschlagenen Ansatz auf mehreren öffentlichen Datensätzen bereit. Auf diese Weise zeigen wir, dass der CDVA-Framework die Abfrageleistung signifikant steigern kann, wenn der vorgeschlagene Ansatz eingesetzt wird.