HyperAIHyperAI
vor 17 Tagen

Temporale Kontextaggregation für die Video-Abfrage mit kontrastivem Lernen

Jie Shao, Xin Wen, Bingchen Zhao, Xiangyang Xue
Temporale Kontextaggregation für die Video-Abfrage mit kontrastivem Lernen
Abstract

Der aktuelle Forschungsschwerpunkt im Bereich der contentbasierten Video-Abfrage erfordert hochwertige Video-Repräsentationen, die langfristige semantische Abhängigkeiten relevanter Ereignisse, Vorfälle usw. präzise beschreiben. Bisherige Methoden verarbeiten die Frames eines Videos jedoch häufig als einzelne Bilder oder kurze Clips, wodurch die Modellierung solcher langfristigen semantischen Zusammenhänge erschwert wird. In diesem Artikel stellen wir TCA (Temporal Context Aggregation for Video Retrieval) vor, einen Rahmen für die Lernung von Video-Repräsentationen, der mithilfe der Selbst-Attention-Mechanismen zeitliche Informationen über längere Zeiträume zwischen framebasierten Merkmalen integriert. Um TCA auf Video-Abfrage-Datensätzen zu trainieren, schlagen wir eine überwachte kontrastive Lernmethode vor, die automatisch schwierige negative Beispiele identifiziert und die Memory-Bank-Mechanismen nutzt, um die Kapazität der negativen Stichproben zu erhöhen. Umfassende Experimente werden auf mehreren Video-Abfrage-Aufgaben durchgeführt, darunter CC_WEB_VIDEO, FIVR-200K und EVVE. Das vorgeschlagene Verfahren erreicht gegenüber aktuellen State-of-the-Art-Methoden mit video-basierten Merkmalen eine signifikante Leistungssteigerung (etwa +17 % mAP auf FIVR-200K) und liefert gleichzeitig konkurrenzfähige Ergebnisse bei einer 22-fach schnelleren Inferenzzeit im Vergleich zu framebasierten Merkmalen.