vor 2 Monaten

Identitätskonsistente Aggregation für die Videoobjekterkennung

Chaorui Deng; Da Chen; Qi Wu

Abstract

Im Bereich der Video-Objekterkennung (VID) ist es üblich, die reichen zeitlichen Kontexte aus dem Video zu nutzen, um die Objektrepräsentationen in jedem Frame zu verbessern. Bestehende Methoden behandeln jedoch die zeitlichen Kontexte, die von verschiedenen Objekten stammen, ununterschiedlich und ignorieren ihre unterschiedlichen Identitäten. Intuitiv könnte das Aggregieren lokaler Ansichten desselben Objekts in verschiedenen Frames eine bessere Verständnis des Objekts fördern. Daher zielt dieses Papier darauf ab, das Modell dazu zu befähigen, sich auf die identitätskonsistenten zeitlichen Kontexte jedes Objekts zu konzentrieren, um umfassendere Objektrepräsentationen zu erzielen und schnelle Änderungen im Erscheinungsbild der Objekte wie Verdeckungen oder Bewegungsunschärfe effizient zu bewältigen. Die Umsetzung dieses Ziels auf Basis bestehender VID-Modelle stößt jedoch auf Effizienzprobleme aufgrund ihrer redundanten Regionenvorschläge und nichtparallelen Frame-basierten Vorhersagemethode. Um dies zu unterstützen, schlagen wir ClipVID vor, ein VID-Modell mit speziell für das Mining feingranularer und identitätskonsistenter zeitlicher Kontexte entwickelten Identitätskonsistenz-Aggregationschichten (ICA). Es reduziert durch eine Set-Vorhersage-Strategie die Redundanzen effektiv, wodurch die ICA-Schichten sehr effizient sind und uns ermöglicht, eine Architektur zu entwerfen, die parallele Clip-basierte Vorhersagen für den gesamten Videoclip durchführt. Ausführliche experimentelle Ergebnisse belegen die Überlegenheit unserer Methode: ein Stand-der-Technik-Ergebnis (SOTA) von 84,7 % mAP auf dem ImageNet VID-Datensatz bei einer Geschwindigkeit von etwa 7-mal schneller (39,3 fps) als frühere SOTAs.