HyperAIHyperAI
vor 2 Monaten

Gruppenkontextualisierung für die Videobearbeitung

Hao, Yanbin ; Zhang, Hao ; Ngo, Chong-Wah ; He, Xiangnan
Gruppenkontextualisierung für die Videobearbeitung
Abstract

Das Lernen diskriminativer Repräsentationen aus dem komplexen räumlich-zeitlichen Dynamikraum ist für die Videokennung von entscheidender Bedeutung. Aufbauend auf diesen stilisierten räumlich-zeitlichen Berechnungseinheiten hat sich gezeigt, dass die weitere Verfeinerung der gelernten Merkmale durch axiale Kontexte vielversprechend ist, um dieses Ziel zu erreichen. Allerdings konzentrieren sich frühere Arbeiten im Allgemeinen darauf, einen einzelnen Kontexttyp zur Kalibrierung aller Merkmalskanäle zu nutzen, was es schwierig macht, vielfältige Videoaktivitäten zu bearbeiten. Dieses Problem kann durch die Verwendung paarweiser räumlich-zeitlicher Aufmerksamkeiten gelöst werden, um die Merkmalsantwort mit kreuzaxialen Kontexten neu zu berechnen, jedoch auf Kosten hoher Berechnungen. In dieser Arbeit schlagen wir eine effiziente Merkmalsverfeinerungsmethode vor, die die Merkmalskanäle in mehrere Gruppen zerlegt und diese parallel mit verschiedenen axialen Kontexten getrennt verfeinert. Wir bezeichnen diese leichte Merkmalkalibrierung als Gruppenkontextualisierung (GC). Insbesondere entwerfen wir eine Reihe effizienter elementweiser Kalibrierer, nämlich ECal-G/S/T/L, deren axiale Kontexte Informationen sind, die von anderen Achsen global oder lokal aggregiert wurden, um Gruppen von Merkmalskanälen kontextuell zu gestalten. Das GC-Modul kann dicht in jede Residuallage standardisierter Videonetze eingefügt werden. Mit minimaler zusätzlicher Rechenleistung wird bei der Einbindung von GC in verschiedene Netze ein stetiger Verbesserungsgrad beobachtet. Durch die parallele Nutzung von Kalibrierern zur Einbettung von Merkmalen mit vier verschiedenen Arten von Kontexten soll die gelernte Repräsentation gegenüber vielfältigen Aktivitätstypen robuster sein. Bei Videos mit reichhaltigen zeitlichen Variationen kann GC empirisch die Leistung von 2D-CNNs (z.B. TSN und TSM) auf ein Niveau verbessern, das vergleichbar mit den besten aktuellen Videonetzen ist. Der Quellcode ist unter https://github.com/haoyanbin918/Group-Contextualization verfügbar.

Gruppenkontextualisierung für die Videobearbeitung | Neueste Forschungsarbeiten | HyperAI