HyperAIHyperAI
vor einem Monat

Dynamische Kernel-Distillation für effiziente Pose-Schätzung in Videos

Xuecheng Nie; Yuncheng Li; Linjie Luo; Ning Zhang; Jiashi Feng
Dynamische Kernel-Distillation für effiziente Pose-Schätzung in Videos
Abstract

Bestehende videobasierte Methoden zur Schätzung der menschlichen Körperhaltung wenden umfangreiche Netzwerke auf jedes einzelne Bild des Videos an, um Körperteile zu lokalisieren. Diese Ansätze leiden unter hohen Rechenkosten und erfüllen in realistischen Anwendungen kaum die Anforderungen nach geringer Latenz. Um dieses Problem zu lösen, schlagen wir ein neues Modell namens Dynamische Kerndestillation (DKD) vor, das kleine Netzwerke zur Schätzung von Körperhaltungen in Videos unterstützt und so die Effizienz erheblich steigert. Insbesondere führt DKD einen leichtgewichtigen Destillator ein, der durch Nutzung zeitlicher Hinweise aus dem vorherigen Bild in einem One-Shot-Feedforward-Verfahren Pose-Kerne online destilliert. Anschließend vereinfacht DKD die Lokalisierung von Körperteilen zu einem Abgleichsprozess zwischen den Pose-Kernen und dem aktuellen Bild, der durch einfache Faltung effizient berechnet werden kann. Auf diese Weise überträgt DKD Wissen über Körperhaltungen schnell von einem Bild zum nächsten, um kompakte Leitlinien für die Lokalisierung von Körperteilen im folgenden Bild zu bieten. Dies ermöglicht die Verwendung kleiner Netzwerke bei der video-basierten Schätzung von Körperhaltungen. Um den Trainingsprozess zu erleichtern, nutzt DKD eine zeitlich antagonistiche Trainierungsstrategie, die einen zeitlichen Diskriminator einführt, um innerhalb eines langen Zeitraums zeitlich kohärente Pose-Kerne und Schätzergebnisse zu generieren. Experimente mit den Benchmarks Penn Action und Sub-JHMDB zeigen die überlegene Effizienz von DKD: Im Vergleich zum bisher besten Modell reduziert es die Rechenoperationen (FLOPs) um das Zehnfache und verdoppelt die Geschwindigkeit, während es gleichzeitig den Stand der Technik in Bezug auf Genauigkeit erreicht.

Dynamische Kernel-Distillation für effiziente Pose-Schätzung in Videos | Neueste Forschungsarbeiten | HyperAI