Command Palette
Search for a command to run...
DAFA: Diversity-Aware Feature Aggregation für attentionbasierte Video-Objekterkennung
DAFA: Diversity-Aware Feature Aggregation für attentionbasierte Video-Objekterkennung
Ki-Seok Chung Si-Dong Roh
Zusammenfassung
Wir präsentieren einen Rahmen für die auf Aufmerksamkeit basierende Video-Objektdetektion, der einen einfachen, aber effektiven Algorithmus zur externen Speicherverwaltung nutzt. In der Aufgabe der Video-Objektdetektion wurde ein Aufmerksamkeitsmechanismus eingeführt, um die Merkmale von Schlüsselbildern durch Informationen aus benachbarten Bildern zu bereichern. Obwohl mehrere neuere Studien einen framebasierten First-In-First-Out (FIFO)-Speicher zur Erfassung globaler Videoinformationen verwenden, leidet diese Speicherstruktur unter ineffizienter Sammlung, was zu einer geringen Aufmerksamkeitsleistung und hohem Rechenaufwand führt. Um dieses Problem zu lösen, entwickeln wir ein neuartiges Verfahren namens „Diversity-aware Feature Aggregation“ (DAFA). Im Gegensatz zu anderen Ansätzen, die ohne Erweiterung der Speicherkapazität nicht ausreichend Merkmalsinformationen speichern können, sammelt DAFA effizient vielfältige Merkmale und vermeidet gleichzeitig Redundanz mittels einer einfachen Metrik basierend auf euklidischer Distanz. Experimentelle Ergebnisse auf dem ImageNet VID-Datensatz zeigen, dass unser leichtgewichtiges Modell mit globaler Aufmerksamkeit eine mAP von 83,5 bei Verwendung eines ResNet-101-Backbones erreicht, was die Genauigkeit der meisten bestehenden Methoden übertrifft und gleichzeitig einen minimalen Laufzeitbedarf aufweist. Unser Ansatz mit globalen und lokalen Aufmerksamkeitsstufen erreicht jeweils 84,5 mAP (ResNet-101) und 85,9 mAP (ResNeXt-101), wodurch eine state-of-the-art-Leistung erzielt wird, ohne zusätzliche Nachverarbeitungsmethoden zu erfordern.