HyperAIHyperAI
vor 17 Tagen

Memory-Verstärkte globale-lokale Aggregation für die Video-Objekterkennung

Yihong Chen, Yue Cao, Han Hu, Liwei Wang
Memory-Verstärkte globale-lokale Aggregation für die Video-Objekterkennung
Abstract

Wie erkennen Menschen ein Objekt in einer Videosequenz? Aufgrund der verminderten Qualität einzelner Bilder kann es für Menschen schwierig sein, ein verdecktes Objekt in einem einzelnen Frame allein auf Basis der Informationen innerhalb dieses Bildes zu identifizieren. Wir argumentieren, dass für den Menschen zwei wichtige Hinweise bei der Objekterkennung in Videos von entscheidender Bedeutung sind: die globale semantische Information und die lokale Lokalisationsinformation. In jüngster Zeit haben zahlreiche Methoden Selbst-Attention-Mechanismen eingesetzt, um die Merkmale im Schlüsselbild entweder durch globale semantische oder lokale Lokalisationsinformationen zu verbessern. In diesem Artikel stellen wir das Memory-Enhanced Global-Local Aggregation (MEGA)-Netzwerk vor, das zu den ersten Ansätzen zählt, die sowohl globale als auch lokale Informationen umfassend berücksichtigen. Zudem ermöglicht durch einen neuartigen und sorgfältig entworfenen Long Range Memory (LRM)-Modul dem Schlüsselbild der Zugriff auf weit umfassendere Inhaltselemente als bei allen vorherigen Methoden. Durch die Kombination dieser beiden Informationsquellen erzielt unsere Methode eine state-of-the-art-Leistung auf dem ImageNet VID-Datensatz. Der Quellcode ist unter \url{https://github.com/Scalsol/mega.pytorch} verfügbar.

Memory-Verstärkte globale-lokale Aggregation für die Video-Objekterkennung | Neueste Forschungsarbeiten | HyperAI