HyperAIHyperAI
vor 9 Tagen

Inflatierte episodische Erinnerung mit Regionen-Selbst-Attention für die long-tailed visuelle Erkennung

{ Yi Yang, Linchao Zhu}
Inflatierte episodische Erinnerung mit Regionen-Selbst-Attention für die long-tailed visuelle Erkennung
Abstract

Es besteht zunehmendes Interesse an der Modellierung von langschwänzigen Daten. Im Gegensatz zu künstlich generierten Datensätzen existieren langschwänzige Daten in der realen Welt natürlich und sind daher realistischer. Um das Problem der Klassenungleichgewichtigkeit anzugehen, führen wir ein Inflated Episodic Memory (IEM) für die Erkennung langschwänziger visueller Daten ein. Zunächst erweitert unser IEM die konvolutionellen neuronalen Netze um kategorische repräsentative Merkmale, um ein schnelles Lernen für die sogenannten „Tail-Klassen“ zu ermöglichen. In der traditionellen Few-Shot-Lernumgebung wird üblicherweise ein einzelner Prototyp verwendet, um eine Kategorie zu repräsentieren. Bei langschwänzigen Daten jedoch sind die intra-klassischen Varianzen höher, was die Lernung eines einzigen Prototyps für eine Kategorie erschweren kann. Daher führen wir IEM ein, um für jede Kategorie einzeln die diskriminativsten Merkmale zu speichern. Zudem werden die Speicherbanken unabhängig aktualisiert, was die Wahrscheinlichkeit weiter verringert, verzerrte Klassifikatoren zu lernen. Zweitens führen wir eine neuartige Region Self-Attention-Mechanismus für die Mehrskalenraummerkmalskodierung ein. Dieser ermöglicht es, diskriminativere Merkmale effektiver zu integrieren und die Generalisierungsfähigkeit für Tail-Klassen zu verbessern. Wir schlagen vor, lokale Merkmalskarten auf mehreren Skalen zu kodieren und gleichzeitig räumliche Kontextinformationen zu aggregieren. Mit der Kombination von IEM und Region Self-Attention erreichen wir state-of-the-art Ergebnisse auf vier etablierten Benchmarks für langschwänzige Bilderkennung. Zudem bestätigen wir die Wirksamkeit von IEM an einem langschwänzigen Videoerkennungsbenchmark, nämlich YouTube-8M.

Inflatierte episodische Erinnerung mit Regionen-Selbst-Attention für die long-tailed visuelle Erkennung | Neueste Forschungsarbeiten | HyperAI