HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Inflatierte episodische Erinnerung mit Regionen-Selbst-Attention für die long-tailed visuelle Erkennung

{ Yi Yang Linchao Zhu}

Inflatierte episodische Erinnerung mit Regionen-Selbst-Attention für die long-tailed visuelle Erkennung

Abstract

Es besteht zunehmendes Interesse an der Modellierung von langschwänzigen Daten. Im Gegensatz zu künstlich generierten Datensätzen existieren langschwänzige Daten in der realen Welt natürlich und sind daher realistischer. Um das Problem der Klassenungleichgewichtigkeit anzugehen, führen wir ein Inflated Episodic Memory (IEM) für die Erkennung langschwänziger visueller Daten ein. Zunächst erweitert unser IEM die konvolutionellen neuronalen Netze um kategorische repräsentative Merkmale, um ein schnelles Lernen für die sogenannten „Tail-Klassen“ zu ermöglichen. In der traditionellen Few-Shot-Lernumgebung wird üblicherweise ein einzelner Prototyp verwendet, um eine Kategorie zu repräsentieren. Bei langschwänzigen Daten jedoch sind die intra-klassischen Varianzen höher, was die Lernung eines einzigen Prototyps für eine Kategorie erschweren kann. Daher führen wir IEM ein, um für jede Kategorie einzeln die diskriminativsten Merkmale zu speichern. Zudem werden die Speicherbanken unabhängig aktualisiert, was die Wahrscheinlichkeit weiter verringert, verzerrte Klassifikatoren zu lernen. Zweitens führen wir eine neuartige Region Self-Attention-Mechanismus für die Mehrskalenraummerkmalskodierung ein. Dieser ermöglicht es, diskriminativere Merkmale effektiver zu integrieren und die Generalisierungsfähigkeit für Tail-Klassen zu verbessern. Wir schlagen vor, lokale Merkmalskarten auf mehreren Skalen zu kodieren und gleichzeitig räumliche Kontextinformationen zu aggregieren. Mit der Kombination von IEM und Region Self-Attention erreichen wir state-of-the-art Ergebnisse auf vier etablierten Benchmarks für langschwänzige Bilderkennung. Zudem bestätigen wir die Wirksamkeit von IEM an einem langschwänzigen Videoerkennungsbenchmark, nämlich YouTube-8M.

Benchmarks

BenchmarkMethodikMetriken
long-tail-learning-on-imagenet-ltIEM
Top-1 Accuracy: 43.2
long-tail-learning-on-inaturalist-2018IEM
Top-1 Accuracy: 70.2
long-tail-learning-on-places-ltIEM
Top-1 Accuracy: 39.7

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Inflatierte episodische Erinnerung mit Regionen-Selbst-Attention für die long-tailed visuelle Erkennung | Forschungsarbeiten | HyperAI