HyperAIHyperAI
vor 11 Tagen

Ein geteiltes Mehrfach-Attention-Modell für mehrfach-labelbasiertes Null-Shot-Lernen

{ Ehsan Elhamifar, Dat Huynh}
Ein geteiltes Mehrfach-Attention-Modell für mehrfach-labelbasiertes Null-Shot-Lernen
Abstract

In dieser Arbeit entwickeln wir ein geteiltes Multi-Attention-Modell für die Multi-Label Zero-Shot-Learning. Wir argumentieren, dass die Gestaltung eines Aufmerksamkeitsmechanismus zur Erkennung mehrerer bekannter und unbekannter Labels in einem Bild eine nicht triviale Aufgabe darstellt, da kein Trainingssignal zur Lokalisierung unbekannter Labels vorhanden ist und ein Bild nur eine geringe Anzahl von tatsächlich präsenten Labels enthält, verglichen mit Tausenden möglicher Labels. Daher generieren wir keine Aufmerksamkeiten direkt für unbekannte Labels, deren Verhalten unbekannt ist und aufgrund des Fehlens von Trainingsbeispielen möglicherweise auf irrelevanten Bildregionen fokussieren könnte. Stattdessen lassen wir die unbekannten Labels aus einer Menge geteilter Aufmerksamkeiten auswählen, die durch unsere neuartige Verlustfunktion so trainiert wurden, dass sie label-agnostisch sind und sich ausschließlich auf relevante bzw. vordergrundnahe Bildregionen konzentrieren. Schließlich lernen wir eine Kompatibilitätsfunktion, um die Labels basierend auf der ausgewählten Aufmerksamkeit zu unterscheiden. Darüber hinaus schlagen wir eine neuartige Verlustfunktion vor, die aus drei Komponenten besteht und die Aufmerksamkeit dazu anleitet, sich auf vielfältige und relevante Bildregionen zu konzentrieren, während gleichzeitig alle Aufmerksamkeitsmerkmale genutzt werden. Durch umfangreiche Experimente zeigen wir, dass unsere Methode den Stand der Technik auf den Datensätzen NUS-WIDE und Open Images im großen Maßstab um jeweils 2,9 % und 1,4 % im F1-Score verbessert.

Ein geteiltes Mehrfach-Attention-Modell für mehrfach-labelbasiertes Null-Shot-Lernen | Neueste Forschungsarbeiten | HyperAI