HyperAIHyperAI
vor 2 Monaten

Großmaßstäbliche langschwanzige Erkennung in einer offenen Welt

Ziwei Liu; Zhongqi Miao; Xiaohang Zhan; Jiayun Wang; Boqing Gong; Stella X. Yu
Großmaßstäbliche langschwanzige Erkennung in einer offenen Welt
Abstract

Reale Daten haben oft eine langschwänzige und offene Verteilung. Ein praktisches Erkennungssystem muss zwischen Haupt- und Minderheitsklassen klassifizieren, von wenigen bekannten Instanzen generalisieren und Neuartigkeit bei unbekannten Instanzen anerkennen. Wir definieren die Offene Langschwänzige Erkennung (OLTR) als das Lernen aus solchen natürlichen Datenverteilungen und die Optimierung der Klassifikationsgenauigkeit über ein balanciertes Testset, das Haupt-, Schwanz- und offene Klassen umfasst. OLTR muss unbalancierte Klassifikation, Few-Shot-Lernen und Offensatz-Erkennung in einem integrierten Algorithmus verarbeiten, während bestehende Klassifikationsansätze sich nur auf einen Aspekt konzentrieren und über den gesamten Klassenspektrum schlecht abschneiden. Die wesentlichen Herausforderungen bestehen darin, visuelles Wissen zwischen Haupt- und Schwanzklassen zu teilen und Verwechslungen zwischen Schwanz- und offenen Klassen zu reduzieren. Wir entwickeln einen integrierten OLTR-Algorithmus, der ein Bild in einen Merkmalsraum abbildet, sodass visuelle Konzepte sich leicht miteinander in Beziehung setzen können basierend auf einer gelernten Metrik, die die abgeschlossene Welt der Klassifikation respektiert, gleichzeitig aber die Neuartigkeit der offenen Welt anerkennt. Unser sogenanntes dynamisches Meta-Embedding kombiniert ein direktes Bildmerkmal mit einem assoziativen Gedächtnismerkmal, wobei die Merkmalsnorm den Grad der Vertrautheit mit bekannten Klassen angibt. Anhand dreier groß angelegter OLTR-Datensätze, die wir aus objektzentrierten ImageNet-Daten, szeneriezentrierten Places-Daten und personenzentrierten MS1M-Daten zusammengestellt haben, übertrifft unsere Methode konsistent den aktuellen Stand der Technik. Unser Code, unsere Datensätze und Modelle ermöglichen zukünftige OLTR-Forschung und sind öffentlich verfügbar unter https://liuziwei7.github.io/projects/LongTail.html.