Von verallgemeinerter Zero-Shot-Lernung zu Long-Tail mit Klassendeskriptoren

Reale Daten sind in der Regel unbalanciert und langschwänzig, aber tiefe Modelle haben Schwierigkeiten, seltene Klassen in Anwesenheit häufiger Klassen zu erkennen. Oft sind Klassen mit Nebeninformationen wie textuellen Beschreibungen verbunden, aber es ist noch nicht vollständig klar, wie diese für das Lernen mit unbalancierten langschwänzigen Daten genutzt werden können. Solche Beschreibungen wurden hauptsächlich im (verallgemeinerten) Zero-Shot-Lernen (ZSL) eingesetzt, was darauf hinweist, dass ZSL mit Klassenbeschreibungen auch für langschwänzige Verteilungen nützlich sein könnte. Wir beschreiben DRAGON, eine späte Fusionsarchitektur für das Lernen mit langschwänzigen Daten und Klassenbeschreibungen. Diese Architektur lernt (1) die Verzerrung zugunsten der häufigen Klassen auf probebasiert zu korrigieren; und (2) Informationen aus den Klassenbeschreibungen zu fusionieren, um die Genauigkeit der seltenen Klassen zu verbessern. Wir führen zudem neue Benchmarks CUB-LT, SUN-LT und AWA-LT für das Lernen mit langschwänzigen Daten und Klassenbeschreibungen ein, die auf bestehenden Attribut-basierten Lerndatensätzen und einer Version von Imagenet-LT mit Klassenbeschreibungen basieren. DRAGON übertrifft die besten bisher bekannten Modelle auf dem neuen Benchmark. Es stellt zudem einen neuen Stand der Technik (SoTA) bei bestehenden Benchmarks für verallgemeinertes Few-Shot-Lernen mit Klassenbeschreibungen (GFSL-d) sowie beim standardmäßigen (bildbasierten) langschwänzigen Lernen ImageNet-LT, CIFAR-10, 100 und Places365 dar.