OrdinalCLIP: Lernen von Rang-Anweisungen für sprachgesteuerte ordinale Regression

Dieses Papier präsentiert ein sprachgestütztes Paradigma für ordinale Regression.Bestehende Methoden behandeln in der Regel jede Rangstufe als Kategorie und verwenden eine Reihe von Gewichten, um diese Konzepte zu lernen. Diese Ansätze sind anfällig für Überanpassung (Overfitting) und erzielen in der Regel unzufriedenstellende Leistungen, da die gelernten Konzepte hauptsächlich aus dem Trainingsdatensatz abgeleitet werden. Neueste große vortrainierte Vision-Sprach-Modelle wie CLIP haben auf verschiedenen visuellen Aufgaben beeindruckende Leistungen gezeigt. In diesem Papier schlagen wir vor, die Rangkonzepte aus dem reichhaltigen semantischen CLIP-Latentenraum zu lernen.Genauer formulieren wir diese Aufgabe als ein Bild-Sprache-Matching-Problem mit einem kontrastiven Ziel, das Etiketten als Text betrachtet und für jede Rangstufe ein Sprachprototyp aus einem Textencoder gewonnen wird. Da die Prompt-Engineering für CLIP extrem zeitaufwendig ist, schlagen wir OrdinalCLIP vor, eine differenzierbare Prompting-Methode zur Anpassung von CLIP für ordinale Regression. OrdinalCLIP besteht aus lernfähigen Kontexttokens und lernfähigen Rang-Einbettungen; Die lernfähigen Rang-Einbettungen werden durch explizites Modellieren der numerischen Stetigkeit konstruiert, was zu gut sortierten, kompakten Sprachprototypen im CLIP-Raum führt. Sobald sie gelernt wurden, können wir die Sprachprototypen speichern und das große Sprachmodell verwerfen, wodurch sich im Vergleich zum linearen Head-Modell keine zusätzliche Rechenzeit ergibt. Experimentelle Ergebnisse zeigen, dass unser Paradigma wettbewerbsfähige Leistungen in allgemeinen ordinalen Regressionsaufgaben erzielt und Verbesserungen in Few-Shot- und Verteilungsverschiebungsszenarien bei Altersschätzung bringt.Der Code ist unter https://github.com/xk-huang/OrdinalCLIP verfügbar.