LPT: Long-tailed Prompt Tuning für die Bildklassifikation

Für die Long-tailed-Klassifikation prätrainieren die meisten Ansätze in der Regel ein großes Modell auf einem großskaligen Datensatz und feinjustieren anschließend das gesamte Modell, um es an die Long-tailed-Daten anzupassen. Obwohl dies vielversprechend ist, führt das Feinjustieren des gesamten vortrainierten Modells häufig zu hohen Kosten in Bezug auf Rechenleistung und Bereitstellung verschiedener Modelle für unterschiedliche Aufgaben sowie zu einer geschwächten Generalisierungsfähigkeit infolge von Überanpassung an bestimmte Merkmale der Long-tailed-Daten. Um diese Probleme zu mildern, schlagen wir eine effektive Methode namens Long-tailed Prompt Tuning (LPT) zur Long-tailed-Klassifikation vor. LPT integriert mehrere trainierbare Prompts in ein fixiertes, vortrainiertes Modell, um dieses an Long-tailed-Daten anzupassen. Zur Verbesserung der Effektivität werden die Prompts in zwei Gruppen unterteilt: 1) ein gemeinsamer Prompt für den gesamten Long-tailed-Datensatz, der allgemeine Merkmale lernt und das vortrainierte Modell in den Zielbereich überführt; und 2) gruppenbezogene Prompts, die gruppen-spezifische Merkmale erfassen für Proben mit ähnlichen Eigenschaften und dem vortrainierten Modell Diskriminierungsfähigkeit verleihen. Anschließend entwerfen wir ein zweiphasiges Trainingsparadigma zur Lernung dieser Prompts. In Phase 1 trainieren wir den gemeinsamen Prompt mittels überwachtem Prompt Tuning, um das vortrainierte Modell an den gewünschten Long-tailed-Bereich anzupassen. In Phase 2 nutzen wir den gelernten gemeinsamen Prompt als Abfrage, um aus dem Satz gruppenbezogener Prompts eine kleine, best-matching-Gruppe ähnlicher Proben auszuwählen, um gemeinsame Merkmale dieser ähnlichen Proben zu identifizieren. Anschließend optimieren wir diese Prompts mit einer Dual-Sampling-Strategie und einer asymmetrischen GCL-Verlustfunktion (Graph Contrastive Learning). Durch das Feinjustieren lediglich einiger Prompts unter Fixierung des vortrainierten Modells kann LPT die Trainings- und Bereitstellungskosten reduzieren, indem lediglich wenige Prompts gespeichert werden, und profitiert gleichzeitig von der starken Generalisierungsfähigkeit des vortrainierten Modells. Experimente zeigen, dass LPT auf verschiedenen Long-tailed-Benchmarks mit lediglich etwa 1,1 % zusätzlichen Parametern eine vergleichbare Leistung wie herkömmliche Methoden mit vollständigem Modell-Feinjustieren erzielt und zudem robuster gegenüber Domänenverschiebungen ist.