vor 17 Tagen

Domain Prompt Learning zur effizienten Anpassung von CLIP an unbekannte Domänen

Xin Zhang, Shixiang Shane Gu, Yutaka Matsuo, Yusuke Iwasawa

Abstract

Domain Generalization (DG) ist ein anspruchsvolles Problem im Bereich des Transfer-Lernens, das darauf abzielt, ein verallgemeinerungsfähiges Modell für bisher unbekannte Domänen zu erlernen. Recente Foundation Models (FMs) sind gegenüber vielen Verteilungsverschiebungen robust und sollten daher die Leistungsfähigkeit von DG erheblich verbessern. In dieser Arbeit untersuchen wir generische Ansätze, um CLIP – ein visuell-sprachliches Foundation Model – für DG-Aufgaben im Bereich der Bildklassifikation einzusetzen. Während die Standard-ERM-Methode (Empirical Risk Minimization) die Genauigkeit signifikant verbessert, wenn größere Backbone-Architekturen und umfangreichere Trainingsdatensätze verwendet werden, ist das Feintunen von FMs in vielen realen Anwendungsszenarien nicht praktikabel. Wir stellen Domain Prompt Learning (DPL) als einen neuartigen Ansatz zur Domäneninferenz in Form der bedingten Prompt-Generierung vor. DPL erreicht eine erhebliche Genauigkeitssteigerung, indem lediglich ein leichtgewichtiges Prompt-Generatormodell (ein dreischichtiges MLP) trainiert wird, dessen Parameteranzahl vergleichbar ist mit der Größe des Klassifikations-Projektors in früheren Arbeiten zum DG. Die Kombination von \dplshort~mit CLIP führt zu überraschend guten Ergebnissen: Die Genauigkeit von Zero-Shot-CLIP steigt auf mehreren Standard-Datensätzen – darunter PACS, VLCS, OfficeHome und TerraIncognita – von 73,7 % auf 79,3 %. Wir hoffen, dass die Einfachheit und Erfolgsquote unseres Ansatzes zu einer breiteren Anwendung und Analyse von Foundation Models im Bereich der Domain Generalization führen wird. Unser Code ist unter https://github.com/shogi880/DPLCLIP verfügbar.