Command Palette
Search for a command to run...
Ein Satz spricht tausend Bilder: Domänenverallgemeinerung durch das Ausbilden von CLIP mit sprachlicher Anleitung
Ein Satz spricht tausend Bilder: Domänenverallgemeinerung durch das Ausbilden von CLIP mit sprachlicher Anleitung
Zeyi Huang Andy Zhou Zijian Lin Mu Cai Haohan Wang Yong Jae Lee
Zusammenfassung
Domain Generalization befasst sich mit dem Problem, ein Modell anhand von Beispielen aus mehreren Domänen (oder Verteilungen) zu trainieren und es anschließend an Beispielen aus einer neuen, bisher nicht gesehenen Domäne zu testen. In diesem Artikel präsentieren wir einen neuartigen Ansatz für die Domain Generalization, der jüngste Fortschritte in großen Vision-Sprache-Modellen nutzt, insbesondere ein CLIP-Teacher-Modell, um ein kleineres Modell zu trainieren, das auf bisher unbekannte Domänen generalisiert. Der zentrale technische Beitrag ist eine neue Art der Regularisierung, die verlangt, dass die vom Schülermodell gelernten Bildrepräsentationen nahe an den vom Lehrermodell gelernten Textrepräsentationen liegen, die durch die Kodierung der entsprechenden Textbeschreibungen der Bilder erzeugt wurden. Wir führen zwei Entwürfe einer Verlustfunktion ein – absolute und relative Distanz –, die jeweils präzise Anweisungen darüber geben, wie der Trainingsprozess des Schülermodells regularisiert werden sollte. Wir evaluieren unseren vorgeschlagenen Ansatz, RISE (Regularized Invariance with Semantic Embeddings) genannt, an verschiedenen Benchmark-Datensätzen und zeigen, dass er mehrere state-of-the-art-Methoden für die Domain Generalization übertrifft. Soweit uns bekannt ist, ist unsere Arbeit die erste, die Wissensdistillation mittels eines großen Vision-Sprache-Modells für die Domain Generalization nutzt. Durch die Integration textbasierter Informationen verbessert RISE die Generalisierungsfähigkeit von maschinellen Lernmodellen.