Steuerung von Vision-Sprachmodellen für die mehrfache Bildrestauration

Visionsprachmodelle wie CLIP haben einen erheblichen Einfluss auf verschiedene Downstream-Aufgaben für zero-shot- oder label-freie Vorhersagen gezeigt. Bei niedrigstufigen visuellen Aufgaben wie der Bildrestauration verschlechtert sich jedoch ihre Leistung stark aufgrund von beschädigten Eingaben. In dieser Arbeit präsentieren wir ein degradationsbewusstes Visionsprachmodell (DA-CLIP), das es ermöglicht, vortrainierte Visionsprachmodelle besser in niedrigstufige visuelle Aufgaben als Mehrfachaufgabenrahmen für die Bildrestauration zu übertragen. Genauer gesagt trainiert DA-CLIP einen zusätzlichen Controller, der den festen CLIP-Bildencoder anpasst, um hochwertige Feature-Embeddings vorherzusagen. Durch die Integration des Embeddings in ein Bildrestaurationsnetzwerk über Kreuzaufmerksamkeit können wir das Modell steuern, sodass es eine hochechtreue Bildrekonstruktion lernt. Der Controller selbst gibt auch ein Degradationsfeature aus, das den tatsächlichen Beschädigungen der Eingabe entspricht und so einen natürlichen Klassifikator für verschiedene Degradationstypen bildet. Darüber hinaus erstellen wir einen gemischten Degradationsdatensatz mit synthetischen Captions für die Trainingsschritte von DA-CLIP. Unser Ansatz verbessert den Stand der Technik sowohl bei degenerierungsspezifischen als auch bei vereinheitlichten Bildrestaurationsaufgaben und zeigt eine vielversprechende Richtung zur Anregung von Bildrestaurationsprozessen durch groß angelegte vortrainierte Visionsprachmodelle. Unser Code ist unter https://github.com/Algolzw/daclip-uir verfügbar.