HyperAIHyperAI
vor 2 Monaten

Dicht verbundene parameter-effiziente Anpassung für die referenzbasierte Bildsegmentierung

Huang, Jiaqi ; Xu, Zunnan ; Liu, Ting ; Liu, Yong ; Han, Haonan ; Yuan, Kehong ; Li, Xiu
Dicht verbundene parameter-effiziente Anpassung für die referenzbasierte Bildsegmentierung
Abstract

Im Bereich der Computer Vision wird das parameter-effiziente Feinjustieren (Parameter-Efficient Tuning, PET) zunehmend das traditionelle Paradigma des Vortrainings gefolgt von einem vollständigen Feintuning abgelöst. PET genießt insbesondere bei großen Grundmodellen (Foundation Models) große Beliebtheit, da es die Kosten des Transfer Learnings reduziert und die Hardwareauslastung optimiert. Die aktuellen PET-Methoden sind jedoch hauptsächlich für die Optimierung einzelner Modalitäten ausgelegt. Obwohl einige vorausgehende Studien erste Erkundungen unternommen haben, bleiben diese noch auf dem Niveau ausgerichteter Encoder (z.B. CLIP) und fehlen Untersuchungen zu nicht ausgerichteten Encodern. Diese Methoden erzielen mit nicht ausgerichteten Encodern suboptimale Ergebnisse, da sie während des Feintunings die multimodalen Merkmale nicht effektiv ausrichten können. In dieser Arbeit stellen wir DETRIS vor, einen parameter-effizienten Feinjustierungsrahmen, der durch dichte Verbindungen zwischen jeder Schicht und allen vorherigen Schichten eine verbesserte Verbreitung niedrig-rangiger visueller Merkmale ermöglicht. Dies ermöglicht eine effektive intermodale Merkmalsinteraktion und Anpassung an nicht ausgerichtete Encoder. Wir schlagen zudem den Einsatz von Textadaptern zur Verbesserung textbasierter Merkmale vor. Unser einfacher, aber effizienter Ansatz übertrifft die bislang besten Methoden um 0,9% bis 1,8% Backbone-Parameteraktualisierungen, wie anhand anspruchsvoller Benchmarks bewiesen wurde. Unser Projekt ist unter \url{https://github.com/jiaqihuang01/DETRIS} verfügbar.

Dicht verbundene parameter-effiziente Anpassung für die referenzbasierte Bildsegmentierung | Neueste Forschungsarbeiten | HyperAI