HyperAIHyperAI
vor 15 Tagen

Parameter-effizientes Transfer-Lernen für die Bild-Text-Retrieval in der Fernerkundung

Yuan Yuan, Yang Zhan, Zhitong Xiong
Parameter-effizientes Transfer-Lernen für die Bild-Text-Retrieval in der Fernerkundung
Abstract

Vision-und-Sprache-Vortrainingsmodelle (VLP-Modelle) haben in letzter Zeit eine erhebliche Zunahme an Beliebtheit erfahren. Durch das Feintunen auf spezifischen Datensätzen konnten erhebliche Leistungssteigerungen in verschiedenen Aufgaben beobachtet werden. Dennoch verbraucht das vollständige Feintunen von VLP-Modellen nicht nur erhebliche Rechenressourcen, sondern wirkt sich auch stark umweltbelastend aus. Zudem ist das vollständige Feintunen aufgrund der kontinuierlichen Aktualisierung von Fernerkundungsdaten (RS-Daten) für praktische Anwendungen möglicherweise nicht praktikabel. Um dieses Problem anzugehen, untersuchen wir in dieser Arbeit die parameter-effiziente Transfer-Lernmethode (PETL), um visuell-sprachliches Wissen effektiv und effizient vom natürlichen Domäne auf die Fernerkundungsdomäne im Rahmen der Bild-Text-Recherche zu übertragen. Hierzu leisten wir folgende Beiträge: 1) Wir entwickeln einen neuartigen und komplexen PETL-Framework für die Fernerkundungs-Bild-Text-Recherche (RSITR), der das vortrainierte CLIP-Modell, einen multimodalen Fernerkundungs-Adapter und ein hybrides multimodales kontrastives (HMMC) Lernziel umfasst; 2) Um das Problem der hohen innermodalen Ähnlichkeit in RS-Daten zu bewältigen, entwerfen wir eine einfache, jedoch wirksame HMMC-Verlustfunktion; 3) Wir führen umfassende empirische Studien zu PETL-basierten Ansätzen für die Fernerkundungs-Bild-Text-Recherche durch. Unsere Ergebnisse zeigen, dass der vorgeschlagene Ansatz vielversprechend ist und großes Potenzial für praktische Anwendungen besitzt; 4) Wir benchmarken eine Vielzahl aktueller state-of-the-art-PETL-Methoden auf der RSITR-Aufgabe. Unser vorgeschlagenes Modell verfügt lediglich über 0,16 Mio. Trainingsparameter, was einer Reduktion um 98,9 % gegenüber dem vollständigen Feintunen entspricht und somit erhebliche Einsparungen bei den Trainingskosten ermöglicht. Die Retrieval-Leistung übertrifft traditionelle Methoden um 7–13 % und erreicht vergleichbare oder sogar bessere Ergebnisse als das vollständige Feintunen. Diese Arbeit liefert neue Ansätze und wertvolle Erkenntnisse für Aufgaben im Bereich Fernerkundungs-Vision-Sprache.

Parameter-effizientes Transfer-Lernen für die Bild-Text-Retrieval in der Fernerkundung | Neueste Forschungsarbeiten | HyperAI