HyperAIHyperAI

Command Palette

Search for a command to run...

Parameter-effizientes Transfer-Lernen für die Bild-Text-Retrieval in der Fernerkundung

Yuan Yuan Yang Zhan Zhitong Xiong

Zusammenfassung

Vision-und-Sprache-Vortrainingsmodelle (VLP-Modelle) haben in letzter Zeit eine erhebliche Zunahme an Beliebtheit erfahren. Durch das Feintunen auf spezifischen Datensätzen konnten erhebliche Leistungssteigerungen in verschiedenen Aufgaben beobachtet werden. Dennoch verbraucht das vollständige Feintunen von VLP-Modellen nicht nur erhebliche Rechenressourcen, sondern wirkt sich auch stark umweltbelastend aus. Zudem ist das vollständige Feintunen aufgrund der kontinuierlichen Aktualisierung von Fernerkundungsdaten (RS-Daten) für praktische Anwendungen möglicherweise nicht praktikabel. Um dieses Problem anzugehen, untersuchen wir in dieser Arbeit die parameter-effiziente Transfer-Lernmethode (PETL), um visuell-sprachliches Wissen effektiv und effizient vom natürlichen Domäne auf die Fernerkundungsdomäne im Rahmen der Bild-Text-Recherche zu übertragen. Hierzu leisten wir folgende Beiträge: 1) Wir entwickeln einen neuartigen und komplexen PETL-Framework für die Fernerkundungs-Bild-Text-Recherche (RSITR), der das vortrainierte CLIP-Modell, einen multimodalen Fernerkundungs-Adapter und ein hybrides multimodales kontrastives (HMMC) Lernziel umfasst; 2) Um das Problem der hohen innermodalen Ähnlichkeit in RS-Daten zu bewältigen, entwerfen wir eine einfache, jedoch wirksame HMMC-Verlustfunktion; 3) Wir führen umfassende empirische Studien zu PETL-basierten Ansätzen für die Fernerkundungs-Bild-Text-Recherche durch. Unsere Ergebnisse zeigen, dass der vorgeschlagene Ansatz vielversprechend ist und großes Potenzial für praktische Anwendungen besitzt; 4) Wir benchmarken eine Vielzahl aktueller state-of-the-art-PETL-Methoden auf der RSITR-Aufgabe. Unser vorgeschlagenes Modell verfügt lediglich über 0,16 Mio. Trainingsparameter, was einer Reduktion um 98,9 % gegenüber dem vollständigen Feintunen entspricht und somit erhebliche Einsparungen bei den Trainingskosten ermöglicht. Die Retrieval-Leistung übertrifft traditionelle Methoden um 7–13 % und erreicht vergleichbare oder sogar bessere Ergebnisse als das vollständige Feintunen. Diese Arbeit liefert neue Ansätze und wertvolle Erkenntnisse für Aufgaben im Bereich Fernerkundungs-Vision-Sprache.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp