HyperAIHyperAI
vor 2 Monaten

Bildkomposition für Fernerkundung

Psomas, Bill ; Kakogeorgiou, Ioannis ; Efthymiadis, Nikos ; Tolias, Giorgos ; Chum, Ondrej ; Avrithis, Yannis ; Karantzalos, Konstantinos
Bildkomposition für Fernerkundung
Abstract

Diese Arbeit führt die zusammengesetzte Bildsuche in der Fernerkundung ein. Sie ermöglicht es, eine große Bildarchiv durch abwechselnde Anfragen mit Bildbeispielen und textueller Beschreibung zu durchsuchen, was die beschreibende Kraft gegenüber unimodalen Abfragen, sei es visuell oder textuell, erheblich steigert. Die textuelle Komponente kann verschiedene Attribute wie Form, Farbe oder Kontext modifizieren. Eine neuartige Methode zur Fusion von Bild-zu-Bild- und Text-zu-Bild-Ähnlichkeit wird vorgestellt. Wir zeigen, dass ein Vision-Language-Modell über ausreichende beschreibende Kraft verfügt und keine zusätzlichen Lernschritte oder Trainingsdaten erforderlich sind. Wir präsentieren einen neuen Evaluationsbenchmark, der sich auf Modifikationen von Farbe, Kontext, Dichte, Existenz, Menge und Form konzentriert. Unsere Arbeit setzt nicht nur den Stand der Technik für diese Aufgabe neu, sondern stellt auch einen grundlegenden Schritt dar, um eine Lücke im Bereich der Fernerkundungsbildsuche zu schließen. Quellcode: https://github.com/billpsomas/rscir