HyperAIHyperAI
vor 2 Monaten

Kreuzmodales Subraumlernen für feingranulare skizzenbasierte Bildsuche

Peng Xu; Qiyue Yin; Yongye Huang; Yi-Zhe Song; Zhanyu Ma; Liang Wang; Tao Xiang; W. Bastiaan Kleijn; Jun Guo
Kreuzmodales Subraumlernen für feingranulare skizzenbasierte Bildsuche
Abstract

Die skizzenbasierte Bildsuche (SBIR) ist aufgrund der inhärenten Domänenlücke zwischen Skizze und Foto herausfordernd. Im Vergleich zu den pixelgenauen Darstellungen von Fotos sind Skizzen ikonische Wiedergaben der realen Welt mit hohem Abstraktionsgrad. Daher sind direkte Matches von Skizze und Foto unter Verwendung von niedrigstufigen visuellen Hinweisen unzureichend, da es schwierig ist, einen gemeinsamen niedrigstufigen Unterraum herzustellen, der semantisch über die beiden Modalitäten hinweg reicht. Die meisten existierenden SBIR-Studien greifen dieses cross-modale Problem nicht direkt an. Dies motiviert uns natürlich, die Effektivität von cross-modalen Retrieval-Methoden in der SBIR zu untersuchen, die bereits erfolgreich in der Bild-Text-Matching-Anwendung eingesetzt wurden. In dieser Arbeit führen wir eine Reihe von standesüblichen Methoden des cross-modalen Unterraumlernens ein und vergleichen sie anhand zweier kürzlich veröffentlichter feingranularen SBIR-Datensätze. Durch eine gründliche Analyse der experimentellen Ergebnisse haben wir gezeigt, dass das Unterraumlernen die Skizze-Foto-Domänenlücke effektiv modellieren kann. Zudem ziehen wir einige wichtige Erkenntnisse, um zukünftige Forschungen voranzutreiben.