HyperAIHyperAI

Command Palette

Search for a command to run...

Kreuzmodales Subraumlernen für feingranulare skizzenbasierte Bildsuche

Peng Xu; Qiyue Yin; Yongye Huang; Yi-Zhe Song; Zhanyu Ma; Liang Wang; Tao Xiang; W. Bastiaan Kleijn; Jun Guo

Zusammenfassung

Die skizzenbasierte Bildsuche (SBIR) ist aufgrund der inhärenten Domänenlücke zwischen Skizze und Foto herausfordernd. Im Vergleich zu den pixelgenauen Darstellungen von Fotos sind Skizzen ikonische Wiedergaben der realen Welt mit hohem Abstraktionsgrad. Daher sind direkte Matches von Skizze und Foto unter Verwendung von niedrigstufigen visuellen Hinweisen unzureichend, da es schwierig ist, einen gemeinsamen niedrigstufigen Unterraum herzustellen, der semantisch über die beiden Modalitäten hinweg reicht. Die meisten existierenden SBIR-Studien greifen dieses cross-modale Problem nicht direkt an. Dies motiviert uns natürlich, die Effektivität von cross-modalen Retrieval-Methoden in der SBIR zu untersuchen, die bereits erfolgreich in der Bild-Text-Matching-Anwendung eingesetzt wurden. In dieser Arbeit führen wir eine Reihe von standesüblichen Methoden des cross-modalen Unterraumlernens ein und vergleichen sie anhand zweier kürzlich veröffentlichter feingranularen SBIR-Datensätze. Durch eine gründliche Analyse der experimentellen Ergebnisse haben wir gezeigt, dass das Unterraumlernen die Skizze-Foto-Domänenlücke effektiv modellieren kann. Zudem ziehen wir einige wichtige Erkenntnisse, um zukünftige Forschungen voranzutreiben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp