Deep Spatial-Semantic Attention für feinkörnige sketchbasierte Bildretrieval
{Yi-Zhe Song Qian Yu Jifei Song Timothy M. Hospedales Tao Xiang}

Abstract
Menschliche Skizzen zeichnen sich dadurch aus, dass sie sowohl die räumliche Topologie eines visuellen Objekts als auch feine Erscheinungsmerkmale erfassen können. Die fein granulare, skizzenbasierte Bildretrieval (FG-SBIR) nutzt solche fein granularen Eigenschaften von Skizzen gezielt aus, um auf Instanz-Ebene Fotos zu retrieven. Dennoch sind menschliche Skizzen oft stark abstrakt und ikonisch, was zu erheblichen Missalignments mit den Kandidatenbildern führt und somit die Übereinstimmung feiner visueller Details erschwert. Bisherige FG-SBIR-Ansätze konzentrieren sich lediglich auf eine grobe, ganzheitliche Übereinstimmung mittels tiefen, domainsübergreifenden Darstellungslernverfahren, wobei fein granulare Details und deren räumlicher Kontext nicht explizit berücksichtigt werden. In diesem Paper wird ein neuartiges tiefes FG-SBIR-Modell vorgestellt, das sich signifikant von bestehenden Modellen unterscheidet durch: (1) räumliche Aufmerksamkeit, erreicht durch die Einführung eines Aufmerksamkeitsmoduls, das empfindlich gegenüber der räumlichen Position visueller Details ist; (2) die Kombination grober und feiner semantischer Informationen mittels eines Shortcut-Connection-Fusionsblocks; sowie (3) die Modellierung von Merkmalskorrelationen und Robustheit gegenüber Missalignments der extrahierten Merkmale zwischen den beiden Domänen durch die Einführung einer neuartigen, höheren Ordnung lernbaren Energiefunktion (HOLEF)-basierten Verlustfunktion. Umfangreiche Experimente zeigen, dass das vorgeschlagene tiefes räumlich-semantische Aufmerksamkeitsmodell die derzeit besten Ansätze deutlich übertrifft.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| sketch-based-image-retrieval-on-chairs | Chairs net + CFF + HOLEF | R@1: 81.4 R@10: 95.9 |
| sketch-based-image-retrieval-on-handbags | Handbags net + CFF + HOLEF | R@1: 49.4 R@10: 82.7 |
| sketch-based-image-retrieval-on-handbags | Handbags net | R@1: 39.9 R@10: 82.1 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.