Deep Spatial-Semantic Attention für feinkörnige sketchbasierte Bildretrieval

Menschliche Skizzen zeichnen sich dadurch aus, dass sie sowohl die räumliche Topologie eines visuellen Objekts als auch feine Erscheinungsmerkmale erfassen können. Die fein granulare, skizzenbasierte Bildretrieval (FG-SBIR) nutzt solche fein granularen Eigenschaften von Skizzen gezielt aus, um auf Instanz-Ebene Fotos zu retrieven. Dennoch sind menschliche Skizzen oft stark abstrakt und ikonisch, was zu erheblichen Missalignments mit den Kandidatenbildern führt und somit die Übereinstimmung feiner visueller Details erschwert. Bisherige FG-SBIR-Ansätze konzentrieren sich lediglich auf eine grobe, ganzheitliche Übereinstimmung mittels tiefen, domainsübergreifenden Darstellungslernverfahren, wobei fein granulare Details und deren räumlicher Kontext nicht explizit berücksichtigt werden. In diesem Paper wird ein neuartiges tiefes FG-SBIR-Modell vorgestellt, das sich signifikant von bestehenden Modellen unterscheidet durch: (1) räumliche Aufmerksamkeit, erreicht durch die Einführung eines Aufmerksamkeitsmoduls, das empfindlich gegenüber der räumlichen Position visueller Details ist; (2) die Kombination grober und feiner semantischer Informationen mittels eines Shortcut-Connection-Fusionsblocks; sowie (3) die Modellierung von Merkmalskorrelationen und Robustheit gegenüber Missalignments der extrahierten Merkmale zwischen den beiden Domänen durch die Einführung einer neuartigen, höheren Ordnung lernbaren Energiefunktion (HOLEF)-basierten Verlustfunktion. Umfangreiche Experimente zeigen, dass das vorgeschlagene tiefes räumlich-semantische Aufmerksamkeitsmodell die derzeit besten Ansätze deutlich übertrifft.