Sketch Me That Shoe

Wir untersuchen das Problem der feinabgestuften skizzenbasierten Bildretrieval (Sketch-Based Image Retrieval, SBIR), bei dem freihandige menschliche Skizzen als Abfragen verwendet werden, um Bildinstanzen auf Instanzebene zu finden. Dies stellt eine äußerst herausfordernde Aufgabe dar, da (i) visuelle Vergleiche nicht nur feinabgestuft, sondern auch über Domänen hinweg durchgeführt werden müssen, (ii) freihandgezeichnete (Finger-)Skizzen stark abstrakt sind, was eine feinabgestufte Übereinstimmung erschwert, und vor allem (iii) annotierte, cross-domain-Skizzen-Foto-Datensätze, die zur Trainingszwecken erforderlich sind, äußerst selten sind, was viele state-of-the-art-Verfahren des maschinellen Lernens herausfordert. In diesem Artikel adressieren wir erstmals alle diese Herausforderungen und liefern einen Schritt hin zu den Fähigkeiten, die eine kommerzielle skizzenbasierte Bildretrieval-Anwendung ermöglichen würden. Wir stellen eine neue Datenbank mit 1.432 Skizze-Foto-Paaren aus zwei Kategorien vor, die über 32.000 feinabgestufte Tripel-Rangordnungsannotierungen aufweist. Anschließend entwickeln wir ein tiefes Tripel-Rangierungsmodell für die Instanzebene im SBIR mit einer neuartigen Datenverstärkungs- und stufenweisen Vortrainingsstrategie, um das Problem der unzureichenden feinabgestuften Trainingsdaten zu mildern. Umfassende Experimente werden durchgeführt, um eine Vielzahl von Erkenntnissen zu den Herausforderungen der Datensuffizienz und der Vermeidung von Überanpassung bei der Trainingstiefen-Netzwerke für feinabgestufte, cross-domain-Rangierungs-Aufgaben beizutragen.