ARTEMIS: Aufmerksamkeitsbasierte Abfrage mit textexpliziter Übereinstimmung und impliziter Ähnlichkeit

Ein intuitiver Ansatz zur Bildsuche besteht darin, Suchanfragen zu verwenden, die aus einem Beispielbild und einem ergänzenden Text bestehen. Während das erste Element reichhaltigen und impliziten Kontext für die Suche liefert, nennt der zweite explizit neue Merkmale oder spezifiziert, wie bestimmte Elemente des Beispielbilds verändert werden sollen, um das gewünschte Zielbild zu erhalten. Aktuelle Ansätze kombinieren typischerweise die Merkmale beider Anfragekomponenten zu einer einzigen Darstellung, die anschließend mit den Darstellungen potenzieller Zielbilder verglichen werden kann. Unser Ansatz zielt darauf ab, die Aufgabe aus einer neuen Perspektive zu betrachten, indem wir sie durch die Brille zweier vertrauter und verwandter Frameworks betrachten: Text-zu-Bild- und Bild-zu-Bild-Abfrage. Inspiriert durch diese Ansätze nutzen wir die spezifischen Beziehungen jedes Anfrageelements zum Zielbild und leiten dabei leichtgewichtige Aufmerksamkeitsmechanismen ab, die eine effektive Vermittlung zwischen den beiden komplementären Modalitäten ermöglichen. Wir validieren unsere Methode an mehreren Abfragebenchmark-Datenbanken, wobei wir Bilder mit ihren zugehörigen freien Textmodifikatoren als Eingabe verwenden. Unser Verfahren erzielt state-of-the-art-Ergebnisse, ohne auf Zusatzinformationen, mehrstufige Merkmale, aufwändige Vortrainingsprozesse oder große Architekturen zurückzugreifen, wie dies in früheren Arbeiten üblich war.