Instanzbasierte Bildretrieval mit Nachrangordnungs-Transformern

Die instanzbasierte Bildretrieval-Aufgabe besteht darin, in einer großen Datenbank nach Bildern zu suchen, die ein Objekt aus einem Abfragebild entsprechen. Um diese Aufgabe zu bewältigen, greifen Systeme üblicherweise auf einen Retrieval-Schritt zurück, der globale Bildbeschreibungen nutzt, sowie auf einen nachfolgenden Schritt, der domain-spezifische Verfeinerungen oder ein Neuranking mittels Operationen wie geometrischer Verifikation auf Basis lokaler Merkmale durchführt. In dieser Arbeit stellen wir Reranking Transformers (RRTs) als ein allgemeines Modell vor, das sowohl lokale als auch globale Merkmale integriert, um die passenden Bilder im überwachten Sinne neu zu rangieren und somit den relativ kostspieligen Prozess der geometrischen Verifikation zu ersetzen. RRTs sind leichtgewichtig und lassen sich leicht parallelisieren, sodass das Neuranking einer Menge der besten Übereinstimmungen in einem einzigen Vorwärtsdurchlauf durchgeführt werden kann. Wir führen umfangreiche Experimente auf den Datensätzen Revisited Oxford und Paris sowie auf dem Google Landmarks v2-Datensatz durch und zeigen, dass RRTs gegenüber früheren Neuranking-Ansätzen überlegen sind, dabei jedoch deutlich weniger lokale Beschreibungen verwenden. Zudem zeigen wir, dass RRTs im Gegensatz zu bestehenden Ansätzen gemeinsam mit dem Merkmalsextraktor optimiert werden können, was zu auf nachgeschaltete Aufgaben zugeschnittenen Merkmalsdarstellungen führen und zusätzliche Genauigkeitsverbesserungen ermöglichen kann. Der Quellcode und die trainierten Modelle sind öffentlich unter https://github.com/uvavision/RerankingTransformer verfügbar.