Drei Dinge, die jeder wissen sollte, um die Objektsuche zu verbessern
Das Ziel dieser Arbeit ist die Objektretrieval in großen Bilddatensätzen, wobei das Objekt durch eine Bildabfrage spezifiziert wird und die Retrieval-Aufgabe zur Laufzeit sofort erfolgen muss, analog zur Vorgehensweise bei Video Google [28]. Wir leisten folgende drei Beiträge: (i) eine neue Methode zur Vergleichung von SIFT-Deskriptoren (RootSIFT), die eine überlegene Leistung erzielt, ohne die Verarbeitungs- oder Speicheranforderungen zu erhöhen; (ii) eine neuartige Methode zur Abfrageerweiterung, bei der ein reichhaltigeres Modell für die Abfrage diskriminativ gelernt wird und in einer Form strukturiert ist, die eine sofortige Retrieval-Operation durch effiziente Nutzung des invertierten Index ermöglicht; (iii) eine Verbesserung der von Turcot und Lowe [29] vorgeschlagenen Methode zur Bildaugmentation, bei der nur jene zusätzlichen Merkmale beibehalten werden, die räumlich konsistent mit dem erweiterten Bild sind. Wir evaluieren diese drei Methoden an mehreren Standard-Benchmark-Datensätzen (Oxford Buildings 5k und 105k, sowie Paris 6k) und zeigen erhebliche Verbesserungen der Retrieval-Leistung bei gleichzeitiger Aufrechterhaltung der sofortigen Retrieval-Geschwindigkeit. Die Kombination dieser komplementären Ansätze erreicht eine neue State-of-the-Art-Leistung auf diesen Datensätzen.