Aggregation lokaler tiefer Merkmale für die Bildretrieval

Mehrere jüngere Arbeiten haben gezeigt, dass Bildbeschreiber, die durch tiefe konvolutionale Neuronale Netze generiert werden, eine state-of-the-art-Leistung für Aufgaben der Bildklassifikation und -retrieval erzielen. Es wurde außerdem nachgewiesen, dass die Aktivierungen der konvolutionalen Schichten als lokale Merkmale interpretiert werden können, die bestimmte Regionen eines Bildes beschreiben. Diese lokalen Merkmale können mittels Aggregationsmethoden verarbeitet werden, die ursprünglich für lokale Merkmale entwickelt wurden (z. B. Fisher-Vektoren), wodurch neue, leistungsfähige globale Beschreiber entstehen. In diesem Paper untersuchen wir mögliche Ansätze zur Aggregation lokaler tiefer Merkmale, um kompakte Beschreiber für die Bildretrieval-Aufgabe zu erzeugen. Zunächst zeigen wir, dass tiefe Merkmale und traditionelle, handgebaute Merkmale deutlich unterschiedliche Verteilungen der paarweisen Ähnlichkeiten aufweisen, weshalb bestehende Aggregationsmethoden sorgfältig neu bewertet werden müssen. Diese Neubewertung offenbart, dass im Gegensatz zu flachen Merkmalen die einfache Aggregationsmethode basierend auf Summen-Pooling die beste Leistung für tiefe konvolutionale Merkmale erzielt. Diese Methode ist effizient, verfügt über wenige Parameter und birgt bei beispielsweise der Lernung der PCA-Matrix nur geringes Risiko einer Überanpassung. Zusätzlich schlagen wir ein einfaches, jedoch effizientes Verfahren zur Abfrageerweiterung vor, das gut mit der vorgeschlagenen Aggregationsmethode kompatibel ist. Insgesamt verbessert der neue, kompakte globale Beschreiber die state-of-the-art-Leistung auf vier gängigen Benchmarks erheblich.