HyperAIHyperAI
vor 2 Monaten

Aggregation von tiefen Faltungsmerkmalen für die Bildsuche

Artem Babenko; Victor Lempitsky
Aggregation von tiefen Faltungsmerkmalen für die Bildsuche
Abstract

Mehrere kürzliche Arbeiten haben gezeigt, dass BildDeskriptoren, die von tiefen Faltungsneuronalen Netzen erzeugt werden, den aktuellen Stand der Technik in Bezug auf die Klassifizierung und das Abrufen von Bildern bieten. Es wurde auch gezeigt, dass die Aktivierungen aus den Faltungsschichten als lokale Merkmale interpretiert werden können, die bestimmte Bildregionen beschreiben. Diese lokalen Merkmale können mithilfe von für lokale Merkmale entwickelten Aggregationsansätzen (z.B. Fisher-Vektoren) zusammengefasst werden, wodurch neue leistungsstarke globale Deskriptoren entstehen.In dieser Arbeit untersuchen wir mögliche Wege zur Aggregation lokaler tiefer Merkmale, um kompakte globale Deskriptoren für die Bildsuche zu erzeugen. Zunächst zeigen wir, dass tiefe Merkmale und traditionelle manuell gestaltete Merkmale sehr unterschiedliche Verteilungen paarweiser Ähnlichkeiten aufweisen, sodass bestehende Aggregationsmethoden sorgfältig neu evaluiert werden müssen. Eine solche Neu-Evaluierung ergibt, dass im Gegensatz zu flachen Merkmalen eine einfache Aggregationsmethode basierend auf Summen-Pooling wahrscheinlich die beste Leistung für tiefe Faltungsmerkmale bietet. Diese Methode ist effizient, hat wenige Parameter und birgt bei der Lernphase z.B. des PCA-Matrix nur geringes Überanpassungsrisiko. Insgesamt verbessert der neue kompakte globale Deskriptor den aktuellen Stand der Technik auf vier üblichen Benchmarks erheblich.