HyperAIHyperAI
vor 2 Monaten

Auf der Suche nach dem Teufel im Detail: Lernen eines trilinearen Aufmerksamkeitsampling-Netzwerks für feingranulare Bilderkennung

Heliang Zheng; Jianlong Fu; Zheng-Jun Zha; Jiebo Luo
Auf der Suche nach dem Teufel im Detail: Lernen eines trilinearen Aufmerksamkeitsampling-Netzwerks für feingranulare Bilderkennung
Abstract

Das Lernen subtiler, aber diskriminativer Merkmale (z.B. Schnabel und Augen eines Vogels) spielt eine bedeutende Rolle bei der feingranularen Bilderkennung. Bestehende aufmerksamkeitsbasierte Ansätze lokalisieren und verstärken wichtige Teile, um feingranular Details zu lernen, leiden jedoch oft unter einer begrenzten Anzahl von Teilen und hohen Rechenaufwand. In dieser Arbeit schlagen wir vor, solche feingranularen Merkmale effizient durch ein Trilineares Aufmerksamkeitsabtastungsnetzwerk (TASN) aus Hunderten von Teilvorschlägen in einem Lehrer-Schüler-Verfahren zu lernen. Genauer gesagt besteht TASN aus 1) einem trilinearen Aufmerksamkeitsmodul, das Aufmerksamkeitskarten durch die Modellierung der Kanalbeziehungen generiert, 2) einem aufmerksamkeitsbasierten Sampler, der die aufmerksamkeitserregenden Teile mit hoher Auflösung hervorhebt, und 3) einem Feature-Distiller, der Teil-Merkmale durch Gewichteteilung und Merkmalsbewahrung in ein globales Merkmal distilliert. Umfangreiche Experimente bestätigen, dass TASN unter den gleichen Einstellungen die besten Ergebnisse liefert und sich mit den wettbewerbsfähigsten Ansätzen vergleicht, insbesondere in den Datensätzen iNaturalist-2017, CUB-Vogel und Stanford-Autos.