vor 2 Monaten

Attributbewusstes Aufmerksamkeitsmodell für feingranulare Repräsentationslernen

Kai Han; Jianyuan Guo; Chao Zhang; Mingjian Zhu

Abstract

Wie man eine diskriminative feingranulare Darstellung lernt, ist ein entscheidender Punkt in vielen Anwendungen der Computer Vision, wie z.B. Person-Re-Identifikation, feingranularer Klassifikation und feingranularer Bildretrieval. Die meisten bisherigen Methoden konzentrieren sich darauf, Metriken oder Ensemble zu lernen, um eine bessere globale Darstellung zu erzeugen, die jedoch in der Regel lokale Informationen entbehren. Aufgrund dieser Überlegungen schlagen wir ein neues attributbasiertes Aufmerksamkeitsmodell (Attribute-Aware Attention Model, $A^3M$) vor, das in einem end-to-end-Prozess gleichzeitig lokale Attributdarstellungen und globale Kategoriendarstellungen lernen kann. Das vorgeschlagene Modell enthält zwei Aufmerksamkeitsmodelle: Das attributgesteuerte Aufmerksamkeitsmodul nutzt Attributinformationen, um Kategoriefeatures in verschiedenen Regionen auszuwählen. Gleichzeitig wählt das kategoriesteuerte Aufmerksamkeitsmodul lokale Features verschiedener Attribute mit Hilfe von Kategoriehinweisen aus. Durch diesen gegenseitigen Prozess zwischen Attributen und Kategorien profitieren sich lokale und globale Features gegenseitig. Schließlich enthält die resultierende Feature-Darstellung mehr intrinsische Informationen für die Bilderkennung anstelle von rauschenden und irrelevanten Features. Umfangreiche Experimente auf den Datensätzen Market-1501, CompCars, CUB-200-2011 und CARS196 zeigen die Effektivität unseres $A^3M$. Der Quellcode ist unter https://github.com/iamhankai/attribute-aware-attention verfügbar.