Ausgerichtet am Objekt, nicht am Bild: Eine einheitliche pose-angereicherte Darstellung für feingranulare Erkennung

Die dramatische Variation des Erscheinungsbildes aufgrund der Haltung stellt eine große Herausforderung für die feingranulare Erkennung dar, einer Herausforderung, der aktuelle Methoden, die Aufmerksamkeitsmechanismen oder zweite Ordnungsstatistiken verwenden, nicht angemessen begegnen können. Moderne CNNs (Convolutional Neural Networks) verfügen in der Regel über kein explizites Verständnis von Objekthaltungen und werden stattdessen durch verwobene Haltung und Erscheinung verwirrt. In dieser Arbeit schlagen wir eine einheitliche Objektrepräsentation vor, die aus einer Hierarchie von haltungsangleichten Regionen aufgebaut ist. Anstatt ein Objekt durch Regionen zu repräsentieren, die den Bildachsen angepasst sind, charakterisiert die vorgeschlagene Repräsentation das Erscheinungsbild im Verhältnis zur Haltung des Objekts mithilfe von haltungsangleichten Patchs, deren Merkmale robust gegenüber Variationen in Haltung, Skala und Rotation sind. Wir stellen einen Algorithmus vor, der Haltungsbestimmung durchführt und die einheitliche Objektrepräsentation als Kombination hierarchisch angeordneter haltungsangleichter Regionenmerkmale bildet, die dann in ein Klassifikationsnetzwerk eingespeist wird. Der vorgeschlagene Algorithmus übertrifft die Leistung anderer Ansätze und verbessert den Stand der Technik um fast 2 % im weit verbreiteten CUB-200-Datensatz und um mehr als 8 % im viel größeren NABirds-Datensatz. Die Effektivität dieses Paradigmas im Vergleich zu konkurrierenden Methoden unterstreicht die kritische Bedeutung der Trennung von Haltung und Erscheinung für Fortschritte in der feingranularen Erkennung.