HyperAIHyperAI

Command Palette

Search for a command to run...

Ausgerichtet am Objekt, nicht am Bild: Eine einheitliche pose-angereicherte Darstellung für feingranulare Erkennung

Pei Guo Ryan Farrell

Zusammenfassung

Die dramatische Variation des Erscheinungsbildes aufgrund der Haltung stellt eine große Herausforderung für die feingranulare Erkennung dar, einer Herausforderung, der aktuelle Methoden, die Aufmerksamkeitsmechanismen oder zweite Ordnungsstatistiken verwenden, nicht angemessen begegnen können. Moderne CNNs (Convolutional Neural Networks) verfügen in der Regel über kein explizites Verständnis von Objekthaltungen und werden stattdessen durch verwobene Haltung und Erscheinung verwirrt. In dieser Arbeit schlagen wir eine einheitliche Objektrepräsentation vor, die aus einer Hierarchie von haltungsangleichten Regionen aufgebaut ist. Anstatt ein Objekt durch Regionen zu repräsentieren, die den Bildachsen angepasst sind, charakterisiert die vorgeschlagene Repräsentation das Erscheinungsbild im Verhältnis zur Haltung des Objekts mithilfe von haltungsangleichten Patchs, deren Merkmale robust gegenüber Variationen in Haltung, Skala und Rotation sind. Wir stellen einen Algorithmus vor, der Haltungsbestimmung durchführt und die einheitliche Objektrepräsentation als Kombination hierarchisch angeordneter haltungsangleichter Regionenmerkmale bildet, die dann in ein Klassifikationsnetzwerk eingespeist wird. Der vorgeschlagene Algorithmus übertrifft die Leistung anderer Ansätze und verbessert den Stand der Technik um fast 2 % im weit verbreiteten CUB-200-Datensatz und um mehr als 8 % im viel größeren NABirds-Datensatz. Die Effektivität dieses Paradigmas im Vergleich zu konkurrierenden Methoden unterstreicht die kritische Bedeutung der Trennung von Haltung und Erscheinung für Fortschritte in der feingranularen Erkennung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ausgerichtet am Objekt, nicht am Bild: Eine einheitliche pose-angereicherte Darstellung für feingranulare Erkennung | Paper | HyperAI