HyperAIHyperAI
vor 17 Tagen

Attend and Guide (AG-Net): Ein auf Schlüsselpunkten basierendes, auf Aufmerksamkeit gestütztes tiefes Netzwerk für die Bilderkennung

Asish Bera, Zachary Wharton, Yonghuai Liu, Nik Bessis, Ardhendu Behera
Attend and Guide (AG-Net): Ein auf Schlüsselpunkten basierendes, auf Aufmerksamkeit gestütztes tiefes Netzwerk für die Bilderkennung
Abstract

Diese Arbeit präsentiert einen neuartigen, auf Schlüsselpunkten basierenden Aufmerksamkeitsmechanismus für die visuelle Erkennung in statischen Bildern. Tiefen konvolutionellen neuronalen Netzwerken (CNNs) zur Erkennung von Bildern mit deutlich unterschiedlichen Klassen ist großes Erfolg bescheinigt, doch ihre Leistung bei der Unterscheidung fein abgestufter Veränderungen liegt nicht auf dem gleichen Niveau. Um dieses Problem anzugehen, schlagen wir ein end-to-end-CNN-Modell vor, das mithilfe unseres neuartigen Aufmerksamkeitsmechanismus bedeutungsvolle Merkmale lernt, die fein abgestufte Veränderungen verbinden. Der Ansatz erfasst räumliche Strukturen in Bildern, indem er semantische Regionen (Semantic Regions, SRs) und deren räumliche Verteilung identifiziert, wobei sich zeigt, dass dies der Schlüssel zur Modellierung subtiler Veränderungen in Bildern ist. Diese SRs werden automatisch durch Gruppierung der detektierten Schlüsselpunkte in einem gegebenen Bild identifiziert. Die „Nützlichkeit“ dieser SRs für die Bilderkennung wird mittels unseres innovativen Aufmerksamkeitsmechanismus gemessen, der sich auf jene Bildbereiche konzentriert, die für eine gegebene Aufgabe am relevantesten sind. Dieser Rahmenansatz ist sowohl für traditionelle als auch für fein abgestufte Bilderkennungsaufgaben geeignet und erfordert keine manuell annotierten Regionen (z. B. Bounding-Boxes von Körperteilen, Objekten usw.) für das Lernen und die Vorhersage. Zudem lässt sich der vorgeschlagene auf Schlüsselpunkten basierende Aufmerksamkeitsmechanismus problemlos in bestehende CNN-Modelle integrieren. Das Framework wurde an sechs unterschiedlichen Benchmark-Datensätzen evaluiert. Das Modell übertrifft die state-of-the-art-Ansätze mit einer bemerkenswerten Leistungssteigerung: Distracted Driver V1 (Acc: 3,39 %), Distracted Driver V2 (Acc: 6,58 %), Stanford-40 Actions (mAP: 2,15 %), People Playing Musical Instruments (mAP: 16,05 %), Food-101 (Acc: 6,30 %) und Caltech-256 (Acc: 2,59 %).

Attend and Guide (AG-Net): Ein auf Schlüsselpunkten basierendes, auf Aufmerksamkeit gestütztes tiefes Netzwerk für die Bilderkennung | Neueste Forschungsarbeiten | HyperAI