Menschliche Aufmerksamkeit bei feinkörniger Klassifikation

Die Art und Weise, wie Menschen eine gegebene Bildinformation wahrnehmen, verarbeiten und klassifizieren, hat das Potenzial, die Leistung von Deep-Learning-Modellen erheblich zu verbessern. Indem man nutzt, wo Menschen ihre Aufmerksamkeit richten, kann man Modelle korrigieren, wenn sie von entscheidenden Merkmalen für eine korrekte Entscheidung abweichen. Um zu validieren, dass menschliche Aufmerksamkeit wertvolle Informationen für Entscheidungsprozesse wie die feinkörnige Klassifikation enthält, vergleichen wir menschliche Aufmerksamkeit mit Modell-Erklärungen hinsichtlich der Identifizierung wichtiger Merkmale. Hierzu sammeln wir Augenbewegungsdaten für den feinkörnigen Klassifikationsdatensatz CUB und erstellen einen Datensatz namens CUB-GHA (Gaze-based Human Attention). Darüber hinaus stellen wir den Gaze Augmentation Training (GAT) und das Knowledge Fusion Network (KFN) vor, um menschliche Augenbewegungskenntnisse in Klassifikationsmodelle zu integrieren. Wir implementieren unsere Ansätze anhand des CUB-GHA-Datensatzes sowie des kürzlich veröffentlichten medizinischen Datensatzes CXR-Eye von Thorax-Röntgenbildern, der Augenbewegungsdaten eines Radiologen enthält. Unsere Ergebnisse zeigen, dass die Integration von menschlicher Aufmerksamkeitskenntnis die Klassifikationsleistung effektiv verbessert, beispielsweise um 4,38 % über der Baseline auf CXR. Somit liefert unsere Arbeit nicht nur wertvolle Erkenntnisse zur Verständnis menschlicher Aufmerksamkeit bei der feinkörnigen Klassifikation, sondern trägt auch zu zukünftigen Forschungsarbeiten bei, die menschliche Augenbewegungen mit Aufgaben des Computer Vision integrieren. CUB-GHA und der Quellcode sind unter https://github.com/yaorong0921/CUB-GHA verfügbar.