L'attention humaine dans la classification fine-grained

La manière dont les humains portent leur attention, traitent et catégorisent une image donnée a le potentiel de considérablement améliorer les performances des modèles d'apprentissage profond. Exploiter les zones sur lesquelles les humains se concentrent peut corriger les modèles lorsqu'ils s'écartent des caractéristiques essentielles pour des décisions correctes. Pour valider l'idée que l'attention humaine contient des informations précieuses pour les processus décisionnels, tels que la classification fine, nous comparons l'attention humaine aux explications fournies par les modèles afin d'identifier les caractéristiques importantes. À cet effet, nous avons collecté des données de regard humain sur le jeu de données de classification fine CUB, et construit un nouveau jeu de données nommé CUB-GHA (Gaze-based Human Attention). Par ailleurs, nous proposons une méthode de formation par augmentation par regard (Gaze Augmentation Training, GAT) ainsi qu'un réseau de fusion de connaissances (Knowledge Fusion Network, KFN) pour intégrer les connaissances issues du regard humain dans les modèles de classification. Nous avons mis en œuvre nos approches sur CUB-GHA ainsi que sur le jeu de données médical récemment publié CXR-Eye, dédié aux radiographies thoraciques et incluant des données de regard recueillies auprès d'un radiologue. Nos résultats montrent qu'intégrer les connaissances issues de l'attention humaine améliore efficacement la classification, par exemple en augmentant le score de base de 4,38 % sur CXR. Ainsi, ce travail apporte non seulement des perspectives précieuses sur la compréhension de l'attention humaine dans la classification fine, mais contribue également aux recherches futures visant à intégrer le regard humain aux tâches de vision par ordinateur. Le jeu de données CUB-GHA et le code source sont disponibles à l'adresse suivante : https://github.com/yaorong0921/CUB-GHA.