HyperAIHyperAI
il y a 17 jours

Classification d'images supervisée par le web avec métadonnées : correction automatique des étiquettes bruyantes via un graphe visuel-lexical

Jingkang Yang, Weirong Chen, Litong Feng, Xiaopeng Yan, Huabin Zheng, Wayne Zhang
Classification d'images supervisée par le web avec métadonnées : correction automatique des étiquettes bruyantes via un graphe visuel-lexical
Résumé

L'apprentissage supervisé webly devient récemment attractif en raison de son efficacité dans l'expansion des données sans étiquetage humain coûteux. Toutefois, l'utilisation de requêtes de recherche ou de hashtags comme étiquettes web pour les images lors de l'entraînement introduit un bruit massif qui dégrade les performances des réseaux de neurones profonds (DNN). En particulier, en raison de la confusion sémantique des mots-clés de requête, les images récupérées par une même requête peuvent contenir un grand nombre d’images appartenant à d'autres concepts. Par exemple, la recherche de « tiger cat » sur Flickr renvoie majoritairement des images de tigres plutôt que d’images de chats. Ces échantillons bruités, représentatifs du monde réel, présentent souvent des groupes sémantiques visuels bien définis dans l’espace visuel, ce qui induit les DNN en erreur lors de l’apprentissage des étiquettes sémantiques précises. Pour corriger ces étiquettes bruyantes issues du monde réel, des annotations humaines coûteuses semblent nécessaires. Heureusement, nous constatons que les métadonnées peuvent fournir des connaissances supplémentaires pour découvrir automatiquement des étiquettes propres, sans effort humain, rendant ainsi possible une guidance sémantique correcte à grande échelle dans des données web fortement bruyantes. Dans cet article, nous proposons un correcteur automatique d’étiquettes, VSGraph-LC, basé sur un graphe visuel-sémantique. VSGraph-LC commence par une sélection d’ancres fondée sur la similarité sémantique entre les métadonnées et les concepts d’étiquettes correctes, puis propage ces étiquettes correctes à partir des ancres sur un graphe visuel en utilisant un réseau de neurones de graphe (GNN). Des expériences menées sur des jeux de données réalistes d’apprentissage webly supervisé, Webvision-1000 et NUS-81-Web, démontrent l’efficacité et la robustesse de VSGraph-LC. De plus, VSGraph-LC révèle un avantage significatif sur un ensemble de validation à ensemble ouvert.