Classification d'images multi-étiquettes par distillation de connaissances à partir de détections faiblement supervisées

La classification d'images à étiquettes multiples est une tâche fondamentale mais complexe pour la compréhension visuelle générale. Les méthodes existantes ont montré que les indices au niveau des régions (par exemple, les caractéristiques issues des RoIs) peuvent faciliter la classification à étiquettes multiples. Cependant, ces méthodes nécessitent généralement des annotations au niveau objet fastidieuses (c'est-à-dire, des étiquettes d'objets et des boîtes englobantes) pour l'apprentissage efficace des caractéristiques visuelles au niveau objet. Dans cet article, nous proposons un cadre profond novateur et efficace pour améliorer la classification à étiquettes multiples en distillant les connaissances d'une tâche de détection faiblement supervisée sans annotations de boîtes englobantes. Plus précisément, étant données les annotations au niveau de l'image, (1) nous développons d'abord un modèle de détection faiblement supervisée (WSD), puis (2) nous construisons un cadre de classification d'images à étiquettes multiples intégrant un module de distillation de connaissances qui guide le modèle de classification par le modèle WSD selon les prédictions au niveau classe pour l'image entière et les caractéristiques visuelles au niveau objet pour les RoIs. Le modèle WSD joue le rôle de modèle enseignant et le modèle de classification celui de modèle élève. Après cette distillation inter-tâches, les performances du modèle de classification sont considérablement améliorées tout en maintenant son efficacité, car le modèle WSD peut être supprimé en toute sécurité lors de la phase de test. Des expériences approfondies sur deux grands ensembles de données (MS-COCO et NUS-WIDE) montrent que notre cadre atteint des performances supérieures aux méthodes actuelles dans les deux domaines : performance et efficacité.