Classification à vocabulaire ouvert avec décodeur bimodal sur des caractéristiques visuelles et textuelles alignées

Dans le domaine de la vision par ordinateur, la reconnaissance multi-étiquettes est une tâche importante avec de nombreuses applications dans le monde réel, mais la classification des étiquettes inconnues jusqu'alors reste un défi majeur. Dans cet article, nous proposons un nouvel algorithme, l'Aligned Dual moDality ClaSsifier (ADDS), qui comprend un décodeur bimodal (DM-décodeur) avec un alignement entre les caractéristiques visuelles et textuelles, pour les tâches de classification multi-étiquettes à vocabulaire ouvert. Nous concevons ensuite une méthode simple mais efficace appelée Pyramid-Forwarding pour améliorer les performances sur des entrées à haute résolution. De plus, la Supervision Sélective du Langage est appliquée pour renforcer davantage les performances du modèle. Des expériences approfondies menées sur plusieurs benchmarks standards, notamment NUS-WIDE, ImageNet-1k, ImageNet-21k et MS-COCO, montrent que notre approche surpasse considérablement les méthodes précédentes et offre des performances de pointe pour la classification multi-étiquettes à vocabulaire ouvert, la classification multi-étiquettes conventionnelle et un cas extrême appelé classification mono-versus-multi étiquettes où des modèles formés sur des ensembles de données mono-étiquetés (ImageNet-1k, ImageNet-21k) sont évalués sur des ensembles de données multi-étiquetés (MS-COCO et NUS-WIDE).