Classification multi-étiquettes à vocabulaire ouvert par transfert de connaissances multi-modales

Les systèmes de reconnaissance dans le monde réel sont souvent confrontés au défi des étiquettes inconnues. Pour identifier ces étiquettes inconnues, l'apprentissage multi-étiquettes à zéro coup d'œil (ML-ZSL) se concentre sur le transfert de connaissances par une plongée pré-entraînée des étiquettes textuelles (par exemple, GloVe). Cependant, ces méthodes n'exploitent que les connaissances unimodales issues d'un modèle linguistique, en ignorant les informations sémantiques riches inhérentes aux paires image-texte. À la place, les méthodes basées sur un vocabulaire ouvert (OV) récemment développées réussissent à exploiter ces informations des paires image-texte dans la détection d'objets et obtiennent des performances impressionnantes. Inspirés par le succès des méthodes OV, nous proposons un nouveau cadre basé sur un vocabulaire ouvert, nommé transfert de connaissances multimodales (MKT), pour la classification multi-étiquettes. Plus précisément, notre méthode exploite les connaissances multimodales des paires image-texte basées sur un modèle pré-entraîné de vision et de langage (VLP). Pour faciliter le transfert de la capacité de correspondance image-texte du modèle VLP, l'élève distillation est utilisée pour garantir la cohérence entre les plongées d'image et d'étiquette, associée à l'ajustement des prompts pour mettre à jour davantage les plongées d'étiquette. Pour permettre une meilleure reconnaissance de plusieurs objets, un module binaire simple mais efficace est développé pour capturer à la fois les caractéristiques locales et globales. De nombreux résultats expérimentaux montrent que notre méthode dépasse significativement les méthodes de pointe sur des jeux de données de référence publics. Le code source est disponible à l'adresse https://github.com/sunanhe/MKT.