HyperAIHyperAI

Command Palette

Search for a command to run...

Classification multi-étiquettes à vocabulaire ouvert par transfert de connaissances multi-modales

He Sunan ; Guo Taian ; Dai Tao ; Qiao Ruizhi ; Ren Bo ; Xia Shu-Tao

Résumé

Les systèmes de reconnaissance dans le monde réel sont souvent confrontés au défi des étiquettes inconnues. Pour identifier ces étiquettes inconnues, l'apprentissage multi-étiquettes à zéro coup d'œil (ML-ZSL) se concentre sur le transfert de connaissances par une plongée pré-entraînée des étiquettes textuelles (par exemple, GloVe). Cependant, ces méthodes n'exploitent que les connaissances unimodales issues d'un modèle linguistique, en ignorant les informations sémantiques riches inhérentes aux paires image-texte. À la place, les méthodes basées sur un vocabulaire ouvert (OV) récemment développées réussissent à exploiter ces informations des paires image-texte dans la détection d'objets et obtiennent des performances impressionnantes. Inspirés par le succès des méthodes OV, nous proposons un nouveau cadre basé sur un vocabulaire ouvert, nommé transfert de connaissances multimodales (MKT), pour la classification multi-étiquettes. Plus précisément, notre méthode exploite les connaissances multimodales des paires image-texte basées sur un modèle pré-entraîné de vision et de langage (VLP). Pour faciliter le transfert de la capacité de correspondance image-texte du modèle VLP, l'élève distillation est utilisée pour garantir la cohérence entre les plongées d'image et d'étiquette, associée à l'ajustement des prompts pour mettre à jour davantage les plongées d'étiquette. Pour permettre une meilleure reconnaissance de plusieurs objets, un module binaire simple mais efficace est développé pour capturer à la fois les caractéristiques locales et globales. De nombreux résultats expérimentaux montrent que notre méthode dépasse significativement les méthodes de pointe sur des jeux de données de référence publics. Le code source est disponible à l'adresse https://github.com/sunanhe/MKT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp