HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de l'apprentissage par zéro-shot audiovisuel avec des grands modèles linguistiques

Haoxing Chen Yaohui Li Yan Hong Zizheng Huang Zhuoer Xu Zhangxuan Gu Jun Lan Huijia Zhu Weiqiang Wang

Résumé

L'apprentissage audiovisuel à zéro exemple vise à reconnaître des classes non vues en se basant sur des séquences audiovisuelles appariées. Les méthodes récentes se concentrent principalement sur l'apprentissage de caractéristiques multimodales alignées avec les noms de classes pour améliorer la capacité de généralisation aux catégories non vues. Cependant, ces approches ignorent les concepts d'événements obscurs présents dans les noms de classes et peuvent inévitablement introduire des structures de réseau complexes avec des objectifs d'entraînement difficiles. Dans cet article, nous présentons un cadre simple mais efficace appelé Apprentissage Audiovisuel Augmenté par la Connaissance (KDA), qui aide le modèle à apprendre plus efficacement le contenu des nouveaux événements en utilisant une base de connaissances externe. Plus précisément, nous proposons d'utiliser la connaissance contenue dans les grands modèles linguistiques (LLMs) pour générer de nombreuses phrases descriptives incluant les caractéristiques audiovisuelles importantes qui distinguent les classes d'événements, ce qui permet une meilleure compréhension des catégories non vues. De plus, nous proposons une perte adaptative avec marge guidée par la connaissance pour aider à distinguer des événements similaires, améliorant ainsi davantage la capacité de généralisation vers les classes non vues. Des résultats expérimentaux étendus montrent que notre KDA proposé peut surpasser les méthodes de pointe sur trois jeux de données populaires d'apprentissage audiovisuel à zéro exemple. Notre code sera disponible à l'adresse \url{https://github.com/chenhaoxing/KDA}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp