Amélioration de l'apprentissage par zéro-shot audiovisuel avec des grands modèles linguistiques

L'apprentissage audiovisuel à zéro exemple vise à reconnaître des classes non vues en se basant sur des séquences audiovisuelles appariées. Les méthodes récentes se concentrent principalement sur l'apprentissage de caractéristiques multimodales alignées avec les noms de classes pour améliorer la capacité de généralisation aux catégories non vues. Cependant, ces approches ignorent les concepts d'événements obscurs présents dans les noms de classes et peuvent inévitablement introduire des structures de réseau complexes avec des objectifs d'entraînement difficiles. Dans cet article, nous présentons un cadre simple mais efficace appelé Apprentissage Audiovisuel Augmenté par la Connaissance (KDA), qui aide le modèle à apprendre plus efficacement le contenu des nouveaux événements en utilisant une base de connaissances externe. Plus précisément, nous proposons d'utiliser la connaissance contenue dans les grands modèles linguistiques (LLMs) pour générer de nombreuses phrases descriptives incluant les caractéristiques audiovisuelles importantes qui distinguent les classes d'événements, ce qui permet une meilleure compréhension des catégories non vues. De plus, nous proposons une perte adaptative avec marge guidée par la connaissance pour aider à distinguer des événements similaires, améliorant ainsi davantage la capacité de généralisation vers les classes non vues. Des résultats expérimentaux étendus montrent que notre KDA proposé peut surpasser les méthodes de pointe sur trois jeux de données populaires d'apprentissage audiovisuel à zéro exemple. Notre code sera disponible à l'adresse \url{https://github.com/chenhaoxing/KDA}.