vor 2 Monaten

Boosting audiovisuelles Zero-Shot-Lernen mit großen Sprachmodellen

Chen, Haoxing ; Li, Yaohui ; Hong, Yan ; Huang, Zizheng ; Xu, Zhuoer ; Gu, Zhangxuan ; Lan, Jun ; Zhu, Huijia ; Wang, Weiqiang

Details der Forschungsarbeit anzeigen

Boosting audiovisuelles Zero-Shot-Lernen mit großen Sprachmodellen

Abstract

Das audiovisuelle Zero-Shot-Lernen (ZSL) zielt darauf ab, unbekannte Klassen auf Grundlage von gepaarten audiovisuellen Sequenzen zu erkennen. Aktuelle Methoden konzentrieren sich hauptsächlich darauf, multimodale Merkmale zu lernen, die mit Klassennamen ausgerichtet sind, um die Generalisierungsfähigkeit auf unbekannte Kategorien zu verbessern. Diese Ansätze ignorieren jedoch die schwierigen Ereigniskonzepte in den Klassennamen und führen möglicherweise unvermeidlich zu komplexen Netzwerkstrukturen mit anspruchsvollen Trainingszielen.In dieser Arbeit stellen wir ein geradliniges und dennoch effizientes Framework vor, das als KnowleDge-Augmented audio-visual learning (KDA) bezeichnet wird. Dieses Framework unterstützt das Modell dabei, neue Ereignisinhalte effektiver zu lernen, indem es eine externe Wissensbasis nutzt. Insbesondere schlagen wir vor, das Wissen, das in großen Sprachmodellen (LLMs) enthalten ist, zu nutzen, um zahlreiche beschreibende Sätze zu generieren, die wichtige unterscheidende audiovisuelle Merkmale der Ereignisklassen beinhalten. Dies hilft bei einem besseren Verständnis der unbekannten Kategorien. Darüber hinaus schlagen wir einen wissensbasierten adaptiven Marginalverlust (knowledge-aware adaptive margin loss) vor, um ähnliche Ereignisse besser voneinander abzugrenzen und die Generalisierungsfähigkeit auf unbekannte Klassen weiter zu verbessern.Umfangreiche experimentelle Ergebnisse zeigen, dass unser vorgeschlagener KDA drei gängige Datensätze für audiovisuelles Zero-Shot-Lernen übertrifft. Unser Code wird unter \url{https://github.com/chenhaoxing/KDA} zur Verfügung gestellt.