HyperAIHyperAI

Command Palette

Search for a command to run...

Boosting audiovisuelles Zero-Shot-Lernen mit großen Sprachmodellen

Haoxing Chen Yaohui Li Yan Hong Zizheng Huang Zhuoer Xu Zhangxuan Gu Jun Lan Huijia Zhu Weiqiang Wang

Zusammenfassung

Das audiovisuelle Zero-Shot-Lernen (ZSL) zielt darauf ab, unbekannte Klassen auf Grundlage von gepaarten audiovisuellen Sequenzen zu erkennen. Aktuelle Methoden konzentrieren sich hauptsächlich darauf, multimodale Merkmale zu lernen, die mit Klassennamen ausgerichtet sind, um die Generalisierungsfähigkeit auf unbekannte Kategorien zu verbessern. Diese Ansätze ignorieren jedoch die schwierigen Ereigniskonzepte in den Klassennamen und führen möglicherweise unvermeidlich zu komplexen Netzwerkstrukturen mit anspruchsvollen Trainingszielen.In dieser Arbeit stellen wir ein geradliniges und dennoch effizientes Framework vor, das als KnowleDge-Augmented audio-visual learning (KDA) bezeichnet wird. Dieses Framework unterstützt das Modell dabei, neue Ereignisinhalte effektiver zu lernen, indem es eine externe Wissensbasis nutzt. Insbesondere schlagen wir vor, das Wissen, das in großen Sprachmodellen (LLMs) enthalten ist, zu nutzen, um zahlreiche beschreibende Sätze zu generieren, die wichtige unterscheidende audiovisuelle Merkmale der Ereignisklassen beinhalten. Dies hilft bei einem besseren Verständnis der unbekannten Kategorien. Darüber hinaus schlagen wir einen wissensbasierten adaptiven Marginalverlust (knowledge-aware adaptive margin loss) vor, um ähnliche Ereignisse besser voneinander abzugrenzen und die Generalisierungsfähigkeit auf unbekannte Klassen weiter zu verbessern.Umfangreiche experimentelle Ergebnisse zeigen, dass unser vorgeschlagener KDA drei gängige Datensätze für audiovisuelles Zero-Shot-Lernen übertrifft. Unser Code wird unter \url{https://github.com/chenhaoxing/KDA} zur Verfügung gestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp