HyperAIHyperAI

Command Palette

Search for a command to run...

Kreuzmodale Repräsentationslernen für Zero-shot-Aktionserkennung

Chung-Ching Lin Kevin Lin Linjie Li Lijuan Wang Zicheng Liu

Zusammenfassung

Wir präsentieren einen auf Transformer basierenden, multimodalen Rahmen, der Video-Daten und Text-Labels gemeinsam kodiert, um die Zero-Shot-Aktionserkennung (ZSAR) zu ermöglichen. Unser Modell verwendet einen konzeptionell neuen Ansatz, bei dem visuelle Darstellungen gemeinsam mit visuell-semantischen Assoziationen end-to-end gelernt werden. Die Modellarchitektur bietet eine natürliche Mechanik, um visuelle und semantische Darstellungen in einem gemeinsamen Wissensraum zu lernen, wodurch die gelernten visuellen Embeddings diskriminativ und semantisch konsistenter werden. Bei der Zero-Shot-Inferenz entwickeln wir ein einfaches semantisches Übertragungsverfahren, das semantische Ähnlichkeitsinformationen zwischen gesehenen und nicht gesehenen Klassen nutzt, um unsichtbare visuelle Prototypen zu konstruieren. Dadurch können die diskriminativen Merkmale der visuellen Struktur bewahrt und genutzt werden, um typische Probleme der Zero-Shot-Erkennung – wie Informationsverlust, semantische Lücke und das Hubness-Problem – zu mildern. Unter einer strengen Zero-Shot-Testbedingung, bei der kein zusätzlicher Datensatz zur Vortrainierung verwendet wird, zeigen die Experimente, dass unser Modell die bisherigen State-of-the-Art-Methoden in der ZSAR deutlich übertrifft und ermutigende Top-1-Accuracy-Werte auf den Benchmark-Datensätzen UCF101, HMDB51 und ActivityNet erreicht. Der Quellcode wird verfügbar gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kreuzmodale Repräsentationslernen für Zero-shot-Aktionserkennung | Paper | HyperAI