vor 8 Monaten

Zusammenfassung

Die Identifizierung von Adverbien, die eine Aktion in einem Video beschreiben, stellt einen entscheidenden Schritt zur feingranularen Videobewertung dar. Wir schlagen ein Framework für die Video-zu-Adverb-Retrieval (und umgekehrt) vor, das Video-Embeddings mit ihren passenden kompositionalen Adverb-Aktions-Text-Embeddings in einem gemeinsamen Embedding-Raum ausrichtet. Das kompositionale Adverb-Aktions-Text-Embedding wird unter Verwendung eines Residual-Gating-Mechanismus gelernt, zusammen mit einem neuen Trainingsziel, das aus Triplettenverlusten und einem Regressionsziel besteht. Unsere Methode erzielt den aktuellen Stand der Technik auf fünf neueren Benchmarks für die Video-Adverb-Retrieval. Darüber hinaus führen wir Datensatz-Splits ein, um die Video-Adverb-Retrieval für unbekannte Adverb-Aktions-Kompositionen auf Teilmengen des MSR-VTT Adverbs und ActivityNet Adverbs-Datensatzes zu bewerten. Unser vorgeschlagenes Framework übertrifft alle früheren Arbeiten bei der Generalisierungsaufgabe, Adverbien aus Videos für unbekannte Adverb-Aktions-Kompositionen zu retrivieren. Der Quellcode und die Datensatz-Splits sind unter https://hummelth.github.io/ReGaDa/ verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Multimodal

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Videobegreifen

Multimodal

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Video-Adverbien-Retrieval mit kompositionellen Adverbien-Aktion-Embeddings

Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Video-Adverbien-Retrieval mit kompositionellen Adverbien-Aktion-Embeddings

Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Video-Adverbien-Retrieval mit kompositionellen Adverbien-Aktion-Embeddings

Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters