HyperAIHyperAI

Command Palette

Search for a command to run...

Semantikrollenbewusster Korrelations-Transformer für die Text-zu-Video-Abfrage

Burak Satar Hongyuan Zhu Xavier Bresson Joo Hwee Lim

Zusammenfassung

Mit dem Aufkommen sozialer Medien werden täglich umfangreiche Videoclips hochgeladen, weshalb die Suche nach relevantestem visuellem Inhalt anhand einer Sprachanfrage zunehmend entscheidend wird. Die meisten bisherigen Ansätze zielen darauf ab, einen gemeinsamen Einbettungsraum für einfache Text- und Visueldaten zu lernen, ohne deren intra-modale Strukturen und inter-modale Korrelationen ausreichend auszunutzen. In diesem Artikel wird ein neuartiger Transformer vorgestellt, der Text und Video explizit in semantische Rollen – Objekte, räumliche Kontexte und zeitliche Kontexte – zerlegt und hierbei eine Aufmerksamkeitsstrategie einsetzt, um sowohl intra- als auch inter-rolle Korrelationen zwischen diesen drei Rollen zu lernen, um diskriminative Merkmale auf verschiedenen Ebenen für die Übereinstimmungserkennung zu identifizieren. Die ersten Ergebnisse auf dem etablierten YouCook2-Datensatz zeigen, dass unser Ansatz eine aktuelle State-of-the-Art-Methode bei allen Metriken deutlich übertrifft. Zudem erreicht er zwei State-of-the-Art-Methoden in zwei Metriken.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp