Semantikrollenbewusster Korrelations-Transformer für die Text-zu-Video-Abfrage

Mit dem Aufkommen sozialer Medien werden täglich umfangreiche Videoclips hochgeladen, weshalb die Suche nach relevantestem visuellem Inhalt anhand einer Sprachanfrage zunehmend entscheidend wird. Die meisten bisherigen Ansätze zielen darauf ab, einen gemeinsamen Einbettungsraum für einfache Text- und Visueldaten zu lernen, ohne deren intra-modale Strukturen und inter-modale Korrelationen ausreichend auszunutzen. In diesem Artikel wird ein neuartiger Transformer vorgestellt, der Text und Video explizit in semantische Rollen – Objekte, räumliche Kontexte und zeitliche Kontexte – zerlegt und hierbei eine Aufmerksamkeitsstrategie einsetzt, um sowohl intra- als auch inter-rolle Korrelationen zwischen diesen drei Rollen zu lernen, um diskriminative Merkmale auf verschiedenen Ebenen für die Übereinstimmungserkennung zu identifizieren. Die ersten Ergebnisse auf dem etablierten YouCook2-Datensatz zeigen, dass unser Ansatz eine aktuelle State-of-the-Art-Methode bei allen Metriken deutlich übertrifft. Zudem erreicht er zwei State-of-the-Art-Methoden in zwei Metriken.