HyperAIHyperAI
vor 9 Tagen

Multimodaler Transformer für die Videoabfrage

Valentin Gabeur, Chen Sun, Karteek Alahari, Cordelia Schmid
Multimodaler Transformer für die Videoabfrage
Abstract

Die Aufgabe der Abfrage von videoinhaltlich relevanten Informationen basierend auf natürlichen Sprachanfragen spielt eine entscheidende Rolle bei der effektiven Behandlung von Internet-skaligen Datensätzen. Die meisten bestehenden Ansätze für das Problem der Bildunterschrift-zu-Video-Abfrage nutzen die in Videos enthaltenen multimodalen Hinweise nicht vollständig aus. Zudem aggregieren sie visuelle Merkmale pro Frame, wobei nur begrenzte oder gar keine zeitliche Information berücksichtigt wird. In diesem Paper stellen wir einen multimodalen Transformer vor, der die verschiedenen Modalitäten in Videos gemeinsam kodiert und ermöglicht, dass jede Modality auf die anderen zugreift. Die Transformer-Architektur wird zudem genutzt, um zeitliche Informationen zu kodieren und zu modellieren. Auf der Seite der natürlichen Sprache untersuchen wir die besten Praktiken zur gemeinsamen Optimierung der Sprachdarstellung zusammen mit dem multimodalen Transformer. Dieser neuartige Rahmen ermöglicht es uns, state-of-the-art-Ergebnisse für die Video-Abfrage auf drei Datensätzen zu erzielen. Weitere Details finden sich unter http://thoth.inrialpes.fr/research/MMT.

Multimodaler Transformer für die Videoabfrage | Neueste Forschungsarbeiten | HyperAI