HyperAIHyperAI
vor 2 Monaten

Duales Encoding für die Video-Retrieval durch Text

Dong, Jianfeng ; Li, Xirong ; Xu, Chaoxi ; Yang, Xun ; Yang, Gang ; Wang, Xun ; Wang, Meng
Duales Encoding für die Video-Retrieval durch Text
Abstract

Dieses Papier greift das anspruchsvolle Problem der Textbasierten Videorecherche an. Bei diesem Recheparatyp sucht ein Endbenutzer nach nicht gekennzeichneten Videos durch ad-hoc-Anfragen, die ausschließlich in Form natürlichsprachiger Sätze beschrieben werden, ohne dass ein visuelles Beispiel bereitgestellt wird. Angesichts von Videos als Sequenzen von Bildern und Anfragen als Sequenzen von Wörtern ist eine effektive sequenzbasierte multimodale Zuordnung entscheidend. Dazu müssen die beiden Modalitäten zunächst in reellwertige Vektoren kodiert und dann in einen gemeinsamen Raum projiziert werden. In dieser Arbeit erreichen wir dies durch den Vorschlag eines dualen tiefen Kodierungsnetworks, das Videos und Anfragen in leistungsfähige dichte Darstellungen ihrer jeweiligen Modalität kodiert. Unsere Neuerung besteht aus zwei Aspekten: Erstens unterscheidet sich unser vorgeschlagenes Netzwerk von früheren Ansätzen, die auf einen spezifischen Einzelschichtkodierer zurückgreifen, indem es eine mehrstufige Kodierung durchführt, die den reichhaltigen Inhalt beider Modalitäten in einer grobkörnig bis feinkörnigen Weise darstellt. Zweitens differenziert sich unser Ansatz von konventionellen Algorithmen zur Lernung eines gemeinsamen Raums, die entweder begriffsbasiert oder latente-Raumbasiert sind, indem wir eine hybride Raumlernmethode einführen, die die hohe Leistung des latenten Raums und die gute Interpretierbarkeit des Begriffsraums kombiniert. Die duale Kodierung ist konzeptionell einfach, praktisch effektiv und wird end-to-end mit hybrider Raumlernmethode trainiert. Ausführliche Experimente auf vier anspruchsvollen Videodatensätzen zeigen die Machbarkeit der neuen Methode.

Duales Encoding für die Video-Retrieval durch Text | Neueste Forschungsarbeiten | HyperAI