HyperAIHyperAI
vor einem Monat

Verwenden Sie das, was Sie haben: Video-Retrieval unter Verwendung von Repräsentationen aus kollaborativen Experten

Yang Liu; Samuel Albanie; Arsha Nagrani; Andrew Zisserman
Verwenden Sie das, was Sie haben: Video-Retrieval unter Verwendung von Repräsentationen aus kollaborativen Experten
Abstract

Das schnelle Wachstum von Videos im Internet hat die Suche nach Videoinhalten mithilfe natürlichsprachlicher Abfragen zu einer erheblichen Herausforderung gemacht. Menschlich generierte Abfragen für Video-Datensätze "in der Wildnis" variieren stark hinsichtlich ihres Spezifitätsgrades, wobei einige Abfragen spezielle Details beschreiben, wie z.B. die Namen bekannter Persönlichkeiten, Inhalte aus Reden oder Text auf dem Bildschirm. Unser Ziel ist es, die multimodale, extrem hochdimensionale Information aus Videos in eine einzelne, kompakte Videorepräsentation zu verdichten, um die Aufgabe der Videowiedergabe mithilfe freiformiger Textabfragen zu bewältigen, bei denen der Spezifitätsgrad offen ist.Dafür nutzen wir vorhandenes Wissen in Form vortrainierter semantischer Einbettungen (Embeddings), die allgemeine Merkmale wie Bewegung, Erscheinung und Szenenmerkmale aus visuellem Inhalt enthalten. Wir untersuchen auch die Verwendung spezifischerer Hinweise aus automatischer Spracherkennung (ASR) und optischer Zeichenerkennung (OCR), die für Videos intermittierend verfügbar sind, und stellen fest, dass diese Signale weiterhin schwierig effektiv für die Wiedergabe zu verwenden sind. Wir schlagen ein Modell kollaborativer Experten vor, um Informationen von diesen verschiedenen vortrainierten Experten zusammenzuführen und bewerten unseren Ansatz empirisch anhand fünf Wiedergabebenchmarks: MSR-VTT, LSMDC, MSVD, DiDeMo und ActivityNet. Der Quellcode und die Daten können unter www.robots.ox.ac.uk/~vgg/research/collaborative-experts/ abgerufen werden. Dieses Papier enthält eine Korrektur der in der früheren Version angegebenen Ergebnisse.