HyperAI

Zero-Shot Video Retrieval bezieht sich auf die Aufgabe, relevante Videos basierend auf Textanfragen abzurufen, ohne dass es eine vorherige Schulung an spezifischen Videobeispielen gab. Diese Methode nutzt groß angelegte visuelle-sprachliche Vor-Schulungsmodelle, die aus vielfältigen Trainingsdaten generalisieren, um das semantische Verhältnis zwischen Textbeschreibungen und Videoinhalten zu verstehen. Dadurch ist es möglich, unbekannte Video-Konzepte abzurufen. Diese Technologie hat erheblichen Anwendungswert in Bereichen mit begrenzten annotierten Daten, wie zum Beispiel im Rundfunk, bei Überwachungssystemen und in historischen Archiven.

MSR-VTT

mPLUG-2

LanguageBind(ViT-H/14)