vor 17 Tagen

CBVS: Ein großskaliger chinesischer Bild-Text-Test für realweltbasierte Suchszenarien kurzer Videos

Xiangshuo Qiao, Xianxin Li, Xiaozhe Qu, Jie Zhang, Yang Liu, Yu Luo, Cihang Jin, Jin Ma

Abstract

Vision-Sprache-Modelle, die auf großskaligen Bild-Text-Datensätzen vortrainiert wurden, haben bei nachfolgenden Aufgaben wie Bildretrieval hervorragende Leistungen gezeigt. Die meisten Bilder für das Vortrainieren stammen aus offenen Domänen und repräsentieren allgemeine, gemeinsame visuelle Elemente. Im Gegensatz dazu werden in Szenarien kurzer Video-Suche Videocover als benutzererzeugte Inhalte präsentiert, die wichtige visuelle Zusammenfassungen der Videos liefern. Zudem sind einige Videocover mit manuell erstellten Cover-Texten versehen, die semantische Ergänzungen bieten. Um die Lücken in der Datenbasis kurzer Videocover zu schließen, stellen wir erstmals einen großskaligen Benchmark für Cover-Text-Daten im Kontext chinesischer kurzer Video-Suche vor. Konkret veröffentlichen wir zwei großskalige Datensätze, CBVS-5M und CBVS-10M, zur Bereitstellung von Videocover, sowie den manuell feinlabelierten Datensatz CBVS-20K, der echte Benutzerabfragen enthält und als Bild-Text-Benchmark für den Bereich chinesischer kurzer Video-Suche dient. Um die Semantik von Cover-Texten auch bei fehlender Modalität zu integrieren, schlagen wir UniCLIP vor, bei dem Cover-Texte während des Trainings eine leitende Rolle spielen, jedoch im Inferenzprozess nicht verwendet werden. Umfassende Evaluationen auf CBVS-20K belegen die hervorragende Leistung unseres Ansatzes. UniCLIP wurde bereits in die Online-Videosuchsysteme von Tencent integriert und verzeichnete bereits Hunderte Millionen von Aufrufen, wobei signifikante Verbesserungen erzielt wurden. Die Datensätze und der Quellcode sind unter https://github.com/QQBrowserVideoSearch/CBVS-UniCLIP verfügbar.