HyperAIHyperAI

Command Palette

Search for a command to run...

CBVS: Ein großskaliger chinesischer Bild-Text-Test für realweltbasierte Suchszenarien kurzer Videos

Xiangshuo Qiao Xianxin Li Xiaozhe Qu Jie Zhang Yang Liu Yu Luo Cihang Jin Jin Ma

Zusammenfassung

Vision-Sprache-Modelle, die auf großskaligen Bild-Text-Datensätzen vortrainiert wurden, haben bei nachfolgenden Aufgaben wie Bildretrieval hervorragende Leistungen gezeigt. Die meisten Bilder für das Vortrainieren stammen aus offenen Domänen und repräsentieren allgemeine, gemeinsame visuelle Elemente. Im Gegensatz dazu werden in Szenarien kurzer Video-Suche Videocover als benutzererzeugte Inhalte präsentiert, die wichtige visuelle Zusammenfassungen der Videos liefern. Zudem sind einige Videocover mit manuell erstellten Cover-Texten versehen, die semantische Ergänzungen bieten. Um die Lücken in der Datenbasis kurzer Videocover zu schließen, stellen wir erstmals einen großskaligen Benchmark für Cover-Text-Daten im Kontext chinesischer kurzer Video-Suche vor. Konkret veröffentlichen wir zwei großskalige Datensätze, CBVS-5M und CBVS-10M, zur Bereitstellung von Videocover, sowie den manuell feinlabelierten Datensatz CBVS-20K, der echte Benutzerabfragen enthält und als Bild-Text-Benchmark für den Bereich chinesischer kurzer Video-Suche dient. Um die Semantik von Cover-Texten auch bei fehlender Modalität zu integrieren, schlagen wir UniCLIP vor, bei dem Cover-Texte während des Trainings eine leitende Rolle spielen, jedoch im Inferenzprozess nicht verwendet werden. Umfassende Evaluationen auf CBVS-20K belegen die hervorragende Leistung unseres Ansatzes. UniCLIP wurde bereits in die Online-Videosuchsysteme von Tencent integriert und verzeichnete bereits Hunderte Millionen von Aufrufen, wobei signifikante Verbesserungen erzielt wurden. Die Datensätze und der Quellcode sind unter https://github.com/QQBrowserVideoSearch/CBVS-UniCLIP verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CBVS: Ein großskaliger chinesischer Bild-Text-Test für realweltbasierte Suchszenarien kurzer Videos | Paper | HyperAI