17日前

CBVS:現実世界のショートビデオ検索シナリオ向けの大規模な中国語画像-テキストベンチマーク

Xiangshuo Qiao, Xianxin Li, Xiaozhe Qu, Jie Zhang, Yang Liu, Yu Luo, Cihang Jin, Jin Ma
CBVS:現実世界のショートビデオ検索シナリオ向けの大規模な中国語画像-テキストベンチマーク
要約

大規模な画像-テキストデータセット上で事前学習された視覚言語モデルは、画像検索などの下流タスクにおいて優れた性能を示している。多くの事前学習用画像は、オープンドメインの一般的な常識的視覚要素として提示されるが、短い動画検索の文脈では、ビデオカバーはユーザーが生成したコンテンツとして提供され、動画の重要な視覚的要約を担っている。さらに、一部のビデオカバーには、意味的な補完情報を提供するように手動で設計されたカバーテキストが付随している。このような短い動画カバーデータの不足を補うため、本研究では中国語の短い動画検索シーンに特化した、初めての大規模なカバー-テキストベンチマークを構築した。具体的には、短い動画カバーを提供する大規模データセット「CBVS-5M/10M」と、実際のユーザークエリを提供する手動での精細ラベル付けデータセット「CBVS-20K」を公開した。これらは中国語の短い動画検索分野における画像-テキストベンチマークとしての役割を果たす。モダリティ欠損状況下でのカバーテキストの意味統合を実現するために、UniCLIPを提案する。本モデルでは、学習段階でカバーテキストがガイドとして機能するが、推論時には依存しない設計となっている。CBVS-20Kにおける広範な評価により、提案手法の優れた性能が実証された。UniCLIPは、数億回のアクセスを記録する Tencent のオンライン動画検索システムに導入され、顕著な性能向上を達成した。データセットおよびコードは、https://github.com/QQBrowserVideoSearch/CBVS-UniCLIP にて公開されている。