CBVS: معيار صور ونصوص صيني على نطاق واسع لسيناريوهات بحث الفيديو القصير في العالم الحقيقي

نموذجات الرؤية واللغة التي تم تدريبها مسبقًا على مجموعات بيانات ضخمة من الصور والنصوص أظهرت أداءً متميزًا في المهام اللاحقة مثل استرجاع الصور. تُقدَّم معظم الصور المستخدمة في التدريب المسبق على شكل عناصر بصرية شائعة في مجال مفاهيم عامة مفتوحة. أما في المقابل، فإن صور الغلاف في سيناريوهات بحث الفيديوهات القصيرة تُقدَّم كمحتوى منشأ من المستخدمين، وتوفر ملخصات بصرية مهمة للفيديوهات. علاوة على ذلك، تأتي جزء من صور الغلاف مع نصوص غلاف مصممة يدويًا توفر تكملة معنوية. ولسد الفجوة في بيانات صور الغلاف الخاصة بالفيديوهات القصيرة، قمنا بإنشاء أول معيار ضخم لصور الغلاف والنصوص في سياقات البحث عن الفيديوهات القصيرة باللغة الصينية. وبشكل محدد، نُطلق مجموعتي بيانات ضخمتين هما CBVS-5M/10M لتوفير صور غلاف للفيديوهات القصيرة، بالإضافة إلى مجموعة بيانات مُصاغة يدويًا بعنوان CBVS-20K لتوفير استعلامات حقيقية من المستخدمين، والتي تُستخدم كمعيار تجريبي للصورة والنص في مجال البحث عن الفيديوهات القصيرة باللغة الصينية. ولدمج معاني نصوص غلاف الفيديو في حال غياب أحد الوسائط، نقترح نموذج UniCLIP، حيث تؤدي نصوص الغلاف دورًا توجيهيًا أثناء التدريب، ولكنها لا تُعتمد عليها أثناء الاستنتاج. وقد أظهرت التقييمات الواسعة على مجموعة CBVS-20K أداءً ممتازًا لمقترحنا. وقد تم نشر نموذج UniCLIP في أنظمة البحث عن الفيديوهات عبر الإنترنت التابعة لشركة تيننت، والتي تتلقى ملايين الزيارات يوميًا، وأسفر عن تحسينات كبيرة. يمكن الوصول إلى مجموعة البيانات والكود عبر الرابط: https://github.com/QQBrowserVideoSearch/CBVS-UniCLIP.