HyperAIHyperAI
منذ 2 أشهر

CoVR-2: بناء البيانات التلقائي لاسترجاع الفيديو المركب

Ventura, Lucas ; Yang, Antoine ; Schmid, Cordelia ; Varol, Gül
CoVR-2: بناء البيانات التلقائي لاسترجاع الفيديو المركب
الملخص

البحث عن الصور المركبة (CoIR) اكتسب شعبية مؤخرًا كمهمة تأخذ في الاعتبار الاستعلامات النصية والصورية معًا للبحث عن الصور ذات الصلة في قاعدة بيانات. تتطلب معظم نهج CoIR مجموعات بيانات تم توثيقها يدويًا، تتكون من ثلاثيات الصورة-النص-الصورة، حيث يصف النص التعديل من صورة الاستعلام إلى الصورة المستهدفة. ومع ذلك، فإن التوثيق اليدوي لهذه الثلاثيات باهظ الثمن ويمنع توسيع نطاقها. في هذا العمل، نقترح بدلاً من ذلك منهجية قابلة للتوسيع لإنشاء مجموعة بيانات آليًا تولد الثلاثيات بناءً على أزواج الفيديو-التعليق، مع توسيع نطاق المهمة لتشمل البحث عن الفيديوهات المركبة (CoVR). لهذا الغرض، نستخرج أزواج الفيديوهات ذات التعليقات المشابهة من قاعدة بيانات كبيرة، ونستفيد من نموذج اللغة الكبير لتوليد النص المقابل للتعديل. عند تطبيق هذه المنهجية على مجموعة WebVid2M الواسعة، نقوم بإنشاء مجموعة بيانات WebVid-CoVR الخاصة بنا بشكل آلي، مما يؤدي إلى إنتاج 1.6 مليون ثلاثية. بالإضافة إلى ذلك، نقدم مقاييس جديدة لـ CoVR مع مجموعة تقييم تم توثيقها يدويًا، فضلاً عن النتائج الأولية. نؤكد أيضًا أن منهجيتنا تنطبق بنفس القدر على أزواج الصورة-التعليق، وذلك بتوليد 3.3 مليون ثلاثية تدريب CoIR باستخدام مجموعة البيانات Conceptual Captions. يستند نموذجنا إلى التدريب المسبق BLIP-2، ويعده ليتناسب مع البحث عن الفيديوهات (أو الصور) المركبة، ويضم خسارة استرجاع التعليقات الإضافية لاستغلال الرقابة الإضافية خارج الثلاثية. نقدم دراسات حذف موسعة لتحليل الخيارات التصميمية في مقاييس CoVR الجديدة لدينا. كما تظهر تجاربنا أن تدريب نموذج CoVR على مجموعات البيانات الخاصة بنا ينقل بشكل فعال إلى CoIR، مما يؤدي إلى تحسين الأداء الرائد في الإعداد بدون تصوير مسبق على مقاييس CIRR و FashionIQ و CIRCO. يمكن الوصول إلى رمزنا ومجموعات البيانات والنماذج بشكل عام عبر الرابط: https://imagine.enpc.fr/~ventural/covr/.

CoVR-2: بناء البيانات التلقائي لاسترجاع الفيديو المركب | أحدث الأوراق البحثية | HyperAI