منذ 8 أشهر

الملخص

البحث عن الصور المركبة (CoIR) اكتسب شعبية مؤخرًا كمهمة تأخذ في الاعتبار الاستعلامات النصية والصورية معًا للبحث عن الصور ذات الصلة في قاعدة بيانات. تتطلب معظم نهج CoIR مجموعات بيانات تم توثيقها يدويًا، تتكون من ثلاثيات الصورة-النص-الصورة، حيث يصف النص التعديل من صورة الاستعلام إلى الصورة المستهدفة. ومع ذلك، فإن التوثيق اليدوي لهذه الثلاثيات باهظ الثمن ويمنع توسيع نطاقها. في هذا العمل، نقترح بدلاً من ذلك منهجية قابلة للتوسيع لإنشاء مجموعة بيانات آليًا تولد الثلاثيات بناءً على أزواج الفيديو-التعليق، مع توسيع نطاق المهمة لتشمل البحث عن الفيديوهات المركبة (CoVR). لهذا الغرض، نستخرج أزواج الفيديوهات ذات التعليقات المشابهة من قاعدة بيانات كبيرة، ونستفيد من نموذج اللغة الكبير لتوليد النص المقابل للتعديل. عند تطبيق هذه المنهجية على مجموعة WebVid2M الواسعة، نقوم بإنشاء مجموعة بيانات WebVid-CoVR الخاصة بنا بشكل آلي، مما يؤدي إلى إنتاج 1.6 مليون ثلاثية. بالإضافة إلى ذلك، نقدم مقاييس جديدة لـ CoVR مع مجموعة تقييم تم توثيقها يدويًا، فضلاً عن النتائج الأولية. نؤكد أيضًا أن منهجيتنا تنطبق بنفس القدر على أزواج الصورة-التعليق، وذلك بتوليد 3.3 مليون ثلاثية تدريب CoIR باستخدام مجموعة البيانات Conceptual Captions. يستند نموذجنا إلى التدريب المسبق BLIP-2، ويعده ليتناسب مع البحث عن الفيديوهات (أو الصور) المركبة، ويضم خسارة استرجاع التعليقات الإضافية لاستغلال الرقابة الإضافية خارج الثلاثية. نقدم دراسات حذف موسعة لتحليل الخيارات التصميمية في مقاييس CoVR الجديدة لدينا. كما تظهر تجاربنا أن تدريب نموذج CoVR على مجموعات البيانات الخاصة بنا ينقل بشكل فعال إلى CoIR، مما يؤدي إلى تحسين الأداء الرائد في الإعداد بدون تصوير مسبق على مقاييس CIRR و FashionIQ و CIRCO. يمكن الوصول إلى رمزنا ومجموعات البيانات والنماذج بشكل عام عبر الرابط: https://imagine.enpc.fr/~ventural/covr/.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Lucas Ventura Antoine Yang Cordelia Schmid, Fellow, IEEE Gül Varol

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lucas Ventura Antoine Yang Cordelia Schmid, Fellow, IEEE Gül Varol

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Lucas Ventura Antoine Yang Cordelia Schmid, Fellow, IEEE Gül Varol

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CoVR-2: بناء البيانات التلقائي لاسترجاع الفيديو المركب

Lucas Ventura Antoine Yang Cordelia Schmid, Fellow, IEEE Gül Varol

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CoVR-2: بناء البيانات التلقائي لاسترجاع الفيديو المركب

Lucas Ventura Antoine Yang Cordelia Schmid, Fellow, IEEE Gül Varol

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CoVR-2: بناء البيانات التلقائي لاسترجاع الفيديو المركب

Lucas Ventura Antoine Yang Cordelia Schmid, Fellow, IEEE Gül Varol

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters