HyperAIHyperAI

Command Palette

Search for a command to run...

اسأل فقط: تعلّم الإجابة على الأسئلة من ملايين الفيديوهات المصورة

Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid

الملخص

تعتمد الأساليب الحديثة لحل الأسئلة المرئية على مجموعات بيانات مُANNOTATED كبيرة الحجم. ومع ذلك، فإن عملية التسمية اليدوية للأسئلة والإجابات الخاصة بالفيديوهات تكون مُرهقة ومبذرة للتكاليف، وتُحد من قابلية التوسع. في هذا العمل، نقترح تجنب التسمية اليدوية وتكوين مجموعة بيانات تدريب كبيرة الحجم لحل الأسئلة المرئية، وذلك باستخدام إشراف عابر النماذج تلقائيًا. نستفيد من نموذج توليد الأسئلة المستند إلى المحولات (Transformer) الذي تم تدريبه على بيانات نصية، ونستخدمه لتوليد أزواج الأسئلة والإجابات من النصوص المكتوبة التي تُسجّل في الفيديوهات. وباستخدام الفيديوهات التي تُرافقها نصوص، نُنتج تلقائيًا مجموعة بيانات HowToVQA69M التي تحتوي على 69 مليون ثلاثية فيديو-سؤال-إجابة. ولمعالجة تعدد المفردات المفتوحة في الإجابات المتنوعة ضمن هذه المجموعة، نقترح إجراء تدريب مبني على خسارة تقابلية (contrastive loss) بين نموذج متعدد النماذج (multi-modal transformer) للفيديو-السؤال، ونموذج مُحول للإجابة. كما نُقدّم مهمة حل الأسئلة المرئية بدون تدريب مسبق (zero-shot VideoQA)، ونُظهر نتائج ممتازة، خصوصًا في حالة الإجابات النادرة. علاوة على ذلك، نُظهر أن طريقتنا تتفوق بشكل كبير على أحدث النماذج في مجموعات بيانات MSRVTT-QA، MSVD-QA، ActivityNet-QA، وHow2QA. وأخيرًا، لإجراء تقييم مفصل، نُقدّم iVQA، وهي مجموعة بيانات جديدة لحل الأسئلة المرئية، تتميز بانخفاض التحيّز اللغوي ووجود تسميات يدوية مكررة عالية الجودة. تُتاح الكود، والبيانات، والنموذج المُدرّب عبر الرابط التالي: https://antoyang.github.io/just-ask.html.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
اسأل فقط: تعلّم الإجابة على الأسئلة من ملايين الفيديوهات المصورة | مستندات | HyperAI