اسأل فقط: تعلّم الإجابة على الأسئلة من ملايين الفيديوهات المصورة

تعتمد الأساليب الحديثة لحل الأسئلة المرئية على مجموعات بيانات مُANNOTATED كبيرة الحجم. ومع ذلك، فإن عملية التسمية اليدوية للأسئلة والإجابات الخاصة بالفيديوهات تكون مُرهقة ومبذرة للتكاليف، وتُحد من قابلية التوسع. في هذا العمل، نقترح تجنب التسمية اليدوية وتكوين مجموعة بيانات تدريب كبيرة الحجم لحل الأسئلة المرئية، وذلك باستخدام إشراف عابر النماذج تلقائيًا. نستفيد من نموذج توليد الأسئلة المستند إلى المحولات (Transformer) الذي تم تدريبه على بيانات نصية، ونستخدمه لتوليد أزواج الأسئلة والإجابات من النصوص المكتوبة التي تُسجّل في الفيديوهات. وباستخدام الفيديوهات التي تُرافقها نصوص، نُنتج تلقائيًا مجموعة بيانات HowToVQA69M التي تحتوي على 69 مليون ثلاثية فيديو-سؤال-إجابة. ولمعالجة تعدد المفردات المفتوحة في الإجابات المتنوعة ضمن هذه المجموعة، نقترح إجراء تدريب مبني على خسارة تقابلية (contrastive loss) بين نموذج متعدد النماذج (multi-modal transformer) للفيديو-السؤال، ونموذج مُحول للإجابة. كما نُقدّم مهمة حل الأسئلة المرئية بدون تدريب مسبق (zero-shot VideoQA)، ونُظهر نتائج ممتازة، خصوصًا في حالة الإجابات النادرة. علاوة على ذلك، نُظهر أن طريقتنا تتفوق بشكل كبير على أحدث النماذج في مجموعات بيانات MSRVTT-QA، MSVD-QA، ActivityNet-QA، وHow2QA. وأخيرًا، لإجراء تقييم مفصل، نُقدّم iVQA، وهي مجموعة بيانات جديدة لحل الأسئلة المرئية، تتميز بانخفاض التحيّز اللغوي ووجود تسميات يدوية مكررة عالية الجودة. تُتاح الكود، والبيانات، والنموذج المُدرّب عبر الرابط التالي: https://antoyang.github.io/just-ask.html.