تعلم تمثيل اللغة البصرية لفهم الأفلام باستخدام اللغة الطبيعية

تعلم تمثيل مشترك للغة والصورة يمتلك العديد من الخصائص الجذابة ويمكن أن يؤدي إلى مجموعة متنوعة من التطبيقات العملية، بما في ذلك تسمية الصور/الفيديوهات باللغة الطبيعية وبحثها. في هذا العمل، ندرس ثلاثة هياكل مختلفة لنماذج الشبكات العصبية المشتركة للغة والصورة. نقيم نماذجنا على مجموعة بيانات الأفلام الكبيرة LSMDC16 لمهامتين: 1) الترتيب القياسي لتسمية الفيديو واسترجاعه 2) اختبار متعدد الخيارات المقترح من قبلنا للأفلام. يساعد هذا الاختبار في تقييم تلقائي للنماذج البصرية-اللغوية لتسمية الفيديو باللغة الطبيعية بناءً على الأنشطة البشرية. بالإضافة إلى التسميات الأصلية لوصف الصوت (AD) المقدمة كجزء من LSMDC16، قمنا بجمع وسنقوم بتوفير: أ) إعادة صياغة هذه التسميات يدوياً باستخدام خدمة Amazon MTurk، ب) عناصر الأنشطة البشرية التي تم إنشاؤها تلقائياً في عبارات "المفعول به + الفاعل" (PO) استناداً إلى "Knowlywood"، وهو نموذج لاستخراج المعرفة المتعلقة بالأنشطة. أفضل نموذج لدينا حقق نسبة استدعاء @10 قدرها 19.2% في مهمة التسمية و18.9% في مهمة استرجاع الفيديو لمجموعة فرعية تتكون من 1000 عينة. بالنسبة لاختبار متعدد الخيارات، حقق أفضل نموذج لدينا دقة قدرها 58.11% على مجموعة الاختبار العامة لـ LSMDC16.