Command Palette
Search for a command to run...
تعلم تمثيل اللغة البصرية لفهم الأفلام باستخدام اللغة الطبيعية
تعلم تمثيل اللغة البصرية لفهم الأفلام باستخدام اللغة الطبيعية
Atousa Torabi; Niket Tandon; Leonid Sigal
الملخص
تعلم تمثيل مشترك للغة والصورة يمتلك العديد من الخصائص الجذابة ويمكن أن يؤدي إلى مجموعة متنوعة من التطبيقات العملية، بما في ذلك تسمية الصور/الفيديوهات باللغة الطبيعية وبحثها. في هذا العمل، ندرس ثلاثة هياكل مختلفة لنماذج الشبكات العصبية المشتركة للغة والصورة. نقيم نماذجنا على مجموعة بيانات الأفلام الكبيرة LSMDC16 لمهامتين: 1) الترتيب القياسي لتسمية الفيديو واسترجاعه 2) اختبار متعدد الخيارات المقترح من قبلنا للأفلام. يساعد هذا الاختبار في تقييم تلقائي للنماذج البصرية-اللغوية لتسمية الفيديو باللغة الطبيعية بناءً على الأنشطة البشرية. بالإضافة إلى التسميات الأصلية لوصف الصوت (AD) المقدمة كجزء من LSMDC16، قمنا بجمع وسنقوم بتوفير: أ) إعادة صياغة هذه التسميات يدوياً باستخدام خدمة Amazon MTurk، ب) عناصر الأنشطة البشرية التي تم إنشاؤها تلقائياً في عبارات "المفعول به + الفاعل" (PO) استناداً إلى "Knowlywood"، وهو نموذج لاستخراج المعرفة المتعلقة بالأنشطة. أفضل نموذج لدينا حقق نسبة استدعاء @10 قدرها 19.2% في مهمة التسمية و18.9% في مهمة استرجاع الفيديو لمجموعة فرعية تتكون من 1000 عينة. بالنسبة لاختبار متعدد الخيارات، حقق أفضل نموذج لدينا دقة قدرها 58.11% على مجموعة الاختبار العامة لـ LSMDC16.