HyperAIHyperAI
منذ 2 أشهر

تعلم تمثيل اللغة البصرية لفهم الأفلام باستخدام اللغة الطبيعية

Atousa Torabi; Niket Tandon; Leonid Sigal
تعلم تمثيل اللغة البصرية لفهم الأفلام باستخدام اللغة الطبيعية
الملخص

تعلم تمثيل مشترك للغة والصورة يمتلك العديد من الخصائص الجذابة ويمكن أن يؤدي إلى مجموعة متنوعة من التطبيقات العملية، بما في ذلك تسمية الصور/الفيديوهات باللغة الطبيعية وبحثها. في هذا العمل، ندرس ثلاثة هياكل مختلفة لنماذج الشبكات العصبية المشتركة للغة والصورة. نقيم نماذجنا على مجموعة بيانات الأفلام الكبيرة LSMDC16 لمهامتين: 1) الترتيب القياسي لتسمية الفيديو واسترجاعه 2) اختبار متعدد الخيارات المقترح من قبلنا للأفلام. يساعد هذا الاختبار في تقييم تلقائي للنماذج البصرية-اللغوية لتسمية الفيديو باللغة الطبيعية بناءً على الأنشطة البشرية. بالإضافة إلى التسميات الأصلية لوصف الصوت (AD) المقدمة كجزء من LSMDC16، قمنا بجمع وسنقوم بتوفير: أ) إعادة صياغة هذه التسميات يدوياً باستخدام خدمة Amazon MTurk، ب) عناصر الأنشطة البشرية التي تم إنشاؤها تلقائياً في عبارات "المفعول به + الفاعل" (PO) استناداً إلى "Knowlywood"، وهو نموذج لاستخراج المعرفة المتعلقة بالأنشطة. أفضل نموذج لدينا حقق نسبة استدعاء @10 قدرها 19.2% في مهمة التسمية و18.9% في مهمة استرجاع الفيديو لمجموعة فرعية تتكون من 1000 عينة. بالنسبة لاختبار متعدد الخيارات، حقق أفضل نموذج لدينا دقة قدرها 58.11% على مجموعة الاختبار العامة لـ LSMDC16.

تعلم تمثيل اللغة البصرية لفهم الأفلام باستخدام اللغة الطبيعية | أحدث الأوراق البحثية | HyperAI