HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تمثيل اللغة البصرية لفهم الأفلام باستخدام اللغة الطبيعية

Atousa Torabi; Niket Tandon; Leonid Sigal

الملخص

تعلم تمثيل مشترك للغة والصورة يمتلك العديد من الخصائص الجذابة ويمكن أن يؤدي إلى مجموعة متنوعة من التطبيقات العملية، بما في ذلك تسمية الصور/الفيديوهات باللغة الطبيعية وبحثها. في هذا العمل، ندرس ثلاثة هياكل مختلفة لنماذج الشبكات العصبية المشتركة للغة والصورة. نقيم نماذجنا على مجموعة بيانات الأفلام الكبيرة LSMDC16 لمهامتين: 1) الترتيب القياسي لتسمية الفيديو واسترجاعه 2) اختبار متعدد الخيارات المقترح من قبلنا للأفلام. يساعد هذا الاختبار في تقييم تلقائي للنماذج البصرية-اللغوية لتسمية الفيديو باللغة الطبيعية بناءً على الأنشطة البشرية. بالإضافة إلى التسميات الأصلية لوصف الصوت (AD) المقدمة كجزء من LSMDC16، قمنا بجمع وسنقوم بتوفير: أ) إعادة صياغة هذه التسميات يدوياً باستخدام خدمة Amazon MTurk، ب) عناصر الأنشطة البشرية التي تم إنشاؤها تلقائياً في عبارات "المفعول به + الفاعل" (PO) استناداً إلى "Knowlywood"، وهو نموذج لاستخراج المعرفة المتعلقة بالأنشطة. أفضل نموذج لدينا حقق نسبة استدعاء @10 قدرها 19.2% في مهمة التسمية و18.9% في مهمة استرجاع الفيديو لمجموعة فرعية تتكون من 1000 عينة. بالنسبة لاختبار متعدد الخيارات، حقق أفضل نموذج لدينا دقة قدرها 58.11% على مجموعة الاختبار العامة لـ LSMDC16.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp