HyperAIHyperAI

Command Palette

Search for a command to run...

السرد البصري المعلوماتي باستخدام قواعد متعددة الأوضاع

Jiacheng Li Haizhou Shi Siliang Tang* Fei Wu Yueting Zhuang

الملخص

الطرق الحالية في مجال السرد البصري غالباً ما تعاني من مشكلة إنتاج وصف عام، بينما يحتوي الصورة على الكثير من المحتويات ذات المعنى التي تظل غير ملحوظة. يمكن أن يُعزى فشل إنشاء القصص المعلوماتية إلى عدم قدرة النموذج على التقاط مفاهيم ذات معنى كافية. تشمل فئات هذه المفاهيم الكيانات والخصائص والأفعال والأحداث، والتي تكون في بعض الحالات حاسمة للسرد المرتبط بالسياق. لحل هذه المشكلة، نقترح طريقة لاستخراج القواعد متعددة الوسائط لمساعدة النموذج في استنتاج هذه المفاهيم المعلوماتية عند تقديم مدخل بصري معين. أولاً، نقوم ببناء المعاملات متعددة الوسائط عن طريق دمج تنشيطات CNN ومؤشرات الكلمات. ثم نستخدم خوارزمية استخراج القواعد الترابطية لاستخراج القواعد متعددة الوسائط، والتي ستُستخدم في استنتاج المفاهيم. بفضل القواعد متعددة الوسائط، تكون القصص المنتجة أكثر ارتباطاً بالموضوع وأكثر إفادة. بالإضافة إلى ذلك، تحمل الطريقة المقترحة مزايا التفسير والتوسع والنقل، مما يشير إلى إمكانية تطبيق أوسع. أخيراً، نستفيد من هذه المفاهيم في إطارنا الترميز-التفكيك باستخدام آلية الانتباه (attention mechanism). نجري عدة تجارب على مجموعة بيانات السرد البصري (Visual StoryTelling) (VIST)، حيث تظهر النتائج فعالية نهجنا من حيث المقاييس الآلية وتقييم البشر. كما تم إجراء تجارب إضافية توضح أن القواعد متعددة الوسائط المستخرجة كمصدر معرفي إضافي تساعده النموذج على تحقيق أداء أفضل عند التدريب على مجموعة بيانات صغيرة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp