HyperAIHyperAI
منذ 4 أشهر

السرد البصري المعلوماتي باستخدام قواعد متعددة الأوضاع

Jiacheng Li; Haizhou Shi; Siliang Tang; Fei Wu; Yueting Zhuang
السرد البصري المعلوماتي باستخدام قواعد متعددة الأوضاع
الملخص

الطرق الحالية في مجال السرد البصري غالباً ما تعاني من مشكلة إنتاج وصف عام، بينما يحتوي الصورة على الكثير من المحتويات ذات المعنى التي تظل غير ملحوظة. يمكن أن يُعزى فشل إنشاء القصص المعلوماتية إلى عدم قدرة النموذج على التقاط مفاهيم ذات معنى كافية. تشمل فئات هذه المفاهيم الكيانات والخصائص والأفعال والأحداث، والتي تكون في بعض الحالات حاسمة للسرد المرتبط بالسياق. لحل هذه المشكلة، نقترح طريقة لاستخراج القواعد متعددة الوسائط لمساعدة النموذج في استنتاج هذه المفاهيم المعلوماتية عند تقديم مدخل بصري معين. أولاً، نقوم ببناء المعاملات متعددة الوسائط عن طريق دمج تنشيطات CNN ومؤشرات الكلمات. ثم نستخدم خوارزمية استخراج القواعد الترابطية لاستخراج القواعد متعددة الوسائط، والتي ستُستخدم في استنتاج المفاهيم. بفضل القواعد متعددة الوسائط، تكون القصص المنتجة أكثر ارتباطاً بالموضوع وأكثر إفادة. بالإضافة إلى ذلك، تحمل الطريقة المقترحة مزايا التفسير والتوسع والنقل، مما يشير إلى إمكانية تطبيق أوسع. أخيراً، نستفيد من هذه المفاهيم في إطارنا الترميز-التفكيك باستخدام آلية الانتباه (attention mechanism). نجري عدة تجارب على مجموعة بيانات السرد البصري (Visual StoryTelling) (VIST)، حيث تظهر النتائج فعالية نهجنا من حيث المقاييس الآلية وتقييم البشر. كما تم إجراء تجارب إضافية توضح أن القواعد متعددة الوسائط المستخرجة كمصدر معرفي إضافي تساعده النموذج على تحقيق أداء أفضل عند التدريب على مجموعة بيانات صغيرة.