HyperAIHyperAI
منذ 7 أيام

MMT: توليد نهاية القصة الموجهة بالصورة باستخدام محول الذاكرة متعدد الوسائط

{Changsheng Xu, Quan Fang, Shengsheng Qian, Dizhan Xue}
الملخص

بصفة معينة من مهام توليد القصص، يُعد توليد نهاية القصة المُوجَّهة بالصورة (IgSEG) مهمةً حديثة تم اقتراحها لتوليد نهاية قصة بناءً على مخطط قصصي مكوّن من جمل متعددة وصورة مرتبطة بالنهاية. على عكس المهام الحالية المتعلقة بوصف الصور أو توليد نهاية القصة، يهدف IgSEG إلى إنتاج وصف واقعي يتوافق مع المنطق السياقي ومفاهيم الصورة ذات الصلة. إلى الآن، تتجاهل الطرق الحالية المُقترحة لـ IgSEG العلاقات بين المعلومات متعددة الوسائط، ولا تُدمج الميزات متعددة الوسائط بشكل مناسب. لذلك، في هذه الدراسة، نقترح إطارًا جديدًا يُسمى "مُحول الذاكرة متعدد الوسائط" (MMT)، وهو إطار يعمل بشكل مباشر (end-to-end) لتمثيل ودمج المعلومات السياقية والبصرية بهدف التقاط الاعتماديات متعددة الوسائط بشكل فعّال في مهمة IgSEG. أولاً، نستخرج الميزات النصية والبصرية بشكل منفصل باستخدام مُشفّرات مُدرّبة مسبقًا على نطاق واسع ومخصصة لكل وسيلة. ثانيًا، نستخدم شبكة الانتباه المتقاطع المُدعَّمة بالذاكرة لاستكشاف العلاقات بين الوسائط المختلفة وتنفيذ دمج دقيق للميزات. أخيرًا، يقوم مُشفّر مُحول متعدد الوسائط ببناء انتباه بين الميزات متعددة الوسائط لفهم الاعتماديات القصصية وتوليد نهايات قصصية معلوماتية وعقلانية ومتماسكة. في التجارب، تُظهر النتائج التلقائية الموسعة والنتائج المُقيّمة من قبل البشر تحسنًا ملحوظًا في الأداء بالنسبة للطرق المتقدمة حديثًا على مجموعتي بيانات معياريتين.

MMT: توليد نهاية القصة الموجهة بالصورة باستخدام محول الذاكرة متعدد الوسائط | أحدث الأوراق البحثية | HyperAI