HyperAIHyperAI
منذ 2 أشهر

شبكة ذاكرة قابلة للقراءة والكتابة لفهم قصة الفيلم

Seil Na; Sangho Lee; Jisung Kim; Gunhee Kim
شبكة ذاكرة قابلة للقراءة والكتابة لفهم قصة الفيلم
الملخص

نقترح نموذج شبكة ذاكرة جديدًا باسم شبكة الذاكرة القابلة للقراءة والكتابة (Read-Write Memory Network - RWMN) لأداء مهام الأسئلة والإجابات لفهم قصص الأفلام على نطاق واسع وبشكل متعدد الوسائط. التركيز الرئيسي لنموذجنا RWMN هو تصميم شبكتي القراءة والكتابة اللتين تتكونان من عدة طبقات تلافيفية، مما يتيح إجراء عمليات القراءة والكتابة في الذاكرة بقدرة وكفاءة عالية. بينما تتعامل النماذج الحالية للشبكات المعززة بالذاكرة مع كل خلية ذاكرة ككتلة مستقلة، فإن استخدامنا للطبقات التلافيفية المتعددة يسمح للنموذج بقراءة وكتابة الخلايا الذاكرية التسلسلية كمجموعات، وهو ما يعتبر أكثر منطقية لتمثيل قصة تسلسلية لأن الكتل الذاكرية المجاورة غالبًا ما تكون ذات ارتباطات قوية. لتقدير أداء النموذج، نطبقه على جميع المهام الستة في معيار MovieQA ونحقق أفضل الدقائق في العديد من المهام، خاصةً في مهمة الأسئلة والإجابات البصرية. يظهر نموذجنا إمكانية فهم أفضل ليس فقط للمحتوى داخل القصة، ولكن أيضًا لمعلومات أكثر مجردة مثل العلاقات بين الشخصيات وأسباب أفعالها.