شبكات التحويل متعددة الوسائط لنظم الحوار المبنية على الفيديو من البداية إلى النهاية

تطوير أنظمة الحوار المبنية على الفيديو (VGDS)، حيث يتم إجراء الحوار بناءً على الجوانب البصرية والصوتية لفيديو معين، يعد تحديًا كبيرًا أكثر من الأنظمة التقليدية للحوار المبني على الصور أو النصوص، وذلك لسببين رئيسيين: (1) مساحة الخصائص في الفيديوهات تمتد عبر العديد من الإطارات الصورية، مما يجعل الحصول على المعلومات الدلالية صعبًا؛ و(2) يجب على وكيل الحوار أن يدرك ويعالج المعلومات من أنماط مختلفة (الصوت، الفيديو، التسميات التوضيحية، إلخ) للحصول على فهم شامل. معظم الأعمال الحالية تعتمد على الشبكات العصبية المتكررة (RNNs) والهياكل الترجمة التسلسلية إلى تسلسلية، والتي ليست فعالة جدًا في التقاط الارتباطات طويلة المدى المعقدة (كما هو الحال في الفيديوهات). لتجاوز هذا التحدي، نقترح استخدام شبكات الترانسفورمر متعددة الوسائط (MTN) لترميز الفيديوهات ودمج المعلومات من الأنماط المختلفة. كما نقترح استخدام انتباه مستند إلى الاستفسار من خلال كودر ذاتي لتوفير خصائص مستندة إلى الاستفسار من الأنماط غير النصية. لقد طورنا إجراء تدريبيًا يحاكي عملية فك التشفير على مستوى الرموز لتحسين جودة réponses المولدة أثناء الاستدلال. حققنا أداءً متفوقًا حاليًا في تحدي تقنيات نظام الحوار 7 (DSTC7). كما أن نموذجنا قابل للتعميم إلى مهمة أخرى للحوار المرتبط بالوسائط البصرية المتعددة، وحقق أداءً مشجعًا. قدمنا تنفيذ نماذجنا باستخدام PyTorch وتم إطلاق الكود في https://github.com/henryhungle/MTN.注:在阿拉伯语中,“responses”一词被翻译为“réponses”,这是法语词汇。正确的阿拉伯语翻译应该是“الردود”。以下是修正后的版本:تطوير أنظمة الحوار المبنية على الفيديو (VGDS)، حيث يتم إجراء الحوار بناءً على الجوانب البصرية والصوتية لفيديو معين، يعد تحديًا كبيرًا أكثر من الأنظمة التقليدية للحوار المبني على الصور أو النصوص، وذلك لسببين رئيسيين: (1) مساحة الخصائص في الفيديوهات تمتد عبر العديد من الإطارات الصورية، مما يجعل الحصول على المعلومات الدلالية صعبًا؛ و(2) يجب على وكيل الحوار أن يدرك ويعالج المعلومات من أنماط مختلفة (الصوت، الفيديو، التسميات التوضيحية، إلخ) للحصول على فهم شامل. معظم الأعمال الحالية تعتمد على الشبكات العصبية المتكررة (RNNs) والهياكل الترجمة التسلسلية إلى تسلسلية، والتي ليست فعالة جدًا في التقاط الارتباطات طويلة المدى المعقدة (كما هو الحال في الفيديوهات). لتجاوز هذا التحدي، نقترح استخدام شبكات الترانسفورمر متعددة الوسائط (MTN) لترميز الفيديوهات ودمج المعلومات من الأنماط المختلفة. كما نقترح استخدام انتباه مستند إلى الاستفسار من خلال كودر ذاتي لتوفير خصائص مستندة إلى الاستفسار من الأنماط غير النصية. لقد طورنا إجراء تدريبيًا يحاكي عملية فك التشفير على مستوى الرموز لتحسين جودة الردود المولدة أثناء الاستدلال. حققنا أداءً متفوقًا حاليًا في تحدي تقنيات نظام الحوار 7 (DSTC7). كما أن نموذجنا قابل للتعميم إلى مهمة أخرى للحوار المرتبط بالوسائط البصرية المتعددة، وحقق أداءً مشجعًا. قدمنا تنفيذ نماذجنا باستخدام PyTorch وتم إطلاق الكود في https://github.com/henryhungle/MTN.