HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات التحويل متعددة الوسائط لنظم الحوار المبنية على الفيديو من البداية إلى النهاية

Hung Le; Doyen Sahoo; Nancy F. Chen; Steven C.H. Hoi

الملخص

تطوير أنظمة الحوار المبنية على الفيديو (VGDS)، حيث يتم إجراء الحوار بناءً على الجوانب البصرية والصوتية لفيديو معين، يعد تحديًا كبيرًا أكثر من الأنظمة التقليدية للحوار المبني على الصور أو النصوص، وذلك لسببين رئيسيين: (1) مساحة الخصائص في الفيديوهات تمتد عبر العديد من الإطارات الصورية، مما يجعل الحصول على المعلومات الدلالية صعبًا؛ و(2) يجب على وكيل الحوار أن يدرك ويعالج المعلومات من أنماط مختلفة (الصوت، الفيديو، التسميات التوضيحية، إلخ) للحصول على فهم شامل. معظم الأعمال الحالية تعتمد على الشبكات العصبية المتكررة (RNNs) والهياكل الترجمة التسلسلية إلى تسلسلية، والتي ليست فعالة جدًا في التقاط الارتباطات طويلة المدى المعقدة (كما هو الحال في الفيديوهات). لتجاوز هذا التحدي، نقترح استخدام شبكات الترانسفورمر متعددة الوسائط (MTN) لترميز الفيديوهات ودمج المعلومات من الأنماط المختلفة. كما نقترح استخدام انتباه مستند إلى الاستفسار من خلال كودر ذاتي لتوفير خصائص مستندة إلى الاستفسار من الأنماط غير النصية. لقد طورنا إجراء تدريبيًا يحاكي عملية فك التشفير على مستوى الرموز لتحسين جودة réponses المولدة أثناء الاستدلال. حققنا أداءً متفوقًا حاليًا في تحدي تقنيات نظام الحوار 7 (DSTC7). كما أن نموذجنا قابل للتعميم إلى مهمة أخرى للحوار المرتبط بالوسائط البصرية المتعددة، وحقق أداءً مشجعًا. قدمنا تنفيذ نماذجنا باستخدام PyTorch وتم إطلاق الكود في https://github.com/henryhungle/MTN.注:在阿拉伯语中,“responses”一词被翻译为“réponses”,这是法语词汇。正确的阿拉伯语翻译应该是“الردود”。以下是修正后的版本:تطوير أنظمة الحوار المبنية على الفيديو (VGDS)، حيث يتم إجراء الحوار بناءً على الجوانب البصرية والصوتية لفيديو معين، يعد تحديًا كبيرًا أكثر من الأنظمة التقليدية للحوار المبني على الصور أو النصوص، وذلك لسببين رئيسيين: (1) مساحة الخصائص في الفيديوهات تمتد عبر العديد من الإطارات الصورية، مما يجعل الحصول على المعلومات الدلالية صعبًا؛ و(2) يجب على وكيل الحوار أن يدرك ويعالج المعلومات من أنماط مختلفة (الصوت، الفيديو، التسميات التوضيحية، إلخ) للحصول على فهم شامل. معظم الأعمال الحالية تعتمد على الشبكات العصبية المتكررة (RNNs) والهياكل الترجمة التسلسلية إلى تسلسلية، والتي ليست فعالة جدًا في التقاط الارتباطات طويلة المدى المعقدة (كما هو الحال في الفيديوهات). لتجاوز هذا التحدي، نقترح استخدام شبكات الترانسفورمر متعددة الوسائط (MTN) لترميز الفيديوهات ودمج المعلومات من الأنماط المختلفة. كما نقترح استخدام انتباه مستند إلى الاستفسار من خلال كودر ذاتي لتوفير خصائص مستندة إلى الاستفسار من الأنماط غير النصية. لقد طورنا إجراء تدريبيًا يحاكي عملية فك التشفير على مستوى الرموز لتحسين جودة الردود المولدة أثناء الاستدلال. حققنا أداءً متفوقًا حاليًا في تحدي تقنيات نظام الحوار 7 (DSTC7). كما أن نموذجنا قابل للتعميم إلى مهمة أخرى للحوار المرتبط بالوسائط البصرية المتعددة، وحقق أداءً مشجعًا. قدمنا تنفيذ نماذجنا باستخدام PyTorch وتم إطلاق الكود في https://github.com/henryhungle/MTN.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp