منذ 7 أشهر

الملخص

تطوير أنظمة الحوار المبنية على الفيديو (VGDS)، حيث يتم إجراء الحوار بناءً على الجوانب البصرية والصوتية لفيديو معين، يعد تحديًا كبيرًا أكثر من الأنظمة التقليدية للحوار المبني على الصور أو النصوص، وذلك لسببين رئيسيين: (1) مساحة الخصائص في الفيديوهات تمتد عبر العديد من الإطارات الصورية، مما يجعل الحصول على المعلومات الدلالية صعبًا؛ و(2) يجب على وكيل الحوار أن يدرك ويعالج المعلومات من أنماط مختلفة (الصوت، الفيديو، التسميات التوضيحية، إلخ) للحصول على فهم شامل. معظم الأعمال الحالية تعتمد على الشبكات العصبية المتكررة (RNNs) والهياكل الترجمة التسلسلية إلى تسلسلية، والتي ليست فعالة جدًا في التقاط الارتباطات طويلة المدى المعقدة (كما هو الحال في الفيديوهات). لتجاوز هذا التحدي، نقترح استخدام شبكات الترانسفورمر متعددة الوسائط (MTN) لترميز الفيديوهات ودمج المعلومات من الأنماط المختلفة. كما نقترح استخدام انتباه مستند إلى الاستفسار من خلال كودر ذاتي لتوفير خصائص مستندة إلى الاستفسار من الأنماط غير النصية. لقد طورنا إجراء تدريبيًا يحاكي عملية فك التشفير على مستوى الرموز لتحسين جودة réponses المولدة أثناء الاستدلال. حققنا أداءً متفوقًا حاليًا في تحدي تقنيات نظام الحوار 7 (DSTC7). كما أن نموذجنا قابل للتعميم إلى مهمة أخرى للحوار المرتبط بالوسائط البصرية المتعددة، وحقق أداءً مشجعًا. قدمنا تنفيذ نماذجنا باستخدام PyTorch وتم إطلاق الكود في https://github.com/henryhungle/MTN.注：在阿拉伯语中，“responses”一词被翻译为“réponses”，这是法语词汇。正确的阿拉伯语翻译应该是“الردود”。以下是修正后的版本：تطوير أنظمة الحوار المبنية على الفيديو (VGDS)، حيث يتم إجراء الحوار بناءً على الجوانب البصرية والصوتية لفيديو معين، يعد تحديًا كبيرًا أكثر من الأنظمة التقليدية للحوار المبني على الصور أو النصوص، وذلك لسببين رئيسيين: (1) مساحة الخصائص في الفيديوهات تمتد عبر العديد من الإطارات الصورية، مما يجعل الحصول على المعلومات الدلالية صعبًا؛ و(2) يجب على وكيل الحوار أن يدرك ويعالج المعلومات من أنماط مختلفة (الصوت، الفيديو، التسميات التوضيحية، إلخ) للحصول على فهم شامل. معظم الأعمال الحالية تعتمد على الشبكات العصبية المتكررة (RNNs) والهياكل الترجمة التسلسلية إلى تسلسلية، والتي ليست فعالة جدًا في التقاط الارتباطات طويلة المدى المعقدة (كما هو الحال في الفيديوهات). لتجاوز هذا التحدي، نقترح استخدام شبكات الترانسفورمر متعددة الوسائط (MTN) لترميز الفيديوهات ودمج المعلومات من الأنماط المختلفة. كما نقترح استخدام انتباه مستند إلى الاستفسار من خلال كودر ذاتي لتوفير خصائص مستندة إلى الاستفسار من الأنماط غير النصية. لقد طورنا إجراء تدريبيًا يحاكي عملية فك التشفير على مستوى الرموز لتحسين جودة الردود المولدة أثناء الاستدلال. حققنا أداءً متفوقًا حاليًا في تحدي تقنيات نظام الحوار 7 (DSTC7). كما أن نموذجنا قابل للتعميم إلى مهمة أخرى للحوار المرتبط بالوسائط البصرية المتعددة، وحقق أداءً مشجعًا. قدمنا تنفيذ نماذجنا باستخدام PyTorch وتم إطلاق الكود في https://github.com/henryhungle/MTN.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Hung Le; Doyen Sahoo; Nancy F. Chen; Steven C.H. Hoi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Hung Le; Doyen Sahoo; Nancy F. Chen; Steven C.H. Hoi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Hung Le; Doyen Sahoo; Nancy F. Chen; Steven C.H. Hoi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكات التحويل متعددة الوسائط لنظم الحوار المبنية على الفيديو من البداية إلى النهاية

Hung Le; Doyen Sahoo; Nancy F. Chen; Steven C.H. Hoi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكات التحويل متعددة الوسائط لنظم الحوار المبنية على الفيديو من البداية إلى النهاية

Hung Le; Doyen Sahoo; Nancy F. Chen; Steven C.H. Hoi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكات التحويل متعددة الوسائط لنظم الحوار المبنية على الفيديو من البداية إلى النهاية

Hung Le; Doyen Sahoo; Nancy F. Chen; Steven C.H. Hoi

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters