HyperAIHyperAI
منذ 2 أشهر

جعل التاريخ ذا أهمية: تدريب التسلسل الزمني المُستفيد من التاريخ للحوار البصري

Tianhao Yang; Zheng-Jun Zha; Hanwang Zhang
جعل التاريخ ذا أهمية: تدريب التسلسل الزمني المُستفيد من التاريخ للحوار البصري
الملخص

ندرس توليد الردود متعددة الأدوار في الحوار البصري، حيث يتم إنتاج الرد وفقًا لتاريخ محادثة مستند إلى الصور. بالنظر إلى ثلاثية تتكون من صورة وتاريخ أسئلة وأجوبة (Q&A) والسؤال الحالي، فإن جميع الطرق السائدة تتبع نمط كوديك (أي، مُشفِّر-مُفكِّك) في إطار التعلم الإشرافي: يقوم مُشفِّر متعدد الوسائط بتشفير الثلاثية إلى متجه خصائص، والذي يُدخل بعدها إلى المُفكِّك لإنتاج الجواب الحالي تحت إشراف الحقيقة الأرضية. ومع ذلك، فإن هذا التعلم الإشرافي التقليدي لا يأخذ في الاعتبار تأثير التاريخ غير المثالي، مما ينتهك الطبيعة الحوارية للحوار البصري ويجعل الكوديك أكثر استعدادًا لتعلم انحياز التاريخ بدلاً من الاستدلال السياقي. بهدف معالجة هذه المشكلة، استلهمنا من سياسة التدرج الناقد-الممثل في التعلم التعزيزي واقترحنا نموذج تدريب جديد يسمى تدريب المتتالية بميزة التاريخ (HAST). تحديدًا، نقوم بفرض إجابات خاطئة بشكل متعمد في التاريخ للحصول على ناقد سلبي، ونرى كيف يؤثر الخطأ التاريخي على سلوك الكوديك المستقبلي من خلال ميزة التاريخ - وهي كمية يتم الحصول عليها عن طريق طرح الناقد السلبي من المكافأة الذهبية للتاريخ الحقيقي. بالإضافة إلى ذلك، لجعل الكوديك أكثر حساسية للتاريخ، اقترحنا شبكة انتباه جديدة تسمى شبكة الانتباه المشترك الواعية بالتاريخ (HACAN)، والتي يمكن تدريبها بكفاءة باستخدام HAST. أظهرت النتائج التجريبية على ثلاثة مقاييس هي VisDial v0.9 وv1.0 وGuessWhat؟! أن استراتيجية HAST المقترحة تتفوق باستمرار على نظيراتها الإشرافية الأكثر حداثة.请注意,对于不常见的术语,如“History Advantage Sequence Training (HAST)” 和 “History-Aware Co-Attention Network (HACAN)”,我在阿拉伯语译文中保留了英文缩写,并在首次出现时进行了标注。这样可以确保信息的完整性,同时便于读者查找相关资料。

جعل التاريخ ذا أهمية: تدريب التسلسل الزمني المُستفيد من التاريخ للحوار البصري | أحدث الأوراق البحثية | HyperAI