هل تتحدث معي؟ إنشاء حوار بصرى منطقي من خلال التعلم المعادي

مهمة الحوار البصري تتطلب من الوكيل الدخول في محادثة حول صورة مع إنسان. تمثل هذه المهمة توسيعًا لمهمة الإجابة على الأسئلة البصرية، حيث يحتاج الوكيل إلى الإجابة على سؤال حول الصورة، ولكن يجب أن يفعل ذلك في ضوء الحوار السابق الذي جرى. التحدي الرئيسي في الحوار البصري هو الحفاظ على حوار متسق وطبيعي بينما يستمر في الإجابة على الأسئلة بشكل صحيح. نقدم نهجًا جديدًا يجمع بين تعلم التعزيز (Reinforcement Learning) وشبكات المواجهة التوليدية (Generative Adversarial Networks - GANs) لإنتاج ردود أكثر شبهاً بالإنسان على الأسئلة. تساعد الشبكة GAN في التغلب على النقص النسبي في بيانات التدريب والميل للنهج القائم على تقدير الاحتمالات القصوى (MLE) لإنتاج إجابات مقتضبة للغاية. بشكل حاسم، يتم دمج الشبكة GAN بعناية في آلية الانتباه التي تولد أسبابًا يمكن فهمها من قبل الإنسان لكل إجابة. هذا يعني أن النموذج التمييزي للشبكة GAN لديه مهمة تقييم ما إذا كان الجواب المرشح قد تم إنشاؤه بواسطة إنسان أم لا، بناءً على السبب المقدم. وهذا مهم لأنه يدفع النموذج التوليدي إلى إنتاج إجابات ذات جودة عالية ومدعومة بشكل جيد بالمنطق المرتبط بها. كما أن الطريقة تحقق أفضل النتائج حتى الآن في المقاييس الرئيسية للمعايير.