HyperAIHyperAI

Command Palette

Search for a command to run...

هل تتحدث معي؟ إنشاء حوار بصرى منطقي من خلال التعلم المعادي

Qi Wu Peng Wang Chunhua Shen Ian Reid Anton van den Hengel

الملخص

مهمة الحوار البصري تتطلب من الوكيل الدخول في محادثة حول صورة مع إنسان. تمثل هذه المهمة توسيعًا لمهمة الإجابة على الأسئلة البصرية، حيث يحتاج الوكيل إلى الإجابة على سؤال حول الصورة، ولكن يجب أن يفعل ذلك في ضوء الحوار السابق الذي جرى. التحدي الرئيسي في الحوار البصري هو الحفاظ على حوار متسق وطبيعي بينما يستمر في الإجابة على الأسئلة بشكل صحيح. نقدم نهجًا جديدًا يجمع بين تعلم التعزيز (Reinforcement Learning) وشبكات المواجهة التوليدية (Generative Adversarial Networks - GANs) لإنتاج ردود أكثر شبهاً بالإنسان على الأسئلة. تساعد الشبكة GAN في التغلب على النقص النسبي في بيانات التدريب والميل للنهج القائم على تقدير الاحتمالات القصوى (MLE) لإنتاج إجابات مقتضبة للغاية. بشكل حاسم، يتم دمج الشبكة GAN بعناية في آلية الانتباه التي تولد أسبابًا يمكن فهمها من قبل الإنسان لكل إجابة. هذا يعني أن النموذج التمييزي للشبكة GAN لديه مهمة تقييم ما إذا كان الجواب المرشح قد تم إنشاؤه بواسطة إنسان أم لا، بناءً على السبب المقدم. وهذا مهم لأنه يدفع النموذج التوليدي إلى إنتاج إجابات ذات جودة عالية ومدعومة بشكل جيد بالمنطق المرتبط بها. كما أن الطريقة تحقق أفضل النتائج حتى الآن في المقاييس الرئيسية للمعايير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp