HyperAIHyperAI

Command Palette

Search for a command to run...

استدلال الحوارات البصرية مع الملاحظات الهيكلية والجزئية

Zilong Zheng∗ Wenguan Wang∗ Siyuan Qi∗ Song-Chun Zhu

الملخص

نقترح نموذجًا جديدًا لمعالجة مهمة الحوار البصري التي تتميز ببنى حوارية معقدة. للحصول على إجابة منطقية تعتمد على السؤال الحالي وتاريخ الحوار، تعد العلاقات الدلالية الكامنة بين كيانات الحوار ضرورية. في هذا البحث، نقوم بتحديد هذه المهمة بشكل صريح كاستدلال في نموذج رسومي به عقد جزئياً مراقبة وبنية رسومية غير معروفة (علاقات في الحوار). يتم النظر إلى الكيانات الحوارية المعطاة كعقد مراقبة. يُمثل الجواب على السؤال المعطى بواسطة عقدة ذات قيمة مفقودة. أولاً، نقدم خوارزمية التوقع والتقدير (Expectation Maximization) لاستنتاج البنية الكامنة للحوار والقيم المفقودة للعقد (الإجابات المرغوبة). بناءً على ذلك، نتقدم بحل قائم على الشبكات العصبية الرسومية القابلة للمفاضلة (Differentiable Graph Neural Network - GNN) الذي يقترب من هذا العملية. تظهر نتائج التجارب على مجموعتي البيانات VisDial و VisDial-Q أن نموذجنا يتفوق على الطرق المقارنة. كما تم ملاحظة أن طريقة عملنا يمكنها استنتاج البنية الكامنة للحوار لتحسين الاستدلال بالحوار.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استدلال الحوارات البصرية مع الملاحظات الهيكلية والجزئية | مستندات | HyperAI