HyperAIHyperAI
منذ 2 أشهر

استدلال الحوارات البصرية مع الملاحظات الهيكلية والجزئية

Zilong Zheng; Wenguan Wang; Siyuan Qi; Song-Chun Zhu
استدلال الحوارات البصرية مع الملاحظات الهيكلية والجزئية
الملخص

نقترح نموذجًا جديدًا لمعالجة مهمة الحوار البصري التي تتميز ببنى حوارية معقدة. للحصول على إجابة منطقية تعتمد على السؤال الحالي وتاريخ الحوار، تعد العلاقات الدلالية الكامنة بين كيانات الحوار ضرورية. في هذا البحث، نقوم بتحديد هذه المهمة بشكل صريح كاستدلال في نموذج رسومي به عقد جزئياً مراقبة وبنية رسومية غير معروفة (علاقات في الحوار). يتم النظر إلى الكيانات الحوارية المعطاة كعقد مراقبة. يُمثل الجواب على السؤال المعطى بواسطة عقدة ذات قيمة مفقودة. أولاً، نقدم خوارزمية التوقع والتقدير (Expectation Maximization) لاستنتاج البنية الكامنة للحوار والقيم المفقودة للعقد (الإجابات المرغوبة). بناءً على ذلك، نتقدم بحل قائم على الشبكات العصبية الرسومية القابلة للمفاضلة (Differentiable Graph Neural Network - GNN) الذي يقترب من هذا العملية. تظهر نتائج التجارب على مجموعتي البيانات VisDial و VisDial-Q أن نموذجنا يتفوق على الطرق المقارنة. كما تم ملاحظة أن طريقة عملنا يمكنها استنتاج البنية الكامنة للحوار لتحسين الاستدلال بالحوار.

استدلال الحوارات البصرية مع الملاحظات الهيكلية والجزئية | أحدث الأوراق البحثية | HyperAI