HyperAIHyperAI
منذ 11 أيام

استنتاج رسم بياني مُراعٍ للسياق بشكل تكراري للحوار البصري

Dan Guo, Hui Wang, Hanwang Zhang, Zheng-Jun Zha, Meng Wang
استنتاج رسم بياني مُراعٍ للسياق بشكل تكراري للحوار البصري
الملخص

المحادثة البصرية تمثل مهمة صعبة تتطلب فهم الاعتماديات الدلالية بين السياقات البصرية والنصية الضمنية. يمكن أن تشير هذه المهمة إلى استنتاج العلاقات في نموذج رسومي يحتوي على سياقات نادرة وهيكل رسم غير معروف (مُعدّل العلاقة)، ونموذج الاستنتاج الخفي للعلاقة المتأثرة بالسياق يُعد أمرًا بالغ الأهمية. ولتحقيق ذلك، نقترح شبكة عصبية جديدة تُسمى "الرسم البياني المُراعي للسياق" (CAG). يتوافق كل عقدة في الرسم البياني مع ميزة دلالية مشتركة، تشمل تمثيلات سياقية قائمة على الكائنات (بصرية) وتمثيلات سياقية مرتبطة بالتاريخ (نصية). يتم تحديث هيكل الرسم البياني (العلاقات في الحوار) بشكل تكراري باستخدام آلية تمرير رسائل مُعدّلة حسب الطلب (top-$K$). وبشكل خاص، في كل خطوة لتمرير الرسائل، تختار كل عقدة أقرب $K$ عقدة ذات صلة، وتستقبل الرسائل فقط من هذه العقد. ثم، بعد التحديث، نطبق انتباه الرسم البياني على جميع العقد للحصول على التضمين النهائي للرسم البياني واستنتاج الإجابة. في CAG، تمتلك كل عقدة علاقات ديناميكية داخل الرسم البياني (عقد جوار مختلفة ذات صلة بـ $K$)، ويُؤخذ بعين الاعتبار فقط العقد ذات العلاقة الأهم في عملية استنتاج العلاقة المتأثرة بالسياق. أظهرت النتائج التجريبية على مجموعتي بيانات VisDial v0.9 وv1.0 أن CAG تتفوّق على الطرق المقارنة. كما تؤكد نتائج التصور على قابلية تفسير طريقة العمل لدينا.

استنتاج رسم بياني مُراعٍ للسياق بشكل تكراري للحوار البصري | أحدث الأوراق البحثية | HyperAI