HyperAIHyperAI
منذ 7 أيام

شبكة الاستنتاج السببي التغايرية للإجابة عن الأسئلة البصرية التوضيحية

{Changsheng Xu, Shengsheng Qian, Dizhan Xue}
شبكة الاستنتاج السببي التغايرية للإجابة عن الأسئلة البصرية التوضيحية
الملخص

إجابة مُفسّرة على أسئلة بصرية (EVQA) هي مهمة متعددة الوسائط تم اقتراحها حديثًا وتتطلب الإجابة على الأسئلة البصرية وإنشاء تفسيرات متعددة الوسائط للعمليات الاستدلالية. على عكس مهمة الإجابة على الأسئلة البصرية التقليدية (VQA) التي تركز فقط على تقديم الإجابة، فإن EVQA تهدف إلى توفير تفسيرات سهلة الفهم للمستخدم لتعزيز شفافية وموثوقية نماذج الاستدلال. ومع ذلك، فإن الطرق الحالية لـ EVQA تُقدّر الإجابة والتفسير بشكل منفصل، مما يتجاهل الارتباط السببي بينهما. علاوةً على ذلك، تتجاهل هذه الطرق العلاقات المعقدة بين كلمات السؤال ومناطق الصورة ورموز التفسير. لمعالجة هذه المشكلات، نقترح شبكة استدلال سببي متغير (VCIN) تُنشئ ارتباطًا سببيًا بين الإجابات والتفسيرات المُقدّرة، وتحفظ العلاقات عبر الوسائط لتكوين تفسيرات منطقية. أولاً، نستخدم نموذجًا مُدرّبًا مسبقًا على البيانات البصرية واللغوية لاستخراج السمات البصرية وسمات السؤال. ثانيًا، نقترح نموذجًا متعدد الوسائط من نوع "مُمرّر التفسيرات المُمرّر" (multimodal explanation gating transformer) لبناء العلاقات عبر الوسائط وإنتاج تفسيرات منطقية. أخيرًا، نقترح استدلالًا سببيًا متغيرًا لبناء البنية السببية المستهدفة وتوقع الإجابات. أظهرت التجارب الشاملة تفوق VCIN على أحدث الطرق في مجال EVQA.

شبكة الاستنتاج السببي التغايرية للإجابة عن الأسئلة البصرية التوضيحية | أحدث الأوراق البحثية | HyperAI