رَأْيان خير من واحد: الاستدلال الرسومي المُعزَّز بالهِيبرجراف للفهم البصري للحدث

حتى مع صورة ثابتة، يمكن للبشر التفكير في تفسيرات بصرية متعددة للسبب والنتيجة، سواء قبل الحدث أو أثناءه أو بعده، وكذلك ما يتجاوز الصورة المعطاة. ومع ذلك، يُعدّ هذا التحدي صعبًا على النماذج لتحقيق هذه المهمة — المعروفة بـ"الاستدلال البصري على الأحداث" — بسبب القيود المكانية والزمنية. ولحل هذه المشكلة، نقترح نموذجًا متعدد الوسائط جديدًا يُسمى "الاستدلال الرسومي المعزز بالهيبيرغراف". أولاً، نمثل محتوى كل وسائط من نفس النوع كرسم بياني معنوي، ونستخرج العلاقات داخل الوسائط، مما يُكسر القيود في المجال المكاني. ثم، نُقدّم تقنية تحسين الانتباه الرسومي الذاتي (Graph Self-Attention Enhancement). من جهة، تسمح هذه التقنية بتعزيز تمثيلات الرسوم البيانية المعنوية من وسائط مختلفة ببعضها البعض، وتمكّن من التقاط العلاقات بين الوسائط على طول الخط الزمني. ومن جهة أخرى، تستخدم الهيبيرغرافات المتعددة الوسائط التي قمنا ببنائها في لحظات زمنية مختلفة لتعزيز تمثيلات الرسوم البيانية المعنوية الفردية، مما يُكسر القيود في المجال الزمني. يُظهر نهجنا حالة "الرأسان خير من واحد"، حيث تكون تمثيلات الرسوم البيانية المعنوية المدعومة بآلية التحسين المقترحة أكثر قوة وثباتًا مقارنةً بتلك التي لا تعتمد على هذه الآلية. وأخيرًا، نُعيد تعيين هذه التمثيلات، ونستفيد من نتائجها لتكوين وصفات نصية للسبب والنتيجة. تُظهر النتائج التجريبية أن نموذجنا يحقق أداءً أعلى بشكل ملحوظ مقارنةً بالطرق الرائدة الأخرى.