التعلم التمثيلي على الرسوم البيانية البصرية-الرمزية لفهم الفيديو

تنشأ الأحداث في مقاطع الفيديو الطبيعية عادةً من التفاعلات المكانية-الزمنية بين الممثلين والأشياء وتشمل أنشطة وأصناف أشياء متعددة تحدث بالتوازي. لالتقاط هذا السياق البصري والدلالاتي الغني، نقترح استخدام رسومين بيانين: (1) رسم بياني بصري مكاني-زماني مُنسَب، حيث تتوافق العقد مع الممثلين والأشياء وتُشفر الحواف أنواعًا مختلفة من التفاعلات، و(2) رسم بياني رمزي يُنمذِج العلاقات الدلالاتية. نقترح أيضًا شبكة عصبية بيانية لتحسين تمثيلات الممثلين والأشياء وتفاعلاتهم على الرسم البياني الهجين الناتج. يتخطى نموذجنا النهج الحالي الذي يفترض أن العقد والحواف هي من نفس النوع، ويتعامل مع الرسوم البيانية ذات أوزان حواف ثابتة ولا يستخدم رسمًا بيانيًا رمزيًا. وبشكل خاص، فإن إطار عملنا: أ) لديه دوال رسالة مبنية على الانتباه المتخصص لأنواع العقد والحواف المختلفة؛ ب) يستخدم خصائص حواف بصرية؛ ج) يدمج الأدلة البصرية بالعلاقات بين التسميات؛ د) يقوم بالاستدلال العالمي في الفضاء الدلالي. تظهر التجارب على مهام صعبة فهم الفيديو، مثل تحديد الأنشطة الزمنية في مجموعة بيانات Charades (مجموعة بيانات شارات)، أن الطريقة المقترحة تقود إلى أفضل الأداء حتى الآن.