ماذا ومتى ننظر؟: شبكة اقتراح الفترة الزمنية للكشف عن العلاقات في الفيديو

تحديد العلاقات بين الأشياء هو أمر أساسي لفهم المشهد. رغم اقتراح العديد من الأعمال في مجال نمذجة العلاقات في نطاق الصور، فإن هناك العديد من القيود في نطاق الفيديو بسبب الديناميكيات الصعبة للتفاعلات المكانية-الزمانية (مثل، بين أي أشياء توجد تفاعلات؟ متى تبدأ وتنتهي العلاقات؟). حتى الآن، تم اقتراح طريقتين ممثلتين لمعالجة الكشف عن العلاقات البصرية في الفيديو (VidVRD): الطريقة القائمة على المقاطع والطريقة القائمة على النوافذ. نشير أولاً إلى حدود هاتين الطريقتين ونقترح نهجًا جديدًا يُسمى شبكة اقتراح الفترة الزمنية (TSPN). تُحدد TSPN ما يجب البحث عنه: فهي تقلل من مساحة البحث عن العلاقات بتقييم مدى وجود علاقة بين زوج من الأشياء، أي قياس مدى احتمالية وجود علاقة. كما تحدد TSPN متى يجب البحث: فهي تتوقع بشكل متزامن زمن بدء وانتهاء (أي الفترات الزمنية) وأصناف جميع العلاقات المحتملة باستخدام سياق الفيديو الكامل. هذان التصميمان يتيحان سيناريو فوز-فوز: حيث يسرعان التدريب بمقدار ضعفين أو أكثر مقارنة بالطرق الحالية ويحققان أداءً تنافسيًا على مقعدين للمعايير المرجعية لـ VidVRD (ImageNet-VidVDR وVidOR). علاوة على ذلك، تُظهر التجارب الاستقصائية الشاملة فعالية نهجنا. يمكن الحصول على الرموز البرمجية من https://github.com/sangminwoo/Temporal-Span-Proposal-Network-VidVRD.