ClawCraneNet: الاستفادة من العلاقات على مستوى الكائنات لتقسيم الفيديو القائم على النص

التحليل النصي للفيديوهات هو مهمة صعبة تتطلب تقسيم الكائنات المذكورة بلغة طبيعية داخل الفيديوهات. وتعتمد هذه المهمة بشكل أساسي على الفهم الدلالي والفهم الدقيق للفيديوهات على مستوى رفيع. تُدخل الطرق الحالية تمثيل اللغة إلى نماذج التجزئة بطريقة من الأسفل إلى الأعلى، حيث تُجري تفاعلًا بين الرؤية واللغة ضمن مجالات استقبال محلية لشبكات التحويل (ConvNets) فقط. نحن نجادل بأن هذا التفاعل لا يُنفَّذ بشكل فعّال، إذ يعجز النموذج عن بناء علاقات على مستوى المناطق عند امتلاكه لملاحظات جزئية، وهو ما يتعارض مع منطق الوصف في اللغة الطبيعية أو التعبيرات الإشارية. في الواقع، يميل الناس إلى وصف كائن مستهدف باستخدام علاقاته مع كائنات أخرى، والتي قد لا تكون قابلة للفهم بسهولة دون مشاهدة الفيديو بالكامل. لحل هذه المشكلة، نقدّم منهجية جديدة من الأعلى إلى الأسفل، مُقلدةً الطريقة التي نُحلّل بها البشر كائنًا باستخدام توجيه لغوي. نبدأ بتحديد جميع الكائنات المرشحة في الفيديو، ثم نختار الكائن المقصود من خلال تحليل العلاقات بين هذه الكائنات عالية المستوى. ونستعرض ثلاث أنواع من العلاقات على مستوى الكائنات لتحقيق فهم دقيق للعلاقات، وهي: العلاقة المكانية، والعلاقة الدلالية المُوجهة بالنص، والعلاقة الزمنية. أظهرت التجارب الواسعة على مجموعتي البيانات A2D Sentences وJ-HMDB Sentences أن أسلوبنا يتفوق على أفضل الطرق الحالية بفارق كبير. كما تُظهر النتائج الكمية أن النتائج التي نحصل عليها أكثر قابلية للتفسير.