iPerceive: تطبيق التفكير بالمنطق العام على التوصيف الكثيف متعدد الوسائط للفيديوهات والإجابة على الأسئلة المتعلقة بالفيديوهات

تعتمد معظم الطرق السابقة في فهم الصور على تحليل "ما هو" (مثل التعرف على الحدث) و"أين هو" (مثل تحديد موقع الحدث) فقط، مما يؤدي في بعض الحالات إلى فشل في وصف العلاقات السياقية الصحيحة بين الأحداث أو يسبب انتباهًا بصريًا خاطئًا في الأساس. جزء من ما يميزنا كبشر ويُميّزنا جوهريًا عن الآلات هو دافعنا الطبيعي للبحث عن السبب وراء أي ارتباط، مثل حدث Y الذي حدث نتيجة مباشرة لحدث X. ولتحقيق هذا الهدف، نُقدّم إطارًا يُسمى iPerceive، قادر على فهم "لماذا" يحدث حدث ما في الفيديو من خلال بناء قاعدة معرفة ذاتية السياق باستخدام مؤشرات سياقية لاستنتاج العلاقات السببية بين الكيانات في الفيديو. نُظهر فعالية تقنيتنا من خلال تطبيقها على مهام التوصيف الكثيف للفيديو (DVC) وسؤال واجابة الفيديو (VideoQA). علاوةً على ذلك، في حين تعتمد معظم الدراسات السابقة في DVC وVideoQA بشكل حصري على المعلومات البصرية، فإن الوسائط الأخرى مثل الصوت والكلام تُعدّ حيوية لتمييز المراقب البشري لبيئة معينة. نُصيغ مهام DVC وVideoQA كمشاكل ترجمة آلية تستخدم عدة وسائط. وبتحليل أداء iPerceive DVC وiPerceive VideoQA على مجموعتي بيانات ActivityNet Captions وTVQA على التوالي، نُظهر أن نهجنا يُحدث تقدّمًا في أحدث المستويات التقنية. يمكن الاطلاع على الكود والعينات عبر الموقع: iperceive.amanchadha.com.