HyperAIHyperAI

Command Palette

Search for a command to run...

iPerceive: تطبيق التفكير بالمنطق العام على التوصيف الكثيف متعدد الوسائط للفيديوهات والإجابة على الأسئلة المتعلقة بالفيديوهات

Aman Chadha Gurneet Arora Navpreet Kaloty

الملخص

تعتمد معظم الطرق السابقة في فهم الصور على تحليل "ما هو" (مثل التعرف على الحدث) و"أين هو" (مثل تحديد موقع الحدث) فقط، مما يؤدي في بعض الحالات إلى فشل في وصف العلاقات السياقية الصحيحة بين الأحداث أو يسبب انتباهًا بصريًا خاطئًا في الأساس. جزء من ما يميزنا كبشر ويُميّزنا جوهريًا عن الآلات هو دافعنا الطبيعي للبحث عن السبب وراء أي ارتباط، مثل حدث Y الذي حدث نتيجة مباشرة لحدث X. ولتحقيق هذا الهدف، نُقدّم إطارًا يُسمى iPerceive، قادر على فهم "لماذا" يحدث حدث ما في الفيديو من خلال بناء قاعدة معرفة ذاتية السياق باستخدام مؤشرات سياقية لاستنتاج العلاقات السببية بين الكيانات في الفيديو. نُظهر فعالية تقنيتنا من خلال تطبيقها على مهام التوصيف الكثيف للفيديو (DVC) وسؤال واجابة الفيديو (VideoQA). علاوةً على ذلك، في حين تعتمد معظم الدراسات السابقة في DVC وVideoQA بشكل حصري على المعلومات البصرية، فإن الوسائط الأخرى مثل الصوت والكلام تُعدّ حيوية لتمييز المراقب البشري لبيئة معينة. نُصيغ مهام DVC وVideoQA كمشاكل ترجمة آلية تستخدم عدة وسائط. وبتحليل أداء iPerceive DVC وiPerceive VideoQA على مجموعتي بيانات ActivityNet Captions وTVQA على التوالي، نُظهر أن نهجنا يُحدث تقدّمًا في أحدث المستويات التقنية. يمكن الاطلاع على الكود والعينات عبر الموقع: iperceive.amanchadha.com.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp