HyperAIHyperAI

Command Palette

Search for a command to run...

المعرفة بالإجراءات لوصف الفيديو باستخدام الشبكات العصبية الرسومية

Cheol Jeong Fikriansyah Adzaka Bahy Helmi Hartoyo Putra Vania Velda Willy Fitra Hendria

الملخص

تستخرج العديد من الطرق الحالية لكتابة العناوين التوضيحية للفيديوهات معلومات الحركة من الفيديو من خلال استغلال الميزات المستخرجة من نموذج تمييز الحركات. ومع ذلك، قد لا تُمكّن الاستخدام المباشر لميزات الحركة دون تمثيل محدد للأشياء من التقاط التفاعلات بين الأشياء بشكل فعّال. ونتيجة لذلك، قد لا تكون العناوين المولّدة دقيقة بما يكفي في وصف الحركة والأشياء في المشاهد. ولحل هذه المشكلة، نقترح دمج ميزات الحركة كميزات للحواف في شبكة عصبية رسمية (Graph Neural Network)، حيث تمثل العقد الأشياء، بهدف التقاط تمثيل بصري أكثر دقة للعلاقات بين كائن-حركة-كائن. وغالبًا ما اعتمدت الطرق السابقة القائمة على الرسوم البيانية لكتابة العناوين التوضيحية للفيديوهات على نموذج مُدرّب مسبقًا للكشف عن الكائنات لتكوين تمثيلات العقد. إلا أن نموذج الكشف عن الكائنات قد يفوت بعض الكائنات المهمة. ولتخفيف هذه المشكلة، نقدّم بشكل إضافي تمثيلًا للعقدة مبنيًا على الشبكة (grid-based)، حيث تمثل العقد بميزات مستخرجة من الشبكات (grids) الخاصة بإطارات الفيديو. وباستخدام هذا التمثيل، يتم التقاط الكائنات المهمة في المشاهد بشكل أكثر شمولاً. ولتجنب إضافة أي تعقيد أثناء الاستدلال، يتم نقل معرفة الشبكة المقترحة إلى شبكة عصبية أخرى من خلال تقنية نقل المعرفة (knowledge distillation). وحققت الطريقة المقترحة نتائج رائدة في مجالها على اثنين من قواعد البيانات الشهيرة لكتابة العناوين التوضيحية للفيديوهات، وهي MSVD وMSR-VTT، على جميع المقاييس. وتوفر الكود الخاص بالطريقة المقترحة على الرابط التالي: https://github.com/Sejong-VLI/V2T-Action-Graph-JKSUCIS-2023.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp