HyperAIHyperAI
منذ 8 أيام

المعرفة بالإجراءات لوصف الفيديو باستخدام الشبكات العصبية الرسومية

{Cheol Jeong, Fikriansyah Adzaka, Bahy Helmi Hartoyo Putra, Vania Velda, Willy Fitra Hendria}
الملخص

تستخرج العديد من الطرق الحالية لكتابة العناوين التوضيحية للفيديوهات معلومات الحركة من الفيديو من خلال استغلال الميزات المستخرجة من نموذج تمييز الحركات. ومع ذلك، قد لا تُمكّن الاستخدام المباشر لميزات الحركة دون تمثيل محدد للأشياء من التقاط التفاعلات بين الأشياء بشكل فعّال. ونتيجة لذلك، قد لا تكون العناوين المولّدة دقيقة بما يكفي في وصف الحركة والأشياء في المشاهد. ولحل هذه المشكلة، نقترح دمج ميزات الحركة كميزات للحواف في شبكة عصبية رسمية (Graph Neural Network)، حيث تمثل العقد الأشياء، بهدف التقاط تمثيل بصري أكثر دقة للعلاقات بين كائن-حركة-كائن. وغالبًا ما اعتمدت الطرق السابقة القائمة على الرسوم البيانية لكتابة العناوين التوضيحية للفيديوهات على نموذج مُدرّب مسبقًا للكشف عن الكائنات لتكوين تمثيلات العقد. إلا أن نموذج الكشف عن الكائنات قد يفوت بعض الكائنات المهمة. ولتخفيف هذه المشكلة، نقدّم بشكل إضافي تمثيلًا للعقدة مبنيًا على الشبكة (grid-based)، حيث تمثل العقد بميزات مستخرجة من الشبكات (grids) الخاصة بإطارات الفيديو. وباستخدام هذا التمثيل، يتم التقاط الكائنات المهمة في المشاهد بشكل أكثر شمولاً. ولتجنب إضافة أي تعقيد أثناء الاستدلال، يتم نقل معرفة الشبكة المقترحة إلى شبكة عصبية أخرى من خلال تقنية نقل المعرفة (knowledge distillation). وحققت الطريقة المقترحة نتائج رائدة في مجالها على اثنين من قواعد البيانات الشهيرة لكتابة العناوين التوضيحية للفيديوهات، وهي MSVD وMSR-VTT، على جميع المقاييس. وتوفر الكود الخاص بالطريقة المقترحة على الرابط التالي: https://github.com/Sejong-VLI/V2T-Action-Graph-JKSUCIS-2023.

المعرفة بالإجراءات لوصف الفيديو باستخدام الشبكات العصبية الرسومية | أحدث الأوراق البحثية | HyperAI