HyperAIHyperAI

Command Palette

Search for a command to run...

الإجابة على الأسئلة حول الفيديو ذات المفتوحة المفردات: معيار جديد لتقييم القدرة على التعميم لنماذج الإجابة على الأسئلة حول الفيديو

Dohwan Ko Ji Soo Lee Miso Choi Jaewon Chu Jihwan Park Hyunwoo J. Kim

الملخص

إن إجابة الأسئلة على الفيديو (VideoQA) يُعد مهمة صعبة تتطلب تفكيرًا متعدد الوسائط معقدًا. على عكس مهام إجابة الأسئلة متعددة الخيارات التي تهدف إلى التنبؤ بالإجابة بناءً على مجموعة من الخيارات المقدمة، فإن الهدف من إجابة الأسئلة المفتوحة على الفيديو هو الإجابة على الأسئلة دون قيود على الإجابات المرشحة. ومع ذلك، فإن معظم النماذج السابقة لـ VideoQA تُصوّر المهمة المفتوحة كمهمة تصنيف، حيث يتم تصنيف أزواج الفيديو-السؤال ضمن مجموعة إجابات ثابتة (أي إجابات ضمن مفردات مغلقة)، والتي تتضمن فقط الإجابات الشائعة (مثل أبرز 1000 إجابة). يؤدي هذا إلى تحيز النموذج نحو الإجابات الشائعة فقط، ويفشل في التعميم على الإجابات غير المُدرَجة في المفردات (out-of-vocabulary). ولذلك، نقترح معيارًا جديدًا يُسمى إجابة الأسئلة على الفيديو المفتوحة (OVQA)، لقياس قدرة نماذج VideoQA على التعميم من خلال أخذ في الاعتبار الإجابات النادرة والغير المرئية مسبقًا. بالإضافة إلى ذلك، ولتحسين قدرة النموذج على التعميم، نقدّم مُعدّلًا نحويًا لطيفًا (soft verbalizer) مبنيًا على الشبكات العصبية الرسومية (GNN)، والذي يعزز التنبؤ بالإجابات النادرة والغير المرئية من خلال جمع المعلومات من الكلمات المشابهة لها. وفيما يخص التقييم، نقدّم خطوطًا أساسية جديدة من خلال تعديل النماذج الحالية (التي تعتمد على المفردات المغلقة) لـ VideoQA المفتوحة، ونُحسّن أداؤها من خلال أخذ الإجابات النادرة والغير المرئية بعين الاعتبار بشكل إضافي. تُظهر دراسات التحليل التجريبي والتحليل النوعي أن المُعدّل النحوي اللطيف القائم على GNN يُحسّن أداء النموذج بشكل ملحوظ، خاصةً في الإجابات النادرة والغير المرئية. نأمل أن يُسهم معيارنا OVQA في توجيه تقييم قدرة نماذج VideoQA على التعميم، ويُلهم الأبحاث المستقبلية. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/mlvlab/OVQA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الإجابة على الأسئلة حول الفيديو ذات المفتوحة المفردات: معيار جديد لتقييم القدرة على التعميم لنماذج الإجابة على الأسئلة حول الفيديو | مستندات | HyperAI