اختبار الإدراك: معيار تشخيصي للنماذج متعددة الوسائط الفيديو

نُقدِّم معيارًا جديدًا متعدد الوسائط للفيديوهات يُسمَّى "اختبار الإدراك" (Perception Test)، بهدف تقييم مهارات الإدراك والاستدلال لدى النماذج متعددة الوسائط المُدرَّبة مسبقًا (مثل Flamingo، SeViLA، أو GPT-4). على عكس المعايير الحالية التي تركز على المهام الحسابية (مثل التصنيف أو الكشف أو التتبع)، يركّز اختبار الإدراك على مهارات معينة (الذاكرة، الاستخلاص، الفيزياء، المعاني) وأنواع الاستدلال المختلفة (الوصفية، التفسيرية، التنبؤية، المضادة للواقع) عبر وسائط الفيديو والصوت والنص، مما يوفّر أداة تقييم شاملة وفعّالة. يختبر المعيار قدرة النماذج المُدرَّبة مسبقًا على التحوّل (transfer) في بيئات صفرية/قليلة الأمثلة (zero-shot / few-shot) أو بتدريب محدود. ولتحقيق ذلك، يقدّم اختبار الإدراك 11.6 ألف فيديو من العالم الحقيقي، بمتوسط طول 23 ثانية، تم تصويرها من قبل نحو 100 مشارك حول العالم، وتُظهر سيناريوهات مثيرة للإدراك. تم تسمية هذه الفيديوهات بشكل كثيف بستة أنواع من التسميات (أسئلة اختيار من متعدد وأجوبة مدعومة بمقاطع فيديو، تتبع للكائنات والنقاط، أجزاء زمنية للإجراءات والأصوات)، ما يسمح بتقييم كل من المهام اللغوية وغير اللغوية. إن مجموعات التدريب الدقيق (fine-tuning) والتحقق (validation) من المعيار متاحة للجمهور (بترخيص CC-BY)، إلى جانب خادم تحدٍّ يحتوي على مجموعة اختبار محفوظة (held-out test split). تُظهر نتائج المعيار البشري مقارنةً بالنماذج الرائدة في معالجة أسئلة الفيديو فجوة كبيرة في الأداء (91.4% مقابل 46.2%)، مما يشير إلى وجود مجال واسع للتحسين في فهم الفيديو متعدد الوسائط.يمكن الوصول إلى المجموعة، وشفرة النموذج الأساسي، وخادم التحدي عبر: https://github.com/deepmind/perception_test