ShotBench: فهم سينمائي على مستوى الخبراء في نماذج الرؤية واللغة

التصوير السينمائي، وهو اللغة البصرية الأساسية للأفلام، ضروري لنقل القصة والعواطف والجودة الجمالية. بينما تظهر النماذج الحديثة للرؤية واللغة (VLMs) فهمًا بصريًا عامًا قويًا، فإن كفاءتها في فهم القواعد السينمائية الدقيقة المضمنة في اللقطات الفردية لا تزال محدودة وغير خاضعة لتقييم دقيق. هذا الفجوة الحرجة تحد من الفهم البصري الدقيق ودقة إنتاج الفيديو بمساعدة الذكاء الاصطناعي. لمعالجة هذه المشكلة، نقدم \textbf{ShotBench}، وهو معيار شامل مصمم خصيصًا لفهم اللغة السينمائية. يتضمن أكثر من 3,500 زوج سؤال وجواب تم توثيقها من قبل الخبراء من الصور ولقطات الفيديو، والتي تم اختيارها بدقة من أكثر من 200 فيلم معروف (معظمها مرشح لأوسكار) وتغطي ثماني أبعاد رئيسية في التصوير السينمائي. تقييمنا لنحو 24 نموذجًا رائدًا من نماذج الرؤية واللغة على ShotBench يكشف عن حدودها الكبيرة: حتى أفضل النماذج الأداءً تحقق دقة متوسطة أقل من 60٪، خاصة في التعامل مع المؤشرات البصرية الدقيقة والاستدلال المكاني المعقد. لتحفيز التقدم في هذا المجال، نقوم ببناء \textbf{ShotQA}، وهو مجموعة بيانات متعددة الوسائط كبيرة الحجم تتكون من حوالي 70,000 زوج سؤال وجواب سينمائي. باستخدام ShotQA، نطور \textbf{ShotVL} عبر التحسين الدقيق بالإشراف وتحسين السياسة النسبية للمجموعات. يتفوق ShotVL بشكل كبير على جميع النماذج الموجودة المصدر المفتوح والمملوكة بشكل خاص على ShotBench، مما يحدد أداءً جديدًا \textbf{ state-of-the-art}. نوفر كودنا ومجموعات البيانات والنماذج كمصدر مفتوح لتعزيز التقدم السريع في هذا المجال الحيوي للفهم والإنتاج السينمائي بقيادة الذكاء الاصطناعي.