HyperAIHyperAI

Command Palette

Search for a command to run...

ShotBench: فهم سينمائي على مستوى الخبراء في نماذج الرؤية واللغة

الملخص

التصوير السينمائي، وهو اللغة البصرية الأساسية للأفلام، ضروري لنقل القصة والعواطف والجودة الجمالية. بينما تظهر النماذج الحديثة للرؤية واللغة (VLMs) فهمًا بصريًا عامًا قويًا، فإن كفاءتها في فهم القواعد السينمائية الدقيقة المضمنة في اللقطات الفردية لا تزال محدودة وغير خاضعة لتقييم دقيق. هذا الفجوة الحرجة تحد من الفهم البصري الدقيق ودقة إنتاج الفيديو بمساعدة الذكاء الاصطناعي. لمعالجة هذه المشكلة، نقدم \textbf{ShotBench}، وهو معيار شامل مصمم خصيصًا لفهم اللغة السينمائية. يتضمن أكثر من 3,500 زوج سؤال وجواب تم توثيقها من قبل الخبراء من الصور ولقطات الفيديو، والتي تم اختيارها بدقة من أكثر من 200 فيلم معروف (معظمها مرشح لأوسكار) وتغطي ثماني أبعاد رئيسية في التصوير السينمائي. تقييمنا لنحو 24 نموذجًا رائدًا من نماذج الرؤية واللغة على ShotBench يكشف عن حدودها الكبيرة: حتى أفضل النماذج الأداءً تحقق دقة متوسطة أقل من 60٪، خاصة في التعامل مع المؤشرات البصرية الدقيقة والاستدلال المكاني المعقد. لتحفيز التقدم في هذا المجال، نقوم ببناء \textbf{ShotQA}، وهو مجموعة بيانات متعددة الوسائط كبيرة الحجم تتكون من حوالي 70,000 زوج سؤال وجواب سينمائي. باستخدام ShotQA، نطور \textbf{ShotVL} عبر التحسين الدقيق بالإشراف وتحسين السياسة النسبية للمجموعات. يتفوق ShotVL بشكل كبير على جميع النماذج الموجودة المصدر المفتوح والمملوكة بشكل خاص على ShotBench، مما يحدد أداءً جديدًا \textbf{ state-of-the-art}. نوفر كودنا ومجموعات البيانات والنماذج كمصدر مفتوح لتعزيز التقدم السريع في هذا المجال الحيوي للفهم والإنتاج السينمائي بقيادة الذكاء الاصطناعي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ShotBench: فهم سينمائي على مستوى الخبراء في نماذج الرؤية واللغة | مستندات | HyperAI