الملخص

التصوير السينمائي، وهو اللغة البصرية الأساسية للأفلام، ضروري لنقل القصة والعواطف والجودة الجمالية. بينما تظهر النماذج الحديثة للرؤية واللغة (VLMs) فهمًا بصريًا عامًا قويًا، فإن كفاءتها في فهم القواعد السينمائية الدقيقة المضمنة في اللقطات الفردية لا تزال محدودة وغير خاضعة لتقييم دقيق. هذا الفجوة الحرجة تحد من الفهم البصري الدقيق ودقة إنتاج الفيديو بمساعدة الذكاء الاصطناعي. لمعالجة هذه المشكلة، نقدم \textbf{ShotBench}، وهو معيار شامل مصمم خصيصًا لفهم اللغة السينمائية. يتضمن أكثر من 3,500 زوج سؤال وجواب تم توثيقها من قبل الخبراء من الصور ولقطات الفيديو، والتي تم اختيارها بدقة من أكثر من 200 فيلم معروف (معظمها مرشح لأوسكار) وتغطي ثماني أبعاد رئيسية في التصوير السينمائي. تقييمنا لنحو 24 نموذجًا رائدًا من نماذج الرؤية واللغة على ShotBench يكشف عن حدودها الكبيرة: حتى أفضل النماذج الأداءً تحقق دقة متوسطة أقل من 60٪، خاصة في التعامل مع المؤشرات البصرية الدقيقة والاستدلال المكاني المعقد. لتحفيز التقدم في هذا المجال، نقوم ببناء \textbf{ShotQA}، وهو مجموعة بيانات متعددة الوسائط كبيرة الحجم تتكون من حوالي 70,000 زوج سؤال وجواب سينمائي. باستخدام ShotQA، نطور \textbf{ShotVL} عبر التحسين الدقيق بالإشراف وتحسين السياسة النسبية للمجموعات. يتفوق ShotVL بشكل كبير على جميع النماذج الموجودة المصدر المفتوح والمملوكة بشكل خاص على ShotBench، مما يحدد أداءً جديدًا \textbf{ state-of-the-art}. نوفر كودنا ومجموعات البيانات والنماذج كمصدر مفتوح لتعزيز التقدم السريع في هذا المجال الحيوي للفهم والإنتاج السينمائي بقيادة الذكاء الاصطناعي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

ShotBench: فهم سينمائي على مستوى الخبراء في نماذج الرؤية واللغة

Hongbo Liu Jingwen He Yi Jin Dian Zheng Yuhao Dong Fan Zhang Ziqi Huang Yinan He Yangguang Li Weichao Chen4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ShotBench: فهم سينمائي على مستوى الخبراء في نماذج الرؤية واللغة

Hongbo Liu Jingwen He Yi Jin Dian Zheng Yuhao Dong Fan Zhang Ziqi Huang Yinan He Yangguang Li Weichao Chen4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ShotBench: فهم سينمائي على مستوى الخبراء في نماذج الرؤية واللغة

Hongbo Liu Jingwen He Yi Jin Dian Zheng Yuhao Dong Fan Zhang Ziqi Huang Yinan He Yangguang Li Weichao Chen4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Hongbo Liu Jingwen He Yi Jin Dian Zheng Yuhao Dong Fan Zhang Ziqi Huang Yinan He Yangguang Li Weichao Chen

Hongbo Liu Jingwen He Yi Jin Dian Zheng Yuhao Dong Fan Zhang Ziqi Huang Yinan He Yangguang Li Weichao Chen

Hongbo Liu Jingwen He Yi Jin Dian Zheng Yuhao Dong Fan Zhang Ziqi Huang Yinan He Yangguang Li Weichao Chen