HyperAIHyperAI

Command Palette

Search for a command to run...

Shot2Story: معيار جديد لفهم شامل لمقاطع الفيديو متعددة اللقطات

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

الملخص

قد يحتوي مقطع فيديو قصير على تطور أحداث متعددة وخط قصة مثير. يحتاج الإنسان إلى التقاط الحدث في كل لقطة وربطها معًا لفهم القصة التي وراءها. في هذا العمل، نقدم مقاييس جديدة لتقييم فهم الفيديوهات المتعددة اللقطات Shot2Story، والتي تتضمن عناوين توضيحية مفصلة على مستوى اللقطة، وموجزات فيديو شاملة، وأزواج أسئلة وإجابات. لتسهيل فهم أفضل للدلالات المعنى في الفيديوهات، نوفر العناوين التوضيحية لكل من الإشارات البصرية والروايات البشرية. نصمم عدة مهمات متميزة تشمل إنشاء عناوين توضيحية للفيديوهات ذات اللقطة الواحدة، وإعداد موجزات للفيديوهات المتعددة اللقطات، وتقديم إجابات على أسئلة حول الفيديوهات المتعددة اللقطات. تظهر التجارب الأولية بعض التحديات في إنتاج موجز فيديو طويل وشامل للفيديوهات المتعددة اللقطات. ومع ذلك، يمكن للموجزات غير الكاملة المولدة أن تحقق أداءً تنافسيًا بالفعل في مهمات فهم الفيديو الحالية مثل الإجابة على أسئلة الفيديو، مما يعزز إعدادًا غير مستكشف بشكل كافٍ لفهم الفيديو مع الموجزات المفصلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp