HyperAIHyperAI
منذ 2 أشهر

Shot2Story: معيار جديد لفهم شامل لمقاطع الفيديو متعددة اللقطات

Mingfei Han; Linjie Yang; Xiaojun Chang; Lina Yao; Heng Wang
Shot2Story: معيار جديد لفهم شامل لمقاطع الفيديو متعددة اللقطات
الملخص

قد يحتوي مقطع فيديو قصير على تطور أحداث متعددة وخط قصة مثير. يحتاج الإنسان إلى التقاط الحدث في كل لقطة وربطها معًا لفهم القصة التي وراءها. في هذا العمل، نقدم مقاييس جديدة لتقييم فهم الفيديوهات المتعددة اللقطات Shot2Story، والتي تتضمن عناوين توضيحية مفصلة على مستوى اللقطة، وموجزات فيديو شاملة، وأزواج أسئلة وإجابات. لتسهيل فهم أفضل للدلالات المعنى في الفيديوهات، نوفر العناوين التوضيحية لكل من الإشارات البصرية والروايات البشرية. نصمم عدة مهمات متميزة تشمل إنشاء عناوين توضيحية للفيديوهات ذات اللقطة الواحدة، وإعداد موجزات للفيديوهات المتعددة اللقطات، وتقديم إجابات على أسئلة حول الفيديوهات المتعددة اللقطات. تظهر التجارب الأولية بعض التحديات في إنتاج موجز فيديو طويل وشامل للفيديوهات المتعددة اللقطات. ومع ذلك، يمكن للموجزات غير الكاملة المولدة أن تحقق أداءً تنافسيًا بالفعل في مهمات فهم الفيديو الحالية مثل الإجابة على أسئلة الفيديو، مما يعزز إعدادًا غير مستكشف بشكل كافٍ لفهم الفيديو مع الموجزات المفصلة.

Shot2Story: معيار جديد لفهم شامل لمقاطع الفيديو متعددة اللقطات | أحدث الأوراق البحثية | HyperAI