HyperAIHyperAI
منذ 2 أشهر

CinePile: مجموعة بيانات ومقاييس مرجعية للإجابة على أسئلة الفيديوهات الطويلة

Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein
CinePile: مجموعة بيانات ومقاييس مرجعية للإجابة على أسئلة الفيديوهات الطويلة
الملخص

القواعد الحالية للبيانات المخصصة لفهم الفيديو الطويل غالبًا ما تكون غير كافية في تقديم تحديات حقيقية للفهم الطويل الأمد، حيث يمكن نجاح العديد من المهام المستمدة من هذه القواعد عن طريق تحليل إطار واحد أو بضعة أطر عشوائية فقط من الفيديو. لمعالجة هذه المشكلة، نقدم مجموعة بيانات ونموذج تقييم جديد يُسمى CinePile، مصمم خصيصًا لفهم الفيديو الطويل بشكل حقيقي. هذا البحث يوضح نهجنا المبتكر لإنشاء مجموعة أسئلة وإجابات، باستخدام النماذج اللغوية المتقدمة (LLMs) مع التدخل البشري وبناءً على البيانات الخام التي تم إنتاجها بواسطة البشر. تتكون قاعدة البيانات الشاملة لدينا من 305,000 سؤال اختياري متعدد (MCQs)، تغطي جوانب بصرية ومультيميديا متنوعة، بما في ذلك الفهم الزمني، فهم التفاعلات بين الإنسان والأشياء، واستدلال الأحداث أو الأفعال داخل المشهد. بالإضافة إلى ذلك، قمنا بتخصيص النماذج اللغوية المتقدمة المصادر المفتوحة (Video-LLMs) على الجزء التدريبي من قاعدة البيانات وتقييم كلٍ من النماذج اللغوية المتقدمة المصادر المفتوحة والمملوكة خصوصيًا على الجزء الاختباري من قاعدة بياناتنا. تشير النتائج إلى أن رغم تدني أداء النماذج الحالية مقارنة بالإنسان، فإن تخصيص هذه النماذج يمكن أن يؤدي إلى تحسينات كبيرة في أدائها.

CinePile: مجموعة بيانات ومقاييس مرجعية للإجابة على أسئلة الفيديوهات الطويلة | أحدث الأوراق البحثية | HyperAI