HyperAIHyperAI
منذ 2 أشهر

VidCtx: الإجابة على أسئلة الفيديو مع مراعاة السياق باستخدام نماذج الصور

Andreas Goulas; Vasileios Mezaris; Ioannis Patras
VidCtx: الإجابة على أسئلة الفيديو مع مراعاة السياق باستخدام نماذج الصور
الملخص

لحل مشكلات الحدود الحسابية وذاكرة النماذج المتعددة الأوضاع الكبيرة في مهمة الإجابة على أسئلة الفيديو، اقترح العديد من الطرق الحديثة استخراج تمثيلات نصية لكل إطار (مثل التسمية بتعليق) وإدخالها إلى نموذج لغوي كبير (LLM) يقوم بمعالجتها لإنتاج الاستجابة النهائية. ومع ذلك، بهذه الطريقة، لا يتوفر للنموذج اللغوي الكبير الوصول إلى المعلومات البصرية ويتعين عليه غالبًا معالجة وصف نصي متكرر لأطر متجاورة. لمعالجة هذه العيوب، نقدم في هذا البحث نظام VidCtx، وهو إطار جديد لـ VideoQA لا يتطلب تدريبًا ويتكامل بين الوسطين، أي المعلومات البصرية من الإطارات المدخلة والوصف النصي للإطارات الأخرى التي توفر السياق المناسب. بشكل أكثر تحديدًا، يتم حث نموذج متعدد الأوضاع كبير مُدرب مسبقًا (LMM) على استخراج وصف نصي واعٍ بالسؤال (التسميات) للإطارات الفيديو بفواصل زمنية منتظمة. سيتم استخدام هذه الوصف كسياق عند حث نفس النموذج المتعدد الأوضاع الكبير على الإجابة على السؤال المعروض كمدخل: أ) إطار معين، ب) السؤال وج) السياق/التسمية لإطار مناسب. لتجنب المعلومات الزائدة، تم اختيار الوصف لإطارات بعيدة كسياق. أخيرًا، يتم استخدام آلية تجميع بسيطة ولكن فعالة تعتمد على الاختيار الأقصى لتجميع قرارات مستوى الإطار. تمكن هذه المنهجية النموذج من التركيز على المقاطع ذات الصلة من الفيديو والتوسع إلى عدد كبير من الإطارات. تظهر التجارب أن VidCtx يحقق أداءً تنافسيًا بين الأساليب التي تعتمد على النماذج المفتوحة في ثلاثة مقاييس عامة لـ Video QA هي NExT-QA وIntentQA وSTAR. رمزنا البرمجي متاح في https://github.com/IDT-ITI/VidCtx.

VidCtx: الإجابة على أسئلة الفيديو مع مراعاة السياق باستخدام نماذج الصور | أحدث الأوراق البحثية | HyperAI