HyperAIHyperAI

Command Palette

Search for a command to run...

Flash-VStream: فهم في الوقت الحقيقي مُعتمد على الذاكرة لمقاطع الفيديو الطويلة

Haoji Zhang Yiqin Wang Yansong Tang Yong Liu Jiashi Feng Jifeng Dai Xiaojie Jin

الملخص

بفضل التقدم في نماذج اللغات الكبيرة والتوافق بين الأوضاع المتعددة، حققت الطرق الحالية لفهم الفيديو متعدد الوسائط أداءً بارزًا في السيناريوهات غير المباشرة (offline). ومع ذلك، فإن تدفقات الفيديو عبر الإنترنت، وهي واحدة من أكثر أشكال الوسائط شيوعًا في العالم الحقيقي، لم تتلق اهتمامًا كبيرًا. مقارنة بالفيديوهات غير المباشرة (offline)، فإن الطبيعة "الديناميكية" لتدفقات الفيديو عبر الإنترنت تشكل تحديات للتطبيق المباشر للنماذج الحالية وتثير مشاكل جديدة، مثل تخزين المعلومات على المدى الطويل جدًا والتفاعل بين المحتوى البصري المستمر والأسئلة المستخدم "غير المتزامنة". لذلك، في هذا البحث نقدم Flash-VStream، وهو نموذج فيديو-لغة يحاكي آلية الذاكرة البشرية. يتمكن نموذجنا من معالجة تدفقات الفيديو الطويلة جدًا بشكل مباشر وفي الوقت الحقيقي والاستجابة لاستفسارات المستخدمين في الوقت نفسه. مقارنة بالنماذج الحالية، يحقق Flash-VStream خفضًا كبيرًا في زمن الاستدلال وكمية ذاكرة الوصول العشوائي المرتبطة بالفيديو (VRAM)، وهو ما يتعلق بشكل وثيق بأداء فهم تدفقات الفيديو عبر الإنترنت. بالإضافة إلى ذلك، نظرًا لأن معظم مقاييس فهم الفيديو الحالية تركز على السيناريوهات غير المباشرة (offline)، فقد اقترحنا VStream-QA، وهو مقاس جديد للإجابة على الأسئلة مصمم خصيصًا لفهم تدفقات الفيديو عبر الإنترنت. تظهر المقارنات مع الأساليب الشائعة الحالية على المقاس المقترح تفوق طريقة عملنا في هذا الإعداد الصعب. لتأكيد قابلية التعميم لنهجنا، قمنا بتقييمه أيضًا على مقاييس فهم الفيديو الحالية ويحقق أداءً رائدًا في السيناريوهات غير المباشرة (offline) أيضًا. يمكن الحصول على جميع الأكواد والنماذج والمجموعات البيانات من الرابط: https://invinciblewyq.github.io/vstream-page/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp