HyperAIHyperAI

Command Palette

Search for a command to run...

فهم مقاطع الفيديو الطويلة باستخدام نماذج اللغة متعددة الوسائط

Kanchana Ranasinghe Xiang Li Kumara Kahatapitiya Michael S. Ryoo

الملخص

النماذج اللغوية الكبيرة (LLMs) قد مكّنت الأساليب الحديثة القائمة على نماذج LLM من تحقيق أداء ممتاز في مقاييس فهم الفيديوهات الطويلة. نحن نستكشف كيف تؤثر المعرفة العالمية الواسعة والمهارات التحليلية القوية للنماذج الأساسية LLM على هذا الأداء المتميز. بشكل مفاجئ، نكتشف أن الأساليب القائمة على LLM يمكن أن تحقق دقة مفاجئة جيدة في مهام الفيديو الطويل مع وجود معلومات فيديو محدودة، وأحيانًا حتى دون أي معلومات خاصة بالفيديو. بناءً على هذا الاكتشاف، نقوم باستكشاف حقن المعلومات الخاصة بالفيديو في إطار عمل قائم على LLM. نستخدم أدوات الرؤية الجاهزة لاستخراج ثلاث وسائط لمعلومات مركزية حول الأشياء من الفيديوهات، ثم نستفيد من اللغة الطبيعية كوسيلة لدمج هذه المعلومات. يُظهر الإطار متعدد الوسائط لفهم الفيديو (MVU) لدينا أداءً رائدًا في العديد من مقاييس فهم الفيديو. كما يثبت الأداء القوي أيضًا في مهام مجال الروبوتات قوة عامليته. الرمز البرمجي: https://github.com/kahnchana/mvu


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فهم مقاطع الفيديو الطويلة باستخدام نماذج اللغة متعددة الوسائط | مستندات | HyperAI