HyperAIHyperAI

Command Palette

Search for a command to run...

فيديو-شاتجيبيتي: نحو فهم مفصل للفيديو من خلال نماذج الرؤية واللغة الكبيرة

Muhammad Maaz Hanoona Rasheed Salman Khan Fahad Shahbaz Khan

الملخص

الوكلاء المحادثة التي تغذيها نماذج اللغات الكبيرة (LLMs) توفر طريقة جديدة للتفاعل مع البيانات البصرية. رغم وجود محاولات أولية لنماذج المحادثة القائمة على الصور، فإن هذا العمل يتناول المجال غير المستكشف بشكل كافٍ للمحادثة القائمة على الفيديو من خلال تقديم Video-ChatGPT. إنها نموذج متعدد الوسائط يدمج بين مُشفِّر بصري مكيف للفيديو ونموذج لغوي كبير (LLM). يتمتع النموذج الناتج بالقدرة على فهم وإنتاج محادثات تفصيلية حول الفيديوهات. نقدم مجموعة بيانات جديدة تتكون من 100,000 زوج من تعليمات الفيديو استخدمت لتدريب Video-ChatGPT، والتي تم الحصول عليها عبر خط أنابيب يدوي وشبه آلي يمكن توسيعه بسهولة ومقاوم للضوضاء التصنيفية. كما طورنا إطارًا تقييميًا كميائيًا لنماذج الحوار القائمة على الفيديو لتحليل قواها وضعفها بشكل موضوعي. الرمز: https://github.com/mbzuai-oryx/Video-ChatGPT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp