منذ 8 أشهر

الملخص

الوكلاء المحادثة التي تغذيها نماذج اللغات الكبيرة (LLMs) توفر طريقة جديدة للتفاعل مع البيانات البصرية. رغم وجود محاولات أولية لنماذج المحادثة القائمة على الصور، فإن هذا العمل يتناول المجال غير المستكشف بشكل كافٍ للمحادثة القائمة على الفيديو من خلال تقديم Video-ChatGPT. إنها نموذج متعدد الوسائط يدمج بين مُشفِّر بصري مكيف للفيديو ونموذج لغوي كبير (LLM). يتمتع النموذج الناتج بالقدرة على فهم وإنتاج محادثات تفصيلية حول الفيديوهات. نقدم مجموعة بيانات جديدة تتكون من 100,000 زوج من تعليمات الفيديو استخدمت لتدريب Video-ChatGPT، والتي تم الحصول عليها عبر خط أنابيب يدوي وشبه آلي يمكن توسيعه بسهولة ومقاوم للضوضاء التصنيفية. كما طورنا إطارًا تقييميًا كميائيًا لنماذج الحوار القائمة على الفيديو لتحليل قواها وضعفها بشكل موضوعي. الرمز: https://github.com/mbzuai-oryx/Video-ChatGPT.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار