فيديو-شاتجيبيتي: نحو فهم مفصل للفيديو من خلال نماذج الرؤية واللغة الكبيرة

الوكلاء المحادثة التي تغذيها نماذج اللغات الكبيرة (LLMs) توفر طريقة جديدة للتفاعل مع البيانات البصرية. رغم وجود محاولات أولية لنماذج المحادثة القائمة على الصور، فإن هذا العمل يتناول المجال غير المستكشف بشكل كافٍ للمحادثة القائمة على الفيديو من خلال تقديم Video-ChatGPT. إنها نموذج متعدد الوسائط يدمج بين مُشفِّر بصري مكيف للفيديو ونموذج لغوي كبير (LLM). يتمتع النموذج الناتج بالقدرة على فهم وإنتاج محادثات تفصيلية حول الفيديوهات. نقدم مجموعة بيانات جديدة تتكون من 100,000 زوج من تعليمات الفيديو استخدمت لتدريب Video-ChatGPT، والتي تم الحصول عليها عبر خط أنابيب يدوي وشبه آلي يمكن توسيعه بسهولة ومقاوم للضوضاء التصنيفية. كما طورنا إطارًا تقييميًا كميائيًا لنماذج الحوار القائمة على الفيديو لتحليل قواها وضعفها بشكل موضوعي. الرمز: https://github.com/mbzuai-oryx/Video-ChatGPT.