HyperAIHyperAI
منذ 2 أشهر

فيديوتشات: فهم الفيديو المتمحور حول الدردشة

KunChang Li; Yinan He; Yi Wang; Yizhuo Li; Wenhai Wang; Ping Luo; Yali Wang; Limin Wang; Yu Qiao
فيديوتشات: فهم الفيديو المتمحور حول الدردشة
الملخص

في هذا البحث، نبدأ محاولة لتطوير نظام فهم الفيديو المركزي حول الدردشة من البداية إلى النهاية، والذي أطلقنا عليه اسم VideoChat. يدمج النظام نماذج أساس الفيديو ونماذج اللغة الكبيرة عبر واجهة عصبية قابلة للتعلم، مما يجعله متفوقًا في الاستدلال المكاني والزماني، وتوضيح الأحداث، واستنباط العلاقات السببية. لضبط هذا النظام بشكل توجيهي، قمنا ببناء مجموعة بيانات تعليمية مركزة على الفيديو، تتكون من آلاف مقاطع الفيديو المرتبطة بوصف مفصل ومحادثات. تركز هذه المجموعة على الاستدلال المكاني والزماني وتلتقط العلاقات السببية، مما يوفر أصلًا ثمينًا لتدريب نظام فهم الفيديو المركزي حول الدردشة الخاص بنا. تظهر التجارب النوعية الأولية إمكانات نظامنا في نطاق واسع من تطبيقات الفيديو، والتي يمكن أن تعمل كنموذج بسيط للأنظمة المستقبلية في مجال فهم الفيديو المركزي حول الدردشة. يمكن الوصول إلى شفرتنا ومجموعات البيانات الخاصة بنا عبر الرابط: https://github.com/OpenGVLab/Ask-Anything