الملخص

في هذا البحث، نبدأ محاولة لتطوير نظام فهم الفيديو المركزي حول الدردشة من البداية إلى النهاية، والذي أطلقنا عليه اسم VideoChat. يدمج النظام نماذج أساس الفيديو ونماذج اللغة الكبيرة عبر واجهة عصبية قابلة للتعلم، مما يجعله متفوقًا في الاستدلال المكاني والزماني، وتوضيح الأحداث، واستنباط العلاقات السببية. لضبط هذا النظام بشكل توجيهي، قمنا ببناء مجموعة بيانات تعليمية مركزة على الفيديو، تتكون من آلاف مقاطع الفيديو المرتبطة بوصف مفصل ومحادثات. تركز هذه المجموعة على الاستدلال المكاني والزماني وتلتقط العلاقات السببية، مما يوفر أصلًا ثمينًا لتدريب نظام فهم الفيديو المركزي حول الدردشة الخاص بنا. تظهر التجارب النوعية الأولية إمكانات نظامنا في نطاق واسع من تطبيقات الفيديو، والتي يمكن أن تعمل كنموذج بسيط للأنظمة المستقبلية في مجال فهم الفيديو المركزي حول الدردشة. يمكن الوصول إلى شفرتنا ومجموعات البيانات الخاصة بنا عبر الرابط: https://github.com/OpenGVLab/Ask-Anything

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار