HyperAIHyperAI

Command Palette

Search for a command to run...

Video-LLaMA: نموذج لغوي صوتي بصري مُعَدَّل بالتعليمات لفهم الفيديو

Hang Zhang Xin Li Lidong Bing

الملخص

نقدم إطار فيديو-لايما (Video-LLaMA)، وهو إطار متعدد الوسائط يمنح نماذج اللغة الكبيرة (LLMs) القدرة على فهم المحتوى البصري والسمعي في الفيديو. يتم تدريب فيديو-لايما عبر التعلم العابر من مُشفرات الصور والصوت المُدربة مسبقًا والمجمدة، بالإضافة إلى نماذج اللغة الكبيرة المجمدة. على عكس الأعمال السابقة التي كانت تكمل نماذج اللغة الكبيرة لمعالجة الإشارات البصرية أو السمعية فقط، فإن فيديو-لايما يمكّن فهم الفيديو من خلال التعامل مع تحديين رئيسيين: (1) التقاط التغيرات الزمنية في المشاهد البصرية، (2) دمج الإشارات البصرية والسمعية. للتعامل مع التحدي الأول، نقترح استخدام Video Q-former لدمج مشفر الصور المُدرب مسبقًا في مشفر الفيديو الخاص بنا ونقدم مهمة توليد النص من الفيديو لتعلم العلاقة بين الفيديو واللغة. بالنسبة للتحدي الثاني، نستفيد من ImageBind، وهو نموذج تمثيل شامل يُحاذا بين عدة وسائط، كمشفر الصوت المُدرب مسبقًا ونقوم بتقديم Audio Q-former فوق ImageBind لتعلم تمثيل الاستعلامات السمعية المعقولة لنموذج اللغة الكبيرة. لمحاذاة خرج كل من مشفر الصور ومشفر الصوت مع فضاء تمثيل نموذج اللغة الكبيرة، نقوم أولاً بتدريب فيديو-لايما على كميات كبيرة من أزواج الفيديوهات/الصور مع العناوين النصية، ثم ضبط النموذج باستخدام مجموعات بيانات تعليمية بصرية ذات جودة أعلى ولكن بكميات معتدلة. لقد اكتشفنا أن فيديو-لايما يظهر القدرة على إدراك ومعرفة محتوى الفيديوهات وإنتاج ردود ذات معنى تستند إلى المعلومات البصرية والسمعية المقدمة في الفيديوهات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp