HyperAIHyperAI

Command Palette

Search for a command to run...

LinVT: تمكين نموذج اللغة الكبير الخاص بك على مستوى الصورة من فهم الفيديوهات

Lishuai Gao Yujie Zhong† Yingsen Zeng Haoxian Tan Dengjie Li Zheng Zhao

الملخص

تم استخدام نماذج اللغات الكبيرة (LLMs) على نطاق واسع في مهام مختلفة، مما حفزنا على تطوير مساعد يعتمد على نموذج لغة كبير للفيديوهات. بدلاً من التدريب من الصفر، نقترح وحدة لتحويل أي نموذج صورة جيد التدريب إلى نموذج فيديو-LLM (بعد تدريبه على بيانات الفيديو). لتحسين تكيف نماذج الصور-LLM مع معالجة الفيديوهات، نقدم مبدأين تصميميين: التحويل الخطي لحفظ التناظر البصري-اللغوي الأصلي، وتكثيف المعلومات الممثلة من المحتوى الفيديوي الزائد. بقيادة هذه المبادئ، نقترح tokenizer فيديو خطي قابل للتركيب والتشغيل (LinVT)، والذي يمكن النماذج الحالية للصور-LLM من فهم الفيديوهات. قمنا بتقييم LinVT باستخدام ستة نماذج بصريّة LLM حديثة: Aquila، Blip-3، InternVL2، Mipha، Molmo و Qwen2-VL، مما يظهر مدى توافق LinVT العالي. تحقق النماذج LLM المستندة إلى LinVT من أفضل الأداء في مختلف مقاييس الفيديو، مما يوضح فعالية LinVT في فهم الفيديو متعدد الوسائط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LinVT: تمكين نموذج اللغة الكبير الخاص بك على مستوى الصورة من فهم الفيديوهات | مستندات | HyperAI