HyperAIHyperAI
منذ 2 أشهر

LinVT: تمكين نموذج اللغة الكبير الخاص بك على مستوى الصورة من فهم الفيديوهات

Lishuai Gao; Yujie Zhong; Yingsen Zeng; Haoxian Tan; Dengjie Li; Zheng Zhao
LinVT: تمكين نموذج اللغة الكبير الخاص بك على مستوى الصورة من فهم الفيديوهات
الملخص

تم استخدام نماذج اللغات الكبيرة (LLMs) على نطاق واسع في مهام مختلفة، مما حفزنا على تطوير مساعد يعتمد على نموذج لغة كبير للفيديوهات. بدلاً من التدريب من الصفر، نقترح وحدة لتحويل أي نموذج صورة جيد التدريب إلى نموذج فيديو-LLM (بعد تدريبه على بيانات الفيديو). لتحسين تكيف نماذج الصور-LLM مع معالجة الفيديوهات، نقدم مبدأين تصميميين: التحويل الخطي لحفظ التناظر البصري-اللغوي الأصلي، وتكثيف المعلومات الممثلة من المحتوى الفيديوي الزائد. بقيادة هذه المبادئ، نقترح tokenizer فيديو خطي قابل للتركيب والتشغيل (LinVT)، والذي يمكن النماذج الحالية للصور-LLM من فهم الفيديوهات. قمنا بتقييم LinVT باستخدام ستة نماذج بصريّة LLM حديثة: Aquila، Blip-3، InternVL2، Mipha، Molmo و Qwen2-VL، مما يظهر مدى توافق LinVT العالي. تحقق النماذج LLM المستندة إلى LinVT من أفضل الأداء في مختلف مقاييس الفيديو، مما يوضح فعالية LinVT في فهم الفيديو متعدد الوسائط.