HyperAIHyperAI

Command Palette

Search for a command to run...

LLaMA-VID: الصورة تساوي قيمتين في النماذج اللغوية الكبيرة

Yanwei Li Chengyao Wang Jiaya Jia

الملخص

في هذا العمل، نقدم طريقة جديدة لمعالجة تحدي إنشاء الرموز في نماذج اللغة والرؤية (VLMs) لفهم الفيديو والصور، تُسمى LLaMA-VID. رغم كفاءة النماذج الحالية في مهام مثل وصف الصور وإجابة الأسئلة البصرية، فإنها تواجه أعباء حسابية عند معالجة مقاطع الفيديو الطويلة بسبب زيادة عدد الرموز البصرية. يعالج LLaMA-VID هذه المشكلة من خلال تمثيل كل إطار برمزين مختلفين، وهما رمز السياق ورمز المحتوى. يقوم رمز السياق بتشفير سياق الصورة العام بناءً على مدخلات المستخدم، بينما يحوي رمز المحتوى العناصر البصرية في كل إطار. هذه الاستراتيجية الثنائية للرموز تقلل بشكل كبير من الأعباء المرتبطة بالفيديوهات الطويلة مع الحفاظ على المعلومات الحرجة. عمومًا، يمكن لـ LLaMA-VID تمكين الإطارات الموجودة من دعم مقاطع الفيديو التي تستمر لمدة ساعة وزيادة حدودها العليا بإضافة رمز سياق إضافي. وقد ثبت أنها تتفوق على الطرق السابقة في معظم المقاييس المتعلقة بالفيديو أو الصور. الكود متاح على الرابط: https://github.com/dvlab-research/LLaMA-VID.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LLaMA-VID: الصورة تساوي قيمتين في النماذج اللغوية الكبيرة | مستندات | HyperAI