منذ 8 أشهر

الملخص

في هذا العمل، نقدم طريقة جديدة لمعالجة تحدي إنشاء الرموز في نماذج اللغة والرؤية (VLMs) لفهم الفيديو والصور، تُسمى LLaMA-VID. رغم كفاءة النماذج الحالية في مهام مثل وصف الصور وإجابة الأسئلة البصرية، فإنها تواجه أعباء حسابية عند معالجة مقاطع الفيديو الطويلة بسبب زيادة عدد الرموز البصرية. يعالج LLaMA-VID هذه المشكلة من خلال تمثيل كل إطار برمزين مختلفين، وهما رمز السياق ورمز المحتوى. يقوم رمز السياق بتشفير سياق الصورة العام بناءً على مدخلات المستخدم، بينما يحوي رمز المحتوى العناصر البصرية في كل إطار. هذه الاستراتيجية الثنائية للرموز تقلل بشكل كبير من الأعباء المرتبطة بالفيديوهات الطويلة مع الحفاظ على المعلومات الحرجة. عمومًا، يمكن لـ LLaMA-VID تمكين الإطارات الموجودة من دعم مقاطع الفيديو التي تستمر لمدة ساعة وزيادة حدودها العليا بإضافة رمز سياق إضافي. وقد ثبت أنها تتفوق على الطرق السابقة في معظم المقاييس المتعلقة بالفيديو أو الصور. الكود متاح على الرابط: https://github.com/dvlab-research/LLaMA-VID.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yanwei Li Chengyao Wang Jiaya Jia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yanwei Li Chengyao Wang Jiaya Jia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yanwei Li Chengyao Wang Jiaya Jia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LLaMA-VID: الصورة تساوي قيمتين في النماذج اللغوية الكبيرة

Yanwei Li Chengyao Wang Jiaya Jia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LLaMA-VID: الصورة تساوي قيمتين في النماذج اللغوية الكبيرة

Yanwei Li Chengyao Wang Jiaya Jia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

LLaMA-VID: الصورة تساوي قيمتين في النماذج اللغوية الكبيرة

Yanwei Li Chengyao Wang Jiaya Jia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters