الملخص

العنوان: [غير محدد]الملخص: تُعد الذاكرة أمراً أساسياً للنماذج اللغوية البصرية الكبيرة (LVLMs) للتعامل مع التفاعلات الطويلة متعددة الوسائط، حيث توفر اتجاهان منهجيان هذه القدرة: نماذج LVLMs ذات السياق الطويل، ووكلاء معززون بالذاكرة. ومع ذلك، لا يقوم أي معيار قائم بإجراء مقارنة منهجية بين الاتجاهين على أسئلة تتطلب فعلياً أدلة متعددة الوسائط. لسد هذه الفجوة، نقدم MEMLENS، وهو معيار شامل للذاكرة في المحادثات متعددة الجلسات متعددة الوسائط، ويتكون من 789 سؤالاً عبر خمس قدرات ذاكرة (استخراج المعلومات، والاستدلال متعدد الجلسات، والاستدلال الزمني، وتحديث المعرفة، ورفض الإجابة) عند أربعة أطوال سياق قياسية (من 32K إلى 256K token) تحت مخطط لعد الـ tokens عبر الوسائط. تؤكد دراسة حذف الصور (image-ablation) أن حل مسائل MEMLENS يتطلب أدلة بصرية: حيث يؤدي إزالة صور الأدلة إلى انخفاض دقة نموذجين رائدين من نماذج LVLMs إلى أقل من 2% على 80.4% من الأسئلة التي تتضمن صوراً في أدلتها. ومن خلال تقييم 27 نموذجاً من نماذج LVLMs و7 وكلاء معززين بالذاكرة، نجد أن نماذج LVLMs ذات السياق الطويل تحقق دقة عالية في السياقات القصيرة من خلال التوجيه البصري المباشر، لكنها تتدهور مع نمو المحادثات، بينما تكون الوكلاء المعززون بالذاكرة مستقرين من حيث الطول، لكنهم يفقدون الدقة البصرية تحت ضغط ضغط التخزين. ويحد الاستدلال متعدد الجلسات أداء معظم الأنظمة دون 30%، ولا يحل أي من النهجين المهمة بمفرده. تحفز هذه النتائج وجود معماريات هجينة تجمع بين الانتباه للسياق الطويل والاسترجاع متعدد الوسائط المهيكلي. يتوفر كودنا على الرابط https://github.com/xrenaf/MEMLENS.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

MemLens: تقييم نماذج اللغات البصرية الكبيرة من حيث الذاكرة طويلة المدى متعددة الوسائط

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MemLens: تقييم نماذج اللغات البصرية الكبيرة من حيث الذاكرة طويلة المدى متعددة الوسائط

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MemLens: تقييم نماذج اللغات البصرية الكبيرة من حيث الذاكرة طويلة المدى متعددة الوسائط

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu