Command Palette
Search for a command to run...
MemLens: تقييم نماذج اللغات البصرية الكبيرة من حيث الذاكرة طويلة المدى متعددة الوسائط
MemLens: تقييم نماذج اللغات البصرية الكبيرة من حيث الذاكرة طويلة المدى متعددة الوسائط
الملخص
العنوان: [غير محدد]الملخص: تُعد الذاكرة أمراً أساسياً للنماذج اللغوية البصرية الكبيرة (LVLMs) للتعامل مع التفاعلات الطويلة متعددة الوسائط، حيث توفر اتجاهان منهجيان هذه القدرة: نماذج LVLMs ذات السياق الطويل، ووكلاء معززون بالذاكرة. ومع ذلك، لا يقوم أي معيار قائم بإجراء مقارنة منهجية بين الاتجاهين على أسئلة تتطلب فعلياً أدلة متعددة الوسائط. لسد هذه الفجوة، نقدم MEMLENS، وهو معيار شامل للذاكرة في المحادثات متعددة الجلسات متعددة الوسائط، ويتكون من 789 سؤالاً عبر خمس قدرات ذاكرة (استخراج المعلومات، والاستدلال متعدد الجلسات، والاستدلال الزمني، وتحديث المعرفة، ورفض الإجابة) عند أربعة أطوال سياق قياسية (من 32K إلى 256K token) تحت مخطط لعد الـ tokens عبر الوسائط. تؤكد دراسة حذف الصور (image-ablation) أن حل مسائل MEMLENS يتطلب أدلة بصرية: حيث يؤدي إزالة صور الأدلة إلى انخفاض دقة نموذجين رائدين من نماذج LVLMs إلى أقل من 2% على 80.4% من الأسئلة التي تتضمن صوراً في أدلتها. ومن خلال تقييم 27 نموذجاً من نماذج LVLMs و7 وكلاء معززين بالذاكرة، نجد أن نماذج LVLMs ذات السياق الطويل تحقق دقة عالية في السياقات القصيرة من خلال التوجيه البصري المباشر، لكنها تتدهور مع نمو المحادثات، بينما تكون الوكلاء المعززون بالذاكرة مستقرين من حيث الطول، لكنهم يفقدون الدقة البصرية تحت ضغط ضغط التخزين. ويحد الاستدلال متعدد الجلسات أداء معظم الأنظمة دون 30%، ولا يحل أي من النهجين المهمة بمفرده. تحفز هذه النتائج وجود معماريات هجينة تجمع بين الانتباه للسياق الطويل والاسترجاع متعدد الوسائط المهيكلي. يتوفر كودنا على الرابط https://github.com/xrenaf/MEMLENS.