مختبر هايستاكن: مختبر رؤية لغة متعددة الوسائط ذات سياق طويل لفهم الصور/الوثائق

شهدت الانتشار الواسع للنماذج الكبيرة متعددة الوسائط (Multimodal Large Language Models) تقدماً كبيراً في قدرة تحليل وفهم المدخلات المعقدة من مصادر متعددة. ومع ذلك، لا يزال معالجة المستندات الطويلة موضوعاً غير مكتمل الاستكشاف، وذلك أساساً بسبب نقص المعايير المناسبة. ولحل هذه المشكلة، نقدم "مجمع المستندات" (Document Haystack)، وهو معيار شامل صُمّم لتقييم أداء نماذج الرؤية واللغة (Vision Language Models - VLMs) في التعامل مع المستندات الطويلة والمعقدة بصرياً. يشمل مجمع المستندات مستندات تتراوح أطوالها بين 5 إلى 200 صفحة، ويُدرج بشكل استراتيجي "أبراجاً" (needles) مكونة من نصوص نقية أو نصوص متعددة الوسائط (نص + صورة) في أماكن متعددة داخل المستندات، بهدف اختبار قدرة نماذج VLM على استرجاع المعلومات. ويتألف المعيار من 400 نموذجاً مختلفاً للمستندات، و8250 سؤالاً، ويُدعم بنموذج تقييم تلقائي موضوعي. ونُفصّل في هذا العمل بناء مجموعة بيانات "مجمع المستندات" وخصائصها، ونعرض نتائج نماذج VLM البارزة، كما نناقش الاتجاهات البحثية المحتملة في هذا المجال.