HyperAIHyperAI

Command Palette

Search for a command to run...

مختبر هايستاكن: مختبر رؤية لغة متعددة الوسائط ذات سياق طويل لفهم الصور/الوثائق

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

الملخص

شهدت الانتشار الواسع للنماذج الكبيرة متعددة الوسائط (Multimodal Large Language Models) تقدماً كبيراً في قدرة تحليل وفهم المدخلات المعقدة من مصادر متعددة. ومع ذلك، لا يزال معالجة المستندات الطويلة موضوعاً غير مكتمل الاستكشاف، وذلك أساساً بسبب نقص المعايير المناسبة. ولحل هذه المشكلة، نقدم "مجمع المستندات" (Document Haystack)، وهو معيار شامل صُمّم لتقييم أداء نماذج الرؤية واللغة (Vision Language Models - VLMs) في التعامل مع المستندات الطويلة والمعقدة بصرياً. يشمل مجمع المستندات مستندات تتراوح أطوالها بين 5 إلى 200 صفحة، ويُدرج بشكل استراتيجي "أبراجاً" (needles) مكونة من نصوص نقية أو نصوص متعددة الوسائط (نص + صورة) في أماكن متعددة داخل المستندات، بهدف اختبار قدرة نماذج VLM على استرجاع المعلومات. ويتألف المعيار من 400 نموذجاً مختلفاً للمستندات، و8250 سؤالاً، ويُدعم بنموذج تقييم تلقائي موضوعي. ونُفصّل في هذا العمل بناء مجموعة بيانات "مجمع المستندات" وخصائصها، ونعرض نتائج نماذج VLM البارزة، كما نناقش الاتجاهات البحثية المحتملة في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مختبر هايستاكن: مختبر رؤية لغة متعددة الوسائط ذات سياق طويل لفهم الصور/الوثائق | مستندات | HyperAI