HyperAIHyperAI

Command Palette

Search for a command to run...

HallusionBench: مجموعة تشخيصية متقدمة للهلوسة اللغوية المتداخلة والوهم البصري في النماذج الكبيرة للرؤية واللغة

الملخص

نقدم HallusionBench، وهو معيار شامل مصمم لتقييم الاستدلال بين الصور والسياق. يشكل هذا المعيار تحديات كبيرة للنماذج البصرية-اللغوية الكبيرة المتقدمة (LVLMs) مثل GPT-4V (Vision)، Gemini Pro Vision، Claude 3، وLLaVA-1.5 من خلال التركيز على الفهم الدقيق والتفسير للبيانات البصرية. يتكون المعيار من 346 صورة مقترنة بـ 1129 سؤالًا، جميعها تم إعدادها بدقة بواسطة خبراء بشريين. نقدم هيكلًا جديدًا لهذه الأسئلة البصرية مصممًا لإنشاء مجموعات ضابطة. يتيح هذا الهيكل لنا إجراء تحليل كمي لميل النماذج في الردود، والاتساق المنطقي، وأنماط الفشل المختلفة. في تقييمنا على HallusionBench، قمنا بتقييم 15 نموذجًا مختلفًا، مما أبرز دقة بنسبة 31.42% في أزواج الأسئلة التي حققها النموذج الأكثر تقدمًا GPT-4V. ومن الجدير بالذكر أن جميع النماذج الأخرى التي تم تقييمها حققت دقة أقل من 16%. بالإضافة إلى ذلك، فإن تحليلنا لا يقتصر فقط على تسليط الضوء على أنماط الفشل الملاحظة، بما في ذلك التخيل اللغوي والوهم البصري، بل يعمق أيضًا فهمنا لهذه الثغرات. دراسات الحالة الشاملة لدينا داخل HallusionBench توضح التحديات المرتبطة بالتخيّل والأوهام في النماذج البصرية-اللغوية الكبيرة (LVLMs). بناءً على هذه الرؤى، نقترح مسارات محتملة لتحسينها في المستقبل. يمكن الوصول إلى المعيار ومجموعة البرامج عبر الرابط: https://github.com/tianyi-lab/HallusionBench.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp