HyperAIHyperAI
منذ 2 أشهر

HallusionBench: مجموعة تشخيصية متقدمة للهلوسة اللغوية المتداخلة والوهم البصري في النماذج الكبيرة للرؤية واللغة

Tianrui Guan; Fuxiao Liu; Xiyang Wu; Ruiqi Xian; Zongxia Li; Xiaoyu Liu; Xijun Wang; Lichang Chen; Furong Huang; Yaser Yacoob; Dinesh Manocha; Tianyi Zhou
HallusionBench: مجموعة تشخيصية متقدمة للهلوسة اللغوية المتداخلة والوهم البصري في النماذج الكبيرة للرؤية واللغة
الملخص

نقدم HallusionBench، وهو معيار شامل مصمم لتقييم الاستدلال بين الصور والسياق. يشكل هذا المعيار تحديات كبيرة للنماذج البصرية-اللغوية الكبيرة المتقدمة (LVLMs) مثل GPT-4V (Vision)، Gemini Pro Vision، Claude 3، وLLaVA-1.5 من خلال التركيز على الفهم الدقيق والتفسير للبيانات البصرية. يتكون المعيار من 346 صورة مقترنة بـ 1129 سؤالًا، جميعها تم إعدادها بدقة بواسطة خبراء بشريين. نقدم هيكلًا جديدًا لهذه الأسئلة البصرية مصممًا لإنشاء مجموعات ضابطة. يتيح هذا الهيكل لنا إجراء تحليل كمي لميل النماذج في الردود، والاتساق المنطقي، وأنماط الفشل المختلفة. في تقييمنا على HallusionBench، قمنا بتقييم 15 نموذجًا مختلفًا، مما أبرز دقة بنسبة 31.42% في أزواج الأسئلة التي حققها النموذج الأكثر تقدمًا GPT-4V. ومن الجدير بالذكر أن جميع النماذج الأخرى التي تم تقييمها حققت دقة أقل من 16%. بالإضافة إلى ذلك، فإن تحليلنا لا يقتصر فقط على تسليط الضوء على أنماط الفشل الملاحظة، بما في ذلك التخيل اللغوي والوهم البصري، بل يعمق أيضًا فهمنا لهذه الثغرات. دراسات الحالة الشاملة لدينا داخل HallusionBench توضح التحديات المرتبطة بالتخيّل والأوهام في النماذج البصرية-اللغوية الكبيرة (LVLMs). بناءً على هذه الرؤى، نقترح مسارات محتملة لتحسينها في المستقبل. يمكن الوصول إلى المعيار ومجموعة البرامج عبر الرابط: https://github.com/tianyi-lab/HallusionBench.

HallusionBench: مجموعة تشخيصية متقدمة للهلوسة اللغوية المتداخلة والوهم البصري في النماذج الكبيرة للرؤية واللغة | أحدث الأوراق البحثية | HyperAI