HyperAIHyperAI

Command Palette

Search for a command to run...

AUTOHALLUSION: التوليد الآلي لمعيار الهلوسة للنماذج الرؤية-اللغة

الملخص

النماذج الكبيرة للرؤية واللغة (LVLMs) تتخيل: قد يثير بعض مؤشرات السياق في الصورة وحدة اللغة إلى الاستدلال بثقة زائدة وبشكل غير صحيح على الأشياء الغير طبيعية أو الوهمية. رغم أن تم تطوير بعض المقاييس لدراسة تخيلات نماذج الرؤية واللغة، إلا أنها تعتمد بشكل أساسي على حالات خاصة مصممة يدويًا والتي قد يكون من الصعب تعميم أنماط فشلها، وقد يؤدي التعديل الدقيق عليها إلى المساس بصحتها. هذه الحوافز تشجعنا على تطوير أول نهج لتوليد مقاييس آلية، AUTOHALLUSION، يستخدم عدة استراتيجيات رئيسية لإنشاء أمثلة متنوعة للتخيل. يبحث هذا النهج في وحدات اللغة في نماذج الرؤية واللغة عن مؤشرات السياق ويستخدمها لتركيب صور من خلال: (1) إضافة أشياء غير طبيعية إلى مؤشرات السياق؛ (2) بالنسبة لاثنين من الأشياء التي تحدث معًا، الاحتفاظ بإحداهما وإقصاء الأخرى؛ أو (3) إزالة الأشياء المرتبطة ارتباطًا وثيقًا بمؤشرات السياق. ثم يقوم بتوليد أسئلة قائمة على الصور والتي تكون إجاباتها الصحيحة متعارضة مع المعرف السابق لوحدة اللغة. يجب على النموذج التغلب على التحيزات والتشتت السياقي للوصول إلى الإجابات الصحيحة، بينما تشير الإجابات الخاطئة أو غير المتسقة إلى التخيل. يمكن لـ AUTOHALLUSION أن يمكّننا من إنشاء مقاييس جديدة بأقل التكاليف وبالتالي يتغلب على هشاشة المقاييس المصممة يدويًا. كما أنه يكشف الأنماط الشائعة وأسباب الفشل، مما يقدم رؤى مهمة لاكتشاف أو تجنب أو السيطرة على التخيلات. أظهرت التقييمات الشاملة لنماذج الرؤية واللغة الرائدة مثل GPT-4V(ision)، Gemini Pro Vision، Claude 3، وLLaVA-1.5 معدل نجاح بنسبة 97.7% و98.7% في تحفيز التخيلات على مجموعة البيانات الاصطناعية والمجموعات الحقيقية لـ AUTOHALLUSION، مما يفتح الطريق لمعركة طويلة ضد التخيلات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp