HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 16 أيام

عندما تكذب النماذج، نتعلم: كشف التضليل على مستوى القطعة متعدد اللغات باستخدام PsiloQA

Elisei Rykov Kseniia Petrushina Maksim Savkin Valerii Olisov Artem Vazhentsev Kseniia Titova Alexander Panchenko Vasily Konovalov Julia Belikova

عندما تكذب النماذج، نتعلم: كشف التضليل على مستوى القطعة متعدد اللغات باستخدام PsiloQA

الملخص

لا يزال كشف التحديق (Hallucination) تحديًا أساسيًا في توظيف نماذج اللغة الكبيرة (LLMs) بشكل آمن وموثوق، خاصة في التطبيقات التي تتطلب دقة واقعية. تُقيّم المعايير الحالية للكشف عن التحديق غالبًا على مستوى التسلسل (sequence level)، وتعتمد بشكل محدود على اللغة الإنجليزية، مما يفتقر إلى الإشراف الدقيق متعدد اللغات اللازم لتقييم شامل. في هذه الدراسة، نقدّم PsiloQA، وهي مجموعة بيانات كبيرة متعددة اللغات، تم تسميتها بمستويات التحديق (span-level) عبر 14 لغة. تم بناء PsiloQA من خلال نموذج آلي مكوّن من ثلاث مراحل: إنشاء أزواج الأسئلة والأجوبة من ويكيبيديا باستخدام GPT-4o، واستخلاص إجابات محتملة التحديق من نماذج لغة كبرى متنوعة في بيئة خالية من السياق (no-context)، ثم تسمية الأجزاء المُحتمل أن تكون مُحَدَّثة (hallucinated spans) تلقائيًا باستخدام GPT-4o من خلال مقارنتها بالإجابات الذهبية (golden answers) والسياق المستخلص. قمنا بتقييم طرق متنوعة للكشف عن التحديق، تشمل تقييم عدم اليقين، والتسمية القائمة على نماذج لغة كبرى، والنموذج المُعدّل (fine-tuned) باستخدام مُشفرات (encoder models)، وبيّنّا أن النماذج القائمة على المشفرات تحقق أفضل الأداء عبر جميع اللغات. علاوة على ذلك، تُظهر PsiloQA قدرة فعّالة على التعميم عبر اللغات، وتدعم نقل المعرفة بشكل موثوق إلى معايير أخرى، مع كونها أكثر كفاءة من حيث التكلفة بكثير مقارنةً بال datasets التي تُannotated يدويًا. تُسهم مجموعة البيانات والنتائج التي قدمناها في دفع تطوير كشف التحديق الدقيق والقابل للتوسع في البيئات متعددة اللغات.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
عندما تكذب النماذج، نتعلم: كشف التضليل على مستوى القطعة متعدد اللغات باستخدام PsiloQA | الأوراق البحثية | HyperAI