HyperAI

أظهرت دراسة أجرتها مختبرات معهد ماساتشوستس للتكنولوجيا (MIT) أن النماذج اللغوية الكبيرة (LLMs) قد تعتمد بشكل مفرط على أنماط تركيبية في الجمل بدلاً من فهم المعنى الحقيقي للأسئلة، مما يشكل خطرًا على موثوقية هذه النماذج في المهام الحساسة. وجد الباحثون أن النماذج تتعلم ارتباطات غير صحيحة بين البنية النحوية وأنماط معينة من المواضيع، بحيث قد تجيب بشكل مقنع على سؤال غير منطقي فقط لأنها تُعرّف نمط الجملة، وليس لأنها تفهم المحتوى. في تجاربهم، قام الباحثون بتصميم أسئلة مصطنعة تحافظ على نفس البنية النحوية ولكن بتعويض الكلمات بمرادفات أو معاكِسات أو كلمات عشوائية. على الرغم من أن السؤال أصبح غير منطقي تمامًا، مثل "بسرعة يجلس باريس مُغطّى؟"، أجاب النموذج غالبًا بـ"فرنسا"، لأن النموذج تعلّم أن الجملة ذات هذا التركيب ترتبط بالأسئلة عن البلدان. في المقابل، عندما تغيرت البنية النحوية مع الحفاظ على المعنى نفسه، أخفق النموذج في الإجابة بشكل صحيح. الدراسة تشمل نماذج متقدمة مثل GPT-4 وLlama، وتبين أن حتى أكثر النماذج تطورًا تتعرض لهذا الخطأ، مما يشير إلى أن المشكلة ليست محدودة بالقيود التقنية، بل جذرها في طريقة التدريب نفسها. إذ يتعلم النموذج من كميات هائلة من النصوص على الإنترنت، بما في ذلك أنماط كتابية مميزة لكل مجال، مثل الأخبار أو التقارير الطبية، مما يجعله يربط بعض التركيبات اللغوية بمواضيع معينة دون فهم دقيق. أظهر الباحثون أيضًا أن هذا الضعف يمكن استغلاله لخداع النماذج، حتى تلك التي تم تدريبها خصيصًا لرفض إنتاج محتوى ضار. فباستخدام نمط نحوية مرتبط ببيانات "آمنة"، نجحوا في إجبار النموذج على تجاوز سياسات الحماية وإنتاج محتوى خطر. الباحثون طوّروا أداة تقييم تلقائية لاختبار مدى اعتماد النموذج على هذه الارتباطات الخاطئة بين البنية والنطاق، مما يمكن المطورين من كشف هذه الثغرات قبل نشر النموذج. ويشير الباحثون إلى أن الحلول المستقبلية قد تشمل تنويع بيانات التدريب لتوفير مجموعة أوسع من الأنماط النحوية، أو تطوير استراتيجيات أمنية مبنية على فهم آليات تعلم اللغة في النماذج. الدراسة، التي نُشرت على منصة arXiv وستُعرض في مؤتمر Neural Information Processing Systems، تُبرز الحاجة إلى إيلاء اهتمام أكبر بالتحليل اللغوي في أبحاث أمان النماذج اللغوية، وفق ما أشارت إليه خبيرة من جامعة تكساس، التي وصفت البحث بأنه مبتكر ويُبرز أهمية المعرفة اللغوية في تأمين الذكاء الاصطناعي.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

Command Palette

النماذج اللغوية الكبيرة تعتمد على تجاوزات نحوية تُضعف قدرتها على الاستدلال، مما يهدد موثوقيتها

الروابط ذات الصلة

Command Palette

النماذج اللغوية الكبيرة تعتمد على تجاوزات نحوية تُضعف قدرتها على الاستدلال، مما يهدد موثوقيتها

الروابط ذات الصلة

Command Palette

النماذج اللغوية الكبيرة تعتمد على تجاوزات نحوية تُضعف قدرتها على الاستدلال، مما يهدد موثوقيتها

الروابط ذات الصلة

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد

ما وراء الواقع المرئي: نظام التقييم الجديد في تسينغهوا وورلد أرينا يكشف عن فجوة القدرات في نماذج العالم المجسد