HyperAI
Back to Headlines

اكتشاف آليات تحيز المواقع في نماذج اللغات الكبيرة وإمكانيات تصحيحها

منذ 16 أيام

فك تشفير التحيز المكاني في النماذج اللغوية الكبيرة كشفت الأبحاث أن النماذج اللغوية الكبيرة (LLMs) تميل إلى التضخيم المفرط للمعلومات الموجودة في بداية ونهاية الوثيقة أو المحادثة، بينما تتجاهل الجزء الأوسط. هذا ما يعرف بـ "التحيز المكاني"، الذي يعني أنه إذا كان محامٍ يستخدم مساعدًا ذكيًا يعمل بنموذج LLM للبحث عن عبارة معينة في وثيقة تبلغ 30 صفحة، فإن النموذج لديه احتمالية أعلى لإيجاد النص الصحيح إذا كان موجودًا في الصفحات الأولى أو الأخيرة. اكتشاف الآلية قام باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) بتطوير إطار نظري لدراسة كيفية تدفق المعلومات عبر بنية التعلم الآلي التي تشكل أساس LLMs. وجدوا أن بعض الخيارات التصميمية التي تحكم كيفية معالجة النموذج للبيانات المدخلة يمكن أن تسبب التحيز المكاني. تجاربهم كشفت أن هياكل النماذج، وخاصة تلك التي تؤثر على كيفية توزيع المعلومات عبر الكلمات المدخلة داخل النموذج، يمكن أن تكون سببًا في نشوء أو تكثيف التحيز المكاني، وأن بيانات التدريب أيضًا تساهم في المشكلة. تحليل الانتباه تعمل النماذج اللغوية الكبيرة مثل Claude و Llama و GPT-4 على نوع من الشبكات العصبية المعروفة باسم النماذج التحويلية (Transformers). تُصمَّم هذه النماذج لتقوم بمعالجة البيانات التسلسلية، حيث تقوم بتشفير الجملة إلى وحدات تسمى الرموز (tokens) ثم تتعلم العلاقات بين هذه الرموز للتنبؤ بالكلمات التالية. تمتلك هذه النماذج أداءً جيدًا بفضل آلية الانتباه، التي تستخدم طبقات متصلة من عقد معالجة البيانات لفهم السياق بالسماح للرموز بالتركيز انتقائيًا على الرموز المرتبطة بها. ومع ذلك، إذا كان كل رمز يمكنه الانتباه لكل رمز آخر في وثيقة تبلغ 30 صفحة، فإن ذلك يصبح حسابيًا غير عملي. لذلك، يقوم المهندسون عند بناء نماذج التحويل بإستخدام تقنيات التعتيم الانتباهي (Attention Masking)، والتي تحد من الكلمات التي يمكن للرمز الانتباه إليها. على سبيل المثال، يمكن للقناع السببي (Causal Mask) فقط السماح للكلمات بالانتباه إلى الكلمات التي تسبقها. بالإضافة إلى ذلك، يستخدم المهندسون ترميز المواقع (Positional Encodings) لمساعدة النموذج على فهم موقع كل كلمة في الجملة، مما يحسن الأداء. ولكن هذا الترميز يمكن أن يخفف تأثير التحيز المكاني مع زيادة عدد طبقات الانتباه. تجارب ونتائج بعد وضع الإطار النظري، قام الباحثون بتجارب تناولت فيها تغيير موقع الإجابة الصحيحة بشكل منهجي في سلاسل النصوص لمهام استرجاع المعلومات. أظهرت هذه التجارب ظاهرة "الضياع في الوسط" (Lost-in-the-Middle Phenomenon)، حيث اتبعت دقة الاسترجاع نمطًا على شكل حرف U. أدت النماذج أفضل أداء عندما كانت الإجابة الصحيحة في بداية السلسلة، ثم انخفض الأداء كلما اقتربت الإجابة من الوسط قبل أن تتحسن قليلاً إذا كانت الإجابة قريبة من النهاية. في النهاية، تقترح أعمالهم أن استخدام تقنية تعتيم مختلفة، إزالة طبقات إضافية من آلية الانتباه، أو استخدام ترميز المواقع بشكل استراتيجي يمكن أن يقلل من التحيز المكاني ويحسن دقة النموذج. آراء المختصين يقول البروفيسور علي جادباجي، أستاذ ومدير قسم الهندسة المدنية والبيئية في MIT، وأحد مؤلفي الورقة البحثية: "من خلال الجمع بين النظرية والتجارب، تمكنا من دراسة عواقب الخيارات التصميمية التي لم تكن واضحة في البداية. إذا كنت تريد استخدام النموذج في تطبيقات ذات أهمية كبيرة، يجب أن تعرف متى يعمل النموذج، ومتى لا يعمل، ولماذا." نبذة عن الشركة معهد ماساتشوستس للتكنولوجيا (MIT) هو أحد أبرز المؤسسات التعليمية والبحثية في العالم، معروف بمجهوداته الرائدة في مجالات العلوم والتكنولوجيا والهندسة والرياضيات. يضم المعهد عدة معاهد ومختبرات متخصصة، مثل معهد البيانات والأنظمة والمجتمع (IDSS) ومعهد المعلومات والأنظمة الحاسوبية (LIDS)، حيث تجرى العديد من البحوث المبتكرة في مجال الذكاء الاصطناعي والتعلم العميق. هذه الأبحاث يمكن أن تؤدي إلى مزيد من الثقة في الروبوتات الدردشة التي تحافظ على الموضوعية خلال المحادثات الطويلة، وأنظمة الذكاء الاصطناعي الطبية التي تتعامل بطريقة أكثر عدالة مع كميات كبيرة من بيانات المرضى، ومساعدي البرمجة الذين ينتبهون إلى جميع أجزاء البرنامج بعناية أكبر.

Related Links