تقارب تطوري: نماذج لغوية تتعلم تمثيلات رقمية مماثلة
تظهر دراسة حديثة نشرتها أرشيف في العام 2024 ظاهرة مثيرة في تعلم نماذج الذكاء الاصطناعي، تُعرف بالتطور المتقارب، حيث تتعلم نماذج لغوية مختلفة ومتنوعة تمثيلات رقمية متشابهة جدًا رغم اختلاف هياكلها وطرق تدريبها. كشفت الدراسة، التي حملت عنوان "التطور المتقارب: كيف تتعلم نماذج اللغة المختلفة تمثيلات رقمية متشابهة"، أن النماذج المدربة على النصوص الطبيعية تميل إلى استخدام ميزات دورية لتمثيل الأرقام، حيث تتركز الفترات المهيمنة عند القيم 2 و5 و10. حدد الباحثون تسلسلًا هرميًا مكونًا من مستويين لهذه الميزات. فبينما اكتشف أن جميع النماذج، بما في ذلك نماذج المحولات (Transformers)، والشبكات العصبية المتكررة الخطية، ونماذج الذاكرة طويلة قصيرة المدى (LSTMs)، بالإضافة إلى التضمينات التقليدية للكلمات، تتعلم جميعها ميزات تظهر فيها spikes في مجال فورييه بفترة محددة، إلا أن هذا التشابه لا يعني أن جميعها متساوية في الأداء. فبينما تتشارك هذه النماذج في وجود هذه الـ spikes، فإن بعضها فقط يتعلم ميزات قابلة للفصل هندسيًا، وهي خاصية ضرورية لتصنيف الأرقام بدقة بناءً على باقي القسمة على الرقم الدوري (mod-T) باستخدام تصنيف خطي بسيط. لتفسير هذا التناقض، أثبت الباحثون رياضيًا أن التناثر في مجال فورييه هو شرط ضروري ولكن ليس كافيًا للحصول على الفصل الهندسي للميزات. وبناءً على ذلك، استكشف الباحثون تجريبياً الظروف التي تؤدي إلى تعلم هذه الميزات القابلة للفصل، ووجدوا أن البيانات المستخدمة، وهندسة النموذج، وخوارزمية التحسين (Optimizer)، وأداة تقسيم الكلمات (Tokenizer) تلعب جميعها أدوارًا حاسمة. أظهرت النتائج أن هناك مسارين رئيسيين يمكن من خلالهما للنماذج تعلم هذه الميزات القابلة للفصل هندسيًا. الأول هو التعلم من إشارات التكرار التكميلي في بيانات اللغة العامة، والتي تشمل التكرار المشترك للنصوص والأرقام، والتفاعل بين الأرقام المختلفة. والمسار الثاني هو التعلم من مسائل الجمع التي تتكون من أكثر من رمز واحد (multi-token)، بينما تفشل النماذج في التعلم الفعّال إذا كانت المسائل مقتصرة على رمز واحد فقط. تؤكد هذه الدراسة أن التنوع الكبير في نماذج التعلم الآلي يؤدي إلى نتائج متقاربة في كيفية فهم ومعالجة الأرقام، مما يشير إلى وجود قيود أساسية في كيفية تعلم الآلة للمفاهيم الرياضية من البيانات النصية. هذه الظاهرة، التي تسمى التطور المتقارب، تبرز كيف أن إشارات تدريب مختلفة يمكن أن تقود نماذج متنوعة إلى نفس الحلول البنيوية لفهم العالم الرقمي. النتائج لها آثار واسعة على فهم كيفية عمل نماذج الذكاء الاصطناعي الحالية، وكيفية تحسين دقتها في المهام التي تتطلب فهمًا عميقًا للرياضيات، كما تفتح الباب أمام نقاشات حول كيفية تصميم نماذج أكثر كفاءة وموثوقية في معالجة الأرقام والمعادلات.
