التحول نحو الذكاء الاصطناعي: تطور نماذج التسلسل عبر ميكانيكية الانتباه الذاتي في أطر العمل الترانسفورمر
في المقال السابق، استعرضنا التطور المبكر لشبكات التكرار (RNNs) في معالجة التسلسلات، مع التطرق إلى تحدياتها الرئيسية مثل صعوبة الحفاظ على التدفق الصحيح للدرجات في التسلسلات الطويلة. في هذا الجزء، ننتقل إلى ابتكار جذري: معمارية "المحولات" (Transformers)، التي غيرت مفهوم معالجة التسلسلات تمامًا. الفكرة المحورية وراء المحولات هي الانتباه الذاتي (Self-Attention)، وهي تقنية تمكن كل كلمة في جملة من تقييم مدى ارتباطها بكل الكلمات الأخرى، دون الحاجة إلى معالجة التسلسل خطوة بخطوة. تخيل أنك تقرأ جملة مثل: "ال فأر تجمد للحظة، ثم انطلق عبر الأرض بذعر، جسده الصغير يرتجف بينما ألقى القطة نظرة نحوه. مُذعورًا من الحركة المفاجئة ويشعر بالخطر، فرّ الفأر بجنون، مُحبطًا من وجود المفترس القريب." كيف تعرف أن "هو" تشير إلى "الفأر"؟ عقلك لا يعتمد على ملخص ذهني مبسط، بل يربط الكلمة بالسياق مباشرة — خصوصًا كلمة "مذعورًا" التي تشير إلى الكائن الذي يشعر بالخوف. في المحولات، يتم تمثيل كل كلمة بثلاثة متجهات: الاستفسار (Query)، الرمز (Key)، والقيمة (Value). يُحسب مدى تشابه "الاستفسار" الخاص بكلمة مع "الرمز" لجميع الكلمات الأخرى عبر جداء داخلي مُعدّل (Scaled Dot Product)، ثم يُحوّل الناتج إلى احتمالات باستخدام دالة سويفت (Softmax). هذه الاحتمالات تُستخدم لحساب متوسط موزون للقيم، مما ينتج تمثيلًا جديدًا يعكس أهمية كل كلمة بالنسبة للكلمة الحالية. بمرور البيانات عبر طبقات متعددة، يتطور هذا الانتباه من كشف العلاقات السطحية (مثل علاقة الفاعل بالفعل أو المفعول به في الطبقات المبكرة) إلى فهم أعمق للسياق والربط الدلالي (مثل حل مشكلة التماثل الدلالي، أي تحديد من يشير إليه "هو") في الطبقات العميقة. تم تحليل هذه الديناميكيات باستخدام أداة BertViz، حيث أظهرت التصورات أن الطبقات العميقة تركز على سياق الجملة ككل، بينما الطبقات السطحية تركز على البنية النحوية. المحول لا يعتمد على التكرار أو التحويلات التلافيفية، بل يعتمد بالكامل على آليات الانتباه، مما يسمح بمعالجة جميع الكلمات في نفس الوقت — ما يُحدث تحسينًا كبيرًا في السرعة والقابلية للتوسيع. كما أن التدريب يمكن أن يكون متوازيًا تمامًا، لأن كل توليفة لا تعتمد على الناتج السابق، مما يُعزز الاستخدام الفعّال للوحدات المعالجة الرسومية (GPU). لتدريب المحول، تُستخدم مهمة تنبؤ الكلمة التالية (Next Token Prediction)، حيث يُدرّب النموذج على التنبؤ بتوزيع الاحتمالات لكلمة متوقعة، ثم يُقاس الخطأ باستخدام دالة خسارة التباديل (Cross-Entropy). هذا يسمح بانتشار التصحيحات عبر جميع الطبقات، تمامًا كما في الشبكات العصبية التقليدية، لكن بفعالية أعلى. نجحت المحولات بفضل عدة عوامل: عدم وجود عقدة تقييد في تدفق البيانات، التدريب المتوازي، التعلم المنقول (باستخدام المعرفة العامة المكتسبة خلال التدريب المسبق)، وقابلية التوسع الهائلة — حيث تُظهر النماذج الأكبر أداءً أفضل بشكل مطرد. لكنها لا تخلو من التحديات: الاستنتاج التسلسلي يبطئ عملية التوليد لأن كل كلمة تعتمد على السابقة، وتراكم الأخطاء لا يمكن تصحيحه لاحقًا، ونقص التنويع في النصوص الناتجة، ما يستدعي استخدام تقنيات مثل التصفية حسب درجة الحرارة لتحسين الجودة. باختصار، معمارية المحولات لم تكن مجرد تحسين، بل ثورة في معالجة اللغة، مكّنت من ظهور نماذج لغوية ضخمة قادرة على إنتاج نصوص متماسكة وذكية، رغم التحديات التي تبقى قيد التحقيق.