HyperAI
Back to Headlines

المحركات (والانتباه) مجرد آلات إضافة متقدمة

منذ 9 أيام

في السنوات الأخيرة، ظهرت مجال جديد في الذكاء الاصطناعي يُعرف باسم "الاستيعاب الميكانيكي"، وهو يهدف إلى فهم كيفية عمل الشبكات العصبية من خلال تحليل مكوناتها الداخلية وتمثيلاتها، بهدف تحويلها إلى خوارزميات وแนวات يمكن للبشر فهمها. هذا المجال يختلف عن تقنيات التفسير التقليدية مثل SHAP وLIME، التي تركز على تحديد مساهمة الميزات في التنبؤات. SHAP (SHapley Additive exPlanations) يحسب مساهمة كل ميزة في التنبؤ الناتج عن النموذج، سواء بشكل محلي (لمثال واحد) أو عالمي (على جميع البيانات)، مما يساعد في تقييم أهمية الميزات في السياق العام. من ناحية أخرى، يعمل LIME على زوج واحد من المدخلات والتنبؤ، حيث يُجري تغييرات على المدخلات ويستخدم هذه التغييرات لتقدير نموذج بسيط يحل محل النموذج الأسود، مما يوفر شرحًا محليًا لسلوك النموذج. في المقابل، يركز الاستيعاب الميكانيكي على تحليل المكونات بشكل أدق، حيث يوضح كيف تُتعلم الميزات من قبل الخلايا العصبية المختلفة في الطبقات المختلفة، وكيف تتطور هذه المعرفة عبر الطبقات. هذا يسمح بتحديد مسارات معينة داخل النموذج وفهم كيف تؤثر الميزات على النتيجة النهائية. الفرق بين SHAP/LIME والاستيعاب الميكانيكي يتمثل في أن الأولين يجيبان عن سؤال "ما الميزة التي تساهم أكثر في النتيجة؟"، بينما يجيب الأخير عن سؤال "أي خلايا عصبية تتفاعل مع أي ميزة، وكيف تتطور هذه الميزة عبر الطبقات؟". يتم التركيز في هذا المجال على النماذج العميقة مثل نماذج Transformers، لأن التفسير في هذه النماذج يكون أكثر تعقيدًا. من بين المكونات التي تُحللها هذه المنهجية، توجد "الانتباه متعدد الرؤوس" (Multi-Head Attention)، وهي ميزة أساسية في نماذج Transformers. وفقًا للرؤية الميكانيكية، يمكن إعادة تفسير العمليات الرياضية التي تُستخدم في Multi-Head Attention، مثل الضرب والدمج، على أنها عمليات جمع بدلًا من ذلك، مما يفتح آفاقًا جديدة لفهم كيفية تطور الميزات عبر الطبقات. في نموذج Transformer، تبدأ العملية بجملة تتألف من 20 كلمة، تم ترميزها بشكل واحد-핫، بحجم (1 × 20 × 50,000). بعد ذلك، يتم ضرب هذه المدخلات في مصفوفة ترميز قابلة للتعلم (Wₑ) لتحويلها إلى متجهات ذات أبعاد 512. ثم تُضاف مصفوفة ترميز المواقع (positional encoding)، وتُنسخ هذه المتجهات إلى مصفوفات Q (الاستفسار)، K (المفتاح)، وV (القيمة). تُخضع كل من هذه المصفوفات لتحويل خطي، حيث يتم تقسيمها إلى 8 رؤوس (heads)، وتتحول إلى أبعاد 64. بعد ذلك، تُحسب الانتباه باستخدام ضرب المصفوفات المعياري (Scaled Dot Product Attention)، حيث يتم ضرب Q مع K المُعاد ترتيبها، ثم ضرب الناتج مع V. في النهاية، يتم دمج نتائج الرؤوس المختلفة، وتحويلها باستخدام مصفوفة خطيّة أخرى (Wₒ) لاستعادة الشكل الأصلي. من منظور الاستيعاب الميكانيكي، يمكن استبدال عملية الدمج (concat) بعملية جمع (sum) عبر الرؤوس، حيث تُعتبر كل رؤية كقناة مستقلة، وتُستخدم مصفوفات وزن لتحويل مساهمات كل رؤية إلى الناتج النهائي. هذه الطريقة الرياضية تُعتبر مكافئة لطريقة الدمج التقليدية، لكنها تتيح رؤية أوضح لعملية التعلم عبر الطبقات. هذا التفسير يفتح إمكانية جديدة لتحليل الميزات أثناء تعلمها عبر الطبقات، وهو ما يُعرف بـ "تتبع الدوائر" (circuit tracing)، وهو أحد المبادئ الأساسية في الاستيعاب الميكانيكي. هذا المجال يُقدم رؤية مغايرة لعمل Transformers، حيث يُظهر أن جميع العمليات تُعتمد على إضافة المتجهات بدلاً من العمليات المعقدة مثل الضرب. المجال يُعتبر مبتكرًا، ويعمل على فهم النماذج العميقة بشكل أعمق، مما يساعد في تحسين شفافية الذكاء الاصطناعي وفهمها بشكل أفضل. ويعتبر هذا التفسير مساهمة مهمة في مجال التفسير الآلي، ويُظهر كيف يمكن إعادة صياغة العمليات المعقدة إلى مفاهيم بسيطة مثل الجمع.

Related Links