هندسة التمثيل: نهج من الأعلى إلى الأسفل للشفافية في الذكاء الاصطناعي

في هذه الورقة، نحدد ونُصَفُّ المجال الناشئ لـ "هندسة التمثيل" (RepE)، وهو نهج يهدف إلى تعزيز الشفافية في أنظمة الذكاء الاصطناعي، مستمدًا رؤى من علم الأعصاب المعرفي. تُركّز RepE على التمثيلات على مستوى المجموعة (population-level representations) بدلًا من الأعصاب أو الدوائر، مما يزوّدنا بأساليب جديدة لرصد وتعديل الظواهر المعرفية عالية المستوى في الشبكات العصبية العميقة (DNNs). نقدّم معايير مرجعية وتحليلًا أوليًا لتقنيات RepE، موضحين أن هذه الأساليب تقدّم حلولًا بسيطة ولكن فعّالة لتحسين فهمنا وتحكمنا في النماذج اللغوية الكبيرة. ونُظهر كيف يمكن لهذه الأساليب أن تُسهم في معالجة طائفة واسعة من المشكلات ذات الصلة بالسلامة، بما في ذلك الصدق، والخضوع للضرر، وسعي الكيانات للسلطة، وغيرها، مما يُظهر إمكانات البحث الشفافي من الأعلى إلى الأسفل. نأمل أن تُحفّز هذه الدراسة استكشافًا أوسع لـ RepE، وتدعم تقدّمًا في شفافية وسلامة أنظمة الذكاء الاصطناعي.