HyperAIHyperAI
منذ 17 أيام

هندسة التمثيل: نهج من الأعلى إلى الأسفل للشفافية في الذكاء الاصطناعي

Andy Zou, Long Phan, Sarah Chen, James Campbell, Phillip Guo, Richard Ren, Alexander Pan, Xuwang Yin, Mantas Mazeika, Ann-Kathrin Dombrowski, Shashwat Goel, Nathaniel Li, Michael J. Byun, Zifan Wang, Alex Mallen, Steven Basart, Sanmi Koyejo, Dawn Song, Matt Fredrikson, J. Zico Kolter, Dan Hendrycks
هندسة التمثيل: نهج من الأعلى إلى الأسفل للشفافية في الذكاء الاصطناعي
الملخص

في هذه الورقة، نحدد ونُصَفُّ المجال الناشئ لـ "هندسة التمثيل" (RepE)، وهو نهج يهدف إلى تعزيز الشفافية في أنظمة الذكاء الاصطناعي، مستمدًا رؤى من علم الأعصاب المعرفي. تُركّز RepE على التمثيلات على مستوى المجموعة (population-level representations) بدلًا من الأعصاب أو الدوائر، مما يزوّدنا بأساليب جديدة لرصد وتعديل الظواهر المعرفية عالية المستوى في الشبكات العصبية العميقة (DNNs). نقدّم معايير مرجعية وتحليلًا أوليًا لتقنيات RepE، موضحين أن هذه الأساليب تقدّم حلولًا بسيطة ولكن فعّالة لتحسين فهمنا وتحكمنا في النماذج اللغوية الكبيرة. ونُظهر كيف يمكن لهذه الأساليب أن تُسهم في معالجة طائفة واسعة من المشكلات ذات الصلة بالسلامة، بما في ذلك الصدق، والخضوع للضرر، وسعي الكيانات للسلطة، وغيرها، مما يُظهر إمكانات البحث الشفافي من الأعلى إلى الأسفل. نأمل أن تُحفّز هذه الدراسة استكشافًا أوسع لـ RepE، وتدعم تقدّمًا في شفافية وسلامة أنظمة الذكاء الاصطناعي.

هندسة التمثيل: نهج من الأعلى إلى الأسفل للشفافية في الذكاء الاصطناعي | أحدث الأوراق البحثية | HyperAI