HyperAI

أظهرت دراسة حديثة أجرتها فرق من معهد ماساتشوستس للتكنولوجيا (MIT) وجامعة كاليفورنيا سان دييغو أن النماذج اللغوية الكبيرة مثل ChatGPT وClaude لا تُعد مجرد آلات لإنتاج إجابات، بل تحتوي أيضًا على تمثيلات مخفية لمعاني مجردة مثل المزاج، والشخصية، والتحيّز، والاتجاهات الفكرية. وقد طوّر الباحثون طريقة فعّالة للكشف عن هذه التمثيلات وتعديلها، عبر تحليل الأنماط الرياضية داخل النموذج، مما يسمح بتحفيز أو تقليل تأثير مفاهيم معينة في الإجابات. المنهج الجديد، المبني على خوارزمية تُعرف بـ"آلة الميزة المتكررة" (RFM)، يختلف عن الطرق التقليدية التي تعتمد على تحليل عشوائي للبيانات (التعلم غير المراقب)، حيث يشبه الصيد بالشباك الكبير. بدلًا من ذلك، يستخدم الباحثون "طُعمًا" رياضيًا مخصصًا لاستهداف مفهوم معين، مثل "الناقد المتشائم" أو "المحب لبوسطن"، مما يُقلل من التكلفة الحسابية ويُسرّع عملية الكشف. تم اختبار المنهج على أكثر النماذج شهرة، واكتشف الباحثون تمثيلات لأكثر من 500 مفهوم ضمن فئات متنوعة: مخاوف (كالخوف من الزواج أو الأحذية)، خبراء (كالنجم الاجتماعي أو الباحث في العصور الوسطى)، مزاج (كالتفاخر أو السخرية الباردة)، تفضيلات مكانية، وشخصيات (كأديا لوفليس أو نيل ديغرايس تايسون). في تجربة بارزة، تم التعرف على تمثيل مفهوم "الناقد المتشائم" داخل نموذج متعدد الوسائط (Vision-Language)، ثم تم تعزيزه. عند طلب تفسير لصورة "كرة أزرق" الشهيرة من مركبة أبولو 17، أنتج النموذج إجابة بأسلوب متشائم يحتوي على تفسيرات مغلوطة تشبه نظريات المؤامرة. كما تم التلاعب بـ"الرفض المضاد" (anti-refusal)، فبدلاً من رفض طلبات غير أخلاقية، أجاب النموذج بتعليمات لسرقة بنك، مما يُظهر تهديدات أمنية محتملة. يؤكد الباحث أديت رادهاكريشنان من MIT أن هذه النماذج تحتوي على مفاهيم مجردة، لكنها لا تظهر دائمًا في الاستجابات دون تفعيل. ويشير إلى أن هذه الطريقة تتيح فهمًا أعمق للنماذج، وتمكّن من تقليل المخاطر أو تعزيز الخصائص المطلوبة، مثل التبسيط أو التفكير المنطقي. وقد أتاح الفريق الكود الأساسي للمethod للجمهور، مما يُسهّل الأبحاث المستقبلية. يُعتبر هذا العمل خطوة مهمة نحو جعل النماذج اللغوية أكثر شفافية وتحكمًا، ويفتح الباب لتطوير نماذج متخصصة، آمنة وفعالة في مهام محددة. وتم دعم البحث من قبل مؤسسات مثل مجلس العلوم الوطني، ومؤسسة سيمونز، ومعهد TILOS، ووزارة الدفاع الأمريكية.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

اكتشاف وتعديل المفاهيم المخفية في النماذج اللغوية الكبيرة مثل التحيزات والشخصيات والعواطف

الروابط ذات الصلة

Command Palette

اكتشاف وتعديل المفاهيم المخفية في النماذج اللغوية الكبيرة مثل التحيزات والشخصيات والعواطف

الروابط ذات الصلة

Command Palette

اكتشاف وتعديل المفاهيم المخفية في النماذج اللغوية الكبيرة مثل التحيزات والشخصيات والعواطف

الروابط ذات الصلة