مُوجِّه التقييدات التدرّجية للتعلّم العصبي-الرمزي

تمكين الشبكات العصبية من تعلُّم القيود المنطقية المعقدة وأداء الاستدلال الرمزي يُعدّ تحديًا جوهريًا. وغالبًا ما يتطلب سد هذا الفجوة توجيه توزيع المخرجات للشبكة العصبية لجعله أقرب إلى القيود الرمزية. وعلى الرغم من التقدّم المُذهل الذي أظهرته نماذج التشتت (Diffusion Models) في القدرة الإنشائية عبر مجالات متنوعة، فإننا نستخدِم البنية المعمارية القوية هذه لأداء التعلُّم العصبي-الرمزي وحل ألغاز منطقية. يعتمد نهجنا القائم على نموذج التشتت على استراتيجية تدريب مكوّنة من مرحلتين: تركز المرحلة الأولى على تنمية القدرات الأساسية في الاستدلال، بينما تُركّز المرحلة الثانية على التعلُّم المنظَّم للقيود المنطقية. ولفرض قيود صارمة على مخرجات الشبكة العصبية في المرحلة الثانية، نُصِف مُحلِّل التشتت كعملية قرار ماركوفية (Markov Decision Process)، ونُعدِّلها بشكل مبتكر باستخدام خوارزمية تحسين السياسة القريبة المُطوّرة (Improved Proximal Policy Optimization). ونستخدم إشارة مكافأة قائمة على القواعد مستمدة من التوافق المنطقي لمخرجات الشبكة العصبية، ونطبّق استراتيجية مرنة لتحسين سياسة مُحلِّل التشتت. وقد قُمنا بتقييم منهجيتنا على بعض المعايير الكلاسيكية للاستدلال الرمزي، بما في ذلك لعبة السودوكو (Sudoku) والمتاهات (Maze) وتحديد المسارات (Pathfinding) وتعلُّم التفضيلات. وأظهرت النتائج التجريبية أن نهجنا يحقق دقةً ممتازة واتساقًا منطقيًا متميزًا بين الشبكات العصبية.