منذ 4 أيام

مسح حول الاستدلال الكامن

Rui-Jie Zhu, Tianhao Peng, Tianhao Cheng, Xingwei Qu, Jinfa Huang, Dawei Zhu, Hao Wang, Kaiwen Xue, Xuanliang Zhang, Yong Shan, Tianle Cai, Taylor Kergan, Assel Kembay, Andrew Smith, Chenghua Lin, Binh Nguyen, Yuqi Pan, Yuhong Chou, Zefan Cai, Zhenhe Wu, Yongchi Zhao, Tianyu Liu, Jian Yang, Wangchunshu Zhou, Chujie Zheng, Chongxuan Li, Yuyin Zhou, Zhoujun Li, Zhaoxiang Zhang, Jiaheng Liu, Ge Zhang, Wenhao Huang, Jason Eshraghian

عرض تفاصيل الورقة البحثية View Code

الملخص

قد أظهرت نماذج اللغات الكبيرة (Large Language Models - LLMs) قدرات استدلال مثيرة للإعجاب، خاصة عند توجيهها من خلال الاستدلال الصريح الذي يعبر عن الخطوات الوسيطة (Chain-of-Thought - CoT). بينما يحسن CoT من القابلية للتفسير والدقة، فإن اعتماده على الاستدلال باللغة الطبيعية يحد من نطاق التعبير في النموذج. يستهدف الاستدلال الخفي (Latent Reasoning) هذا العائق من خلال إجراء الاستدلال متعدد الخطوات كليًا في الحالة المخفية المستمرة للنموذج، مما يلغي الرقابة على مستوى الرموز. لدفع بحوث الاستدلال الخفي إلى الأمام، يقدم هذا المسح نظرة شاملة ومفصلة للمجال الناشئ للاستدلال الخفي. نبدأ بفحص الدور الأساسي لطبقات الشبكات العصبية كأساس حسابي للاستدلال، مع التركيز على كيفية دعم التمثيلات الهرمية للتحولات المعقدة. ثم نستكشف مجموعة متنوعة من مناهج الاستدلال الخفي، بما في ذلك التكرار القائم على التنشيط، وانتشار الحالة المخفية، واستراتيجيات التعديل الدقيق التي تضغط أو تدمج آثار الاستدلال الصريحة. أخيرًا، نناقش النماذج المتقدمة مثل الاستدلال الخفي بعمق لا نهائي عبر نماذج الانتشار المقنعة (Masked Diffusion Models)، والتي تمكن من عمليات استدلال متسقة عالميًا وقابلة للعكس. من خلال توحيدها لهذه الآراء، نسعى إلى توضيح المشهد المفاهيمي للاستدلال الخفي وتحديد الاتجاهات المستقبلية للبحث في طليعة إدراك LLMs. يمكن الوصول إلى مستودع GitHub المرتبط جامع لأحدث الأوراق البحثية والمستودعات في العنوان التالي:https://github.com/multimodal-art-projection/LatentCoT-Horizon/.