منذ 13 أيام

تقطيع ما هو متوقع: استنتاج كودي فعّال من خلال مفاجأة الرمز الأول

Wenhao Zeng, Yaoning Wang, Chao Hu, Yuling Shi, Chengcheng Wan, Hongyu Zhang, Xiaodong Gu

الملخص

في الآونة الأخيرة، أظهرت النماذج الكبيرة للاستدلال (LRMs) قدرات مميزة في استدلال الشفرة من خلال توسيع طول سلسلة التفكير (Chain-of-Thought - CoT). ومع ذلك، فإن التوسع المفرط في طول سلسلة التفكير يُحدث تحديات كبيرة من حيث تكاليف التدريب، وتأخير الاستدلال، وقابلية التنفيذ. وعلى الرغم من ظهور مختلف المناهج لضغط سلسلة التفكير بهدف التصدي لهذا التحدي، فإنها تواجه تنازعاً جوهرياً: حيث تُعاني الطرق التي تعمل على مستوى الرموز (token-level) من اختلال في الاتساق النحوي والمنطقي، في حين تفشل الطرق التي تعمل على مستوى الخطوات (step-level) بناءً على معامل الالتباس (perplexity) في التعرف بشكل موثوق على الخطوات الاستدلالية الأساسية من الناحية المنطقية. في هذا البحث، نقترح إطاراً جديداً يُسمى ASAP (ASAP: Anchor-guided, Surprisal-based Pruning)، وهو إطار من نوع "من الخشنة إلى الدقيقة" لضغط سلسلة التفكير. يبدأ ASAP بتنفيذ عملية قص موجهة بالنقاط المرجعية (anchor-guided pruning) للحفاظ على البنية الأساسية للاستدلال، مما يقلل بكفاءة من مساحة البحث المطلوبة في الخطوات اللاحقة. ثم يُمكّن من عملية قص مُراعية للمنطق، من خلال اختيار الخطوات الاستدلالية الجوهرية بناءً على مقياس جديد يُعرف بـ "الاندهاش في الرمز الأول" (first-token surprisal). وأخيراً، يُدرّب ASAP النموذج على توليد واعتماد هذه السلسلات المختصرة للاستدلال بشكل مستقل أثناء الاستدلال، مما يُمكّن من استدلال فعّال في مهام البرمجة. تُظهر التجارب أن ASAP تحقق أداءً متفوّقاً من حيث الدقة على عدة معايير لتصنيع الشفرة، مع تقليل كبير في تكاليف التدريب والاستدلال. وعلى معيار LiveCodeBench v4_v5 الصعب، تمكّن من خفض عدد الرموز المولدة بنسبة 23.5%، وتقليل زمن الاستدلال بنسبة 43.5% مقارنة بأقوى نموذج قائم، مع تحقيق دقة تنافسية بلغت 36.19% في معيار Pass@1. تُبرز نتائجنا اتجاهاً واعداً لبناء نماذج كبرى للاستدلال قوية وفعّالة.