تخمين – فكر – أجب
تم اقتراح خوارزمية Guess–Think–Answer (GTA) من قبل فريق خوارزمية مختبر الذكاء الاصطناعي في vivo في سبتمبر 2025، وتم نشر نتائج البحث ذات الصلة في الورقة البحثية "GTA: التعلم التعزيزي الموجه بالإشراف لتصنيف النصوص باستخدام نماذج لغوية كبيرة".
يعمل إطار عمل GTA بجعل النموذج يُولّد تخمينًا أوليًا (مُحسّنًا من خلال فقدان الإنتروبيا المتقاطعة)، ثم يُفكّر في هذا التخمين لتوليد الإجابة النهائية، مع استخدام مكافآت التعلم التعزيزي (RL) في الوقت نفسه لتشكيل الناتج النهائي وشكل هيكل GTA بأكمله. يُمكّن هذا الإطار النموذج من تعلّم أنماط الاستدلال الفعّالة تلقائيًا من خلال التعلم التعزيزي، مما يُلغي الحاجة إلى الشرح اليدوي لسلسلة الاستدلال، ويجمع بين كفاءة الضبط الدقيق المُشرف (SFT) والقدرات المُحسّنة للتعلم التعزيزي ضمن نموذج تدريب موحّد.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.