Command Palette
Search for a command to run...
تخمين – فكر – أجب
تم اقتراح خوارزمية Guess–Think–Answer (GTA) من قبل فريق خوارزمية مختبر الذكاء الاصطناعي في vivo في سبتمبر 2025، وتم نشر نتائج البحث ذات الصلة في الورقة البحثية "GTA: التعلم التعزيزي الموجه بالإشراف لتصنيف النصوص باستخدام نماذج لغوية كبيرة".
يعمل إطار عمل GTA بجعل النموذج يُولّد تخمينًا أوليًا (مُحسّنًا من خلال فقدان الإنتروبيا المتقاطعة)، ثم يُفكّر في هذا التخمين لتوليد الإجابة النهائية، مع استخدام مكافآت التعلم التعزيزي (RL) في الوقت نفسه لتشكيل الناتج النهائي وشكل هيكل GTA بأكمله. يُمكّن هذا الإطار النموذج من تعلّم أنماط الاستدلال الفعّالة تلقائيًا من خلال التعلم التعزيزي، مما يُلغي الحاجة إلى الشرح اليدوي لسلسلة الاستدلال، ويجمع بين كفاءة الضبط الدقيق المُشرف (SFT) والقدرات المُحسّنة للتعلم التعزيزي ضمن نموذج تدريب موحّد.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.