التاريخ

منذ 2 أشهر

المؤسسة

رابط الورقة البحثية

الوسوم

في أكتوبر ٢٠٢٥، اقترح فريق بحثي مشترك من جامعة رينمين الصينية وجامعة كوايشو تحسين السياسات المتوازنة مع الإنتروبيا الفاعلية (AEPO). ونُشرت نتائج البحث ذات الصلة في ورقة بحثية بعنوان "[…]".تحسين السياسة المتوازنة مع الإنتروبيا الوكيلة".

AEPO هي خوارزمية تعلّم تعزيزي للوكيل (RL) مصممة لموازنة الإنتروبيا خلال مرحلتي نشر السياسات وتحديثها. تتكون من عنصرين أساسيين: (1) آلية تمديد ديناميكية لموازنة الإنتروبيا، تُخصص بشكل تكيفي ميزانيات أخذ العينات العالمية والفرعية من خلال مراقبة الإنتروبيا المسبقة، مع فرض عقوبات على الفروع على خطوات استدعاء الأدوات المتتالية عالية الإنتروبيا لمنع التفرع المفرط؛ و(2) تحسين سياسة موازنة الإنتروبيا، يُدرج عملية تدرج إيقاف في مصطلحات التقليم عالية الإنتروبيا للحفاظ على التدرجات وإعادة قياسها بشكل مناسب على العلامات عالية الإنتروبيا، مع دمج تقدير الميزة الواعي للإنتروبيا لإعطاء الأولوية لتعلم العلامات عالية عدم اليقين. تُظهر النتائج على 14 مجموعة بيانات صعبة أن AEPO يتفوق باستمرار على 7 خوارزميات تعلّم تعزيزي شائعة.

تحسين استراتيجية تباين المجموعة GVPO

نظرًا للقيود المفروضة على تقنيات الضبط الدقيق الحالية مثل GRPO، فقد برز GVPO كنموذج ما بعد التدريب موثوقًا ومتعدد الاستخدامات.

منذ 3 أشهر

إطار عمل تحسين الاستراتيجية الهجينة HiPO

يتم استخدام HiPO لاستدلال LLM التكيفي، بما في ذلك بشكل أساسي إنشاء البيانات الهجينة والتعلم التعزيزي الهجين.

منذ 2 أشهر

هندسة السياق الوكيل

يتيح ACE للوكلاء تحسين أنفسهم من خلال تحسين سياق الإدخال بشكل ديناميكي.

منذ 3 أشهر

إطار عمل تحسين القيود التمييزية (DisCO)

إطار عمل جديد لتحسين القيود التمييزية يعتمد على المبادئ يتجنب التحيز في الصعوبة وعدم استقرار التدريب.

منذ 2 أشهر

سير عمل متعدد الوكلاء CudaForge

CudaForge عبارة عن سير عمل بسيط وفعال ومنخفض التكلفة متعدد العوامل لتوليد وتحسين نواة CUDA.

منذ 2 أشهر

طريقة DiDi-Instruct لما بعد التدريب

أول إطار عمل يطبق بنجاح تقطير مطابقة التوزيع على توليد النصوص المستندة إلى MDM، مما أدى إلى تحقيق رقم قياسي في توليد تسلسل اللغة في بضع خطوات.

منذ 2 أشهر

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

يؤسس SDAR نموذجًا عمليًا جديدًا للنمذجة اللغوية يوحد المزايا التكميلية للانحدار التلقائي والانتشار.

منذ 2 أشهر

تم البحث من خلال التشغيل الذاتي

يوضح SSP إمكانات نظرية اللعبة الذاتية كنموذج تدريب قابل للتطوير وفعال من حيث البيانات لـ LLM الخاص بالوكيل.

منذ 2 أشهر

هندسة MultiPL-MoE (لغة برمجة متعددة MoE)

MultiPL-MoE هي طريقة فعالة لتوسيع لغات البرمجة منخفضة المصدر في مرحلة ما بعد التدريب المسبق.

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

التاريخ

منذ 2 أشهر

المؤسسة

رابط الورقة البحثية

2510.14545

الوسوم

التعلم الآلي

تحسين استراتيجية تباين المجموعة GVPO

منذ 3 أشهر

إطار عمل تحسين الاستراتيجية الهجينة HiPO

يتم استخدام HiPO لاستدلال LLM التكيفي، بما في ذلك بشكل أساسي إنشاء البيانات الهجينة والتعلم التعزيزي الهجين.

منذ 2 أشهر

هندسة السياق الوكيل

يتيح ACE للوكلاء تحسين أنفسهم من خلال تحسين سياق الإدخال بشكل ديناميكي.

منذ 3 أشهر

إطار عمل تحسين القيود التمييزية (DisCO)

إطار عمل جديد لتحسين القيود التمييزية يعتمد على المبادئ يتجنب التحيز في الصعوبة وعدم استقرار التدريب.

منذ 2 أشهر

سير عمل متعدد الوكلاء CudaForge

CudaForge عبارة عن سير عمل بسيط وفعال ومنخفض التكلفة متعدد العوامل لتوليد وتحسين نواة CUDA.

منذ 2 أشهر

طريقة DiDi-Instruct لما بعد التدريب

منذ 2 أشهر

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

يؤسس SDAR نموذجًا عمليًا جديدًا للنمذجة اللغوية يوحد المزايا التكميلية للانحدار التلقائي والانتشار.

منذ 2 أشهر

تم البحث من خلال التشغيل الذاتي

يوضح SSP إمكانات نظرية اللعبة الذاتية كنموذج تدريب قابل للتطوير وفعال من حيث البيانات لـ LLM الخاص بالوكيل.

منذ 2 أشهر

هندسة MultiPL-MoE (لغة برمجة متعددة MoE)

MultiPL-MoE هي طريقة فعالة لتوسيع لغات البرمجة منخفضة المصدر في مرحلة ما بعد التدريب المسبق.

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

استراتيجية تحسين موازنة إنتروبيا العميل AEPO

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استراتيجية تحسين موازنة إنتروبيا العميل AEPO

ذات صلة ويكي

تحسين استراتيجية تباين المجموعة GVPO

إطار عمل تحسين الاستراتيجية الهجينة HiPO

هندسة السياق الوكيل

إطار عمل تحسين القيود التمييزية (DisCO)

سير عمل متعدد الوكلاء CudaForge

طريقة DiDi-Instruct لما بعد التدريب

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

تم البحث من خلال التشغيل الذاتي

هندسة MultiPL-MoE (لغة برمجة متعددة MoE)

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استراتيجية تحسين موازنة إنتروبيا العميل AEPO

ذات صلة ويكي

تحسين استراتيجية تباين المجموعة GVPO

إطار عمل تحسين الاستراتيجية الهجينة HiPO

هندسة السياق الوكيل

إطار عمل تحسين القيود التمييزية (DisCO)

سير عمل متعدد الوكلاء CudaForge

طريقة DiDi-Instruct لما بعد التدريب

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

تم البحث من خلال التشغيل الذاتي

هندسة MultiPL-MoE (لغة برمجة متعددة MoE)

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة ويكي

تحسين استراتيجية تباين المجموعة GVPO

إطار عمل تحسين الاستراتيجية الهجينة HiPO

هندسة السياق الوكيل

إطار عمل تحسين القيود التمييزية (DisCO)

سير عمل متعدد الوكلاء CudaForge

طريقة DiDi-Instruct لما بعد التدريب

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

تم البحث من خلال التشغيل الذاتي

هندسة MultiPL-MoE (لغة برمجة متعددة MoE)

ذات صلة ويكي

تحسين استراتيجية تباين المجموعة GVPO

إطار عمل تحسين الاستراتيجية الهجينة HiPO

هندسة السياق الوكيل

إطار عمل تحسين القيود التمييزية (DisCO)

سير عمل متعدد الوكلاء CudaForge

طريقة DiDi-Instruct لما بعد التدريب

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

تم البحث من خلال التشغيل الذاتي

هندسة MultiPL-MoE (لغة برمجة متعددة MoE)