التاريخ

منذ 2 أشهر

المؤسسة

رابط الورقة البحثية

2510.18821

الوسوم

التعلم الآلي

تم اقتراح تقنية البحث الذاتي (SSP) في أكتوبر 2025 من قبل فريق بحثي من جامعة أبابا كوارك وجامعة بكين وجامعة صن يات صن. وقد نُشرت نتائج البحث ذات الصلة في ورقة بحثية. البحث عن اللعب الذاتي: دفع حدود قدرات الوكيل دون إشراف .

في لعبة البحث الذاتي (SSP)، يؤدي نموذج التعلم الموجه (LLM) دورين متناوبين: مُنشئ المشكلة وحلها. يقوم مُنشئ المشكلة بتوليد استعلامات بحث معمقة بإجابات صحيحة وقابلة للتحقق، تزداد صعوبتها تدريجيًا، بينما يحاول الحل الإجابة على الأسئلة المُولدة من خلال جولات متعددة من الاستدلال والبحث. وللتحقق من صحة كل استعلام مُولد، يجمع الباحثون جميع نتائج البحث من مسار مُنشئ المشكلة كمواد خارجية، ثم يُجرون عملية توليد مُعزز الاسترجاع (RAG) للتحقق مما إذا كان الحل قادرًا على التنبؤ بالإجابة بنجاح في ضوء جميع المعلومات اللازمة. من خلال هذا التصميم، يستطيع وكيل البحث المعمق توليد مهام تدريب عالية الجودة وحلها بشكل مستقل، مما يُلغي الحاجة إلى التعليق والتحقق اليدويين مع الحفاظ على دقة المكافآت.

آلة هكسلي-غودل

يقترب النموذج من آلة جودل في بيئة وكيل الترميز ويرشد التوسع من خلال أخذ العينات تومسون مع الجدولة التكيفية.

منذ 2 أشهر

نموذج الانتشار المحتمل SVG

يتيح SVG تدريبًا أسرع للانتشار، وعينات فعالة بخطوات قليلة، وجودة توليد محسنة.

منذ 2 أشهر

سير عمل متعدد الوكلاء CudaForge

CudaForge عبارة عن سير عمل بسيط وفعال ومنخفض التكلفة متعدد العوامل لتوليد وتحسين نواة CUDA.

منذ 2 أشهر

إطار عمل توليد البيانات DexFlyWheel

DexFlyWheel هو نموذج لتوليد البيانات قابل للتطوير والتحسين الذاتي للعمليات الرشيقة.

منذ 3 أشهر

هندسة السياق الوكيل

يتيح ACE للوكلاء تحسين أنفسهم من خلال تحسين سياق الإدخال بشكل ديناميكي.

منذ 3 أشهر

إطار عمل تحسين القيود التمييزية (DisCO)

إطار عمل جديد لتحسين القيود التمييزية يعتمد على المبادئ يتجنب التحيز في الصعوبة وعدم استقرار التدريب.

منذ 2 أشهر

طريقة DiDi-Instruct لما بعد التدريب

أول إطار عمل يطبق بنجاح تقطير مطابقة التوزيع على توليد النصوص المستندة إلى MDM، مما أدى إلى تحقيق رقم قياسي في توليد تسلسل اللغة في بضع خطوات.

منذ 2 أشهر

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

يؤسس SDAR نموذجًا عمليًا جديدًا للنمذجة اللغوية يوحد المزايا التكميلية للانحدار التلقائي والانتشار.

منذ 2 أشهر

استراتيجية تحسين موازنة إنتروبيا العميل AEPO

تركز AEPO على موازنة وترشيد فروع توسيع الاستراتيجية وتحديثات الاستراتيجية تحت إشراف مكالمات الأدوات ذات الإنتروبيا العالية.

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

التاريخ

منذ 2 أشهر

المؤسسة

رابط الورقة البحثية

2510.18821

الوسوم

التعلم الآلي

آلة هكسلي-غودل

يقترب النموذج من آلة جودل في بيئة وكيل الترميز ويرشد التوسع من خلال أخذ العينات تومسون مع الجدولة التكيفية.

منذ 2 أشهر

نموذج الانتشار المحتمل SVG

يتيح SVG تدريبًا أسرع للانتشار، وعينات فعالة بخطوات قليلة، وجودة توليد محسنة.

منذ 2 أشهر

سير عمل متعدد الوكلاء CudaForge

CudaForge عبارة عن سير عمل بسيط وفعال ومنخفض التكلفة متعدد العوامل لتوليد وتحسين نواة CUDA.

منذ 2 أشهر

إطار عمل توليد البيانات DexFlyWheel

DexFlyWheel هو نموذج لتوليد البيانات قابل للتطوير والتحسين الذاتي للعمليات الرشيقة.

منذ 3 أشهر

هندسة السياق الوكيل

يتيح ACE للوكلاء تحسين أنفسهم من خلال تحسين سياق الإدخال بشكل ديناميكي.

منذ 3 أشهر

إطار عمل تحسين القيود التمييزية (DisCO)

إطار عمل جديد لتحسين القيود التمييزية يعتمد على المبادئ يتجنب التحيز في الصعوبة وعدم استقرار التدريب.

منذ 2 أشهر

طريقة DiDi-Instruct لما بعد التدريب

منذ 2 أشهر

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

يؤسس SDAR نموذجًا عمليًا جديدًا للنمذجة اللغوية يوحد المزايا التكميلية للانحدار التلقائي والانتشار.

منذ 2 أشهر

استراتيجية تحسين موازنة إنتروبيا العميل AEPO

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

تم البحث من خلال التشغيل الذاتي

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تم البحث من خلال التشغيل الذاتي

ذات صلة ويكي

آلة هكسلي-غودل

نموذج الانتشار المحتمل SVG

سير عمل متعدد الوكلاء CudaForge

إطار عمل توليد البيانات DexFlyWheel

هندسة السياق الوكيل

إطار عمل تحسين القيود التمييزية (DisCO)

طريقة DiDi-Instruct لما بعد التدريب

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

استراتيجية تحسين موازنة إنتروبيا العميل AEPO

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تم البحث من خلال التشغيل الذاتي

ذات صلة ويكي

آلة هكسلي-غودل

نموذج الانتشار المحتمل SVG

سير عمل متعدد الوكلاء CudaForge

إطار عمل توليد البيانات DexFlyWheel

هندسة السياق الوكيل

إطار عمل تحسين القيود التمييزية (DisCO)

طريقة DiDi-Instruct لما بعد التدريب

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

استراتيجية تحسين موازنة إنتروبيا العميل AEPO

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة ويكي

آلة هكسلي-غودل

نموذج الانتشار المحتمل SVG

سير عمل متعدد الوكلاء CudaForge

إطار عمل توليد البيانات DexFlyWheel

هندسة السياق الوكيل

إطار عمل تحسين القيود التمييزية (DisCO)

طريقة DiDi-Instruct لما بعد التدريب

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

استراتيجية تحسين موازنة إنتروبيا العميل AEPO

ذات صلة ويكي

آلة هكسلي-غودل

نموذج الانتشار المحتمل SVG

سير عمل متعدد الوكلاء CudaForge

إطار عمل توليد البيانات DexFlyWheel

هندسة السياق الوكيل

إطار عمل تحسين القيود التمييزية (DisCO)

طريقة DiDi-Instruct لما بعد التدريب

نموذج SDAR التعاوني للانتشار والانحدار الذاتي

استراتيجية تحسين موازنة إنتروبيا العميل AEPO