التاريخ

منذ 7 أشهر

المؤسسة

رابط الورقة البحثية

2505.22094

الوسوم

في سبتمبر 2025، اقترح فريق بحثي من جامعة كارنيجي ميلون وجامعة تسينغهوا وجامعات ومؤسسات أخرى مشروع ReinFlow. ونُشرت نتائج البحث ذات الصلة في ورقة بحثية بعنوان "...".ReinFlow: ضبط سياسة مطابقة التدفق بدقة باستخدام التعلم التعزيزي عبر الإنترنتلقد تم اختياره لـNeurIPS 2025.

ReinFlow هي أول خوارزمية تعلم معزز عبر الإنترنت قادرة على ضبط دقيق ومستقر لمجموعة من سياسات مطابقة التدفق لفئة معينة من سياسات مطابقة التدفق في التحكم المستمر بالروبوت. استنادًا إلى نظرية التعلم المعزز الدقيقة، يُدخل هذا النموذج ضوضاء قابلة للتعلم في المسار الحتمي لسياسة التدفق، محولًا التدفق إلى عملية ماركوف زمنية منفصلة، مما يُمكّن من حساب الاحتمالات بدقة ومباشرة. يُسهّل هذا التحويل الاستكشاف ويضمن استقرار التدريب، مما يسمح لـ ReinFlow بضبط دقيق ومستقر لمختلف متغيرات نموذج التدفق، خاصةً مع خطوات إزالة ضوضاء قليلة جدًا أو حتى خطوة واحدة فقط.

نموذج حساء

يمكن لتقنية "Model Souping" توليد نموذج أفضل عن طريق حساب متوسط أوزان عمليات الضبط الدقيق المتعددة.

منذ 3 أشهر

استراتيجية متوسط السرعة (MVP)

يحقق MVP توليد الحركة بخطوة واحدة مع كل من القدرة التعبيرية العالية والحساب السريع للغاية من خلال نمذجة مجال السرعة المتوسط.

منذ 2 أشهر

تعزيز الفكر الموجه

يمكن لتقنية GTR أن توجه عملية التفكير النموذجي في البيئات البصرية المعقدة وتمنع "انهيار الدماغ".

منذ 2 أشهر

التعلم أثناء النشر

LWD هو إطار عمل للتعلم المعزز على مستوى الأسطول من وضع عدم الاتصال إلى وضع الاتصال، والذي يمكّن الروبوتات ذات الأغراض العامة من جمع الخبرة باستمرار وتحقيق التطور الذاتي للسياسات.

منذ شهر واحد

تمريرة أمامية مُفككة (DePass)

تُستخدم DePass لتفسير نموذج Transformer عن طريق تحليل المرور الأمامي.

منذ 3 أشهر

كلب الصيد الكثيف

يُعد محرك البحث الكثيف مسؤولاً عن إيجاد الفقرات الأكثر صلة بدلالات الاستعلام بسرعة من مكتبة وثائق ضخمة، وهو المكون الأساسي لنظام توليد تحسين البحث.

منذ 2 أشهر

التقطيع الجشع لعائد الذروة

تعمل PRGS بشكل كبير على تحسين قدرة نماذج التعلم المعزز غير المتصلة بالإنترنت على ربط التجارب ذات المكافآت العالية.

منذ 2 أشهر

وورلد جين

يتمتع برنامج WorldGen بالقدرة على إنشاء عوالم عرض في الوقت الفعلي موحدة هندسيًا وغنية بصريًا وعالية الكفاءة.

منذ 3 أشهر

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

يحل هذا النظام بفعالية التحديات الرئيسية في عملية المحاذاة الآمنة لـ LVLM.

منذ 3 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

ReinFlow، إطار التعلم المعزز عبر الإنترنت

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ReinFlow، إطار التعلم المعزز عبر الإنترنت

ذات صلة ويكي

نموذج حساء

استراتيجية متوسط السرعة (MVP)

تعزيز الفكر الموجه

التعلم أثناء النشر

تمريرة أمامية مُفككة (DePass)

كلب الصيد الكثيف

التقطيع الجشع لعائد الذروة

وورلد جين

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ReinFlow، إطار التعلم المعزز عبر الإنترنت

ذات صلة ويكي

نموذج حساء

استراتيجية متوسط السرعة (MVP)

تعزيز الفكر الموجه

التعلم أثناء النشر

تمريرة أمامية مُفككة (DePass)

كلب الصيد الكثيف

التقطيع الجشع لعائد الذروة

وورلد جين

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة ويكي

نموذج حساء

استراتيجية متوسط السرعة (MVP)

تعزيز الفكر الموجه

التعلم أثناء النشر

تمريرة أمامية مُفككة (DePass)

كلب الصيد الكثيف

التقطيع الجشع لعائد الذروة

وورلد جين

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

ذات صلة ويكي

نموذج حساء

استراتيجية متوسط السرعة (MVP)

تعزيز الفكر الموجه

التعلم أثناء النشر

تمريرة أمامية مُفككة (DePass)

كلب الصيد الكثيف

التقطيع الجشع لعائد الذروة

وورلد جين

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق