HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 6 أيام

ReinFlow: التخصيص التدريجي لسياسة مطابقة التدفق باستخدام التعلم التعلّمي عبر الإنترنت

Tonghe Zhang Chao Yu Sichang Su Yu Wang

ReinFlow: التخصيص التدريجي لسياسة مطابقة التدفق باستخدام التعلم التعلّمي عبر الإنترنت

الملخص

نُقدِّم "ReinFlow"، وهي إطار عمل بسيط وفعّال للتعلم بالتعزيز عبر الإنترنت (RL)، يُعدِّل دقة عائلة من سياسات مطابقة التدفُّق (flow matching) لتطبيقات التحكم المستمر في الروبوتات. اشتقَّت ReinFlow من نظرية التعلم بالتعزيز المُحكَمة، حيث تُضَمَّن ضجيج قابِل للتعلُّم في المسار المُحدَّد لسياسة التدفُّق، ما يحوِّل التدفُّق إلى عملية ماركوفية من الزمن المنفصلة، مما يُمكِّن من حساب احتمالية دقيقة وسهلة. يُسهِّل هذا التحويل التَّنفِّذَ المُتَوَسِّع (exploration) ويضمن استقرار التدريب، ما يمكِّن ReinFlow من تحسين أنواع متعددة من نماذج التدفُّق، بما في ذلك نموذج التدفُّق المُصَحَّح [35] ونماذج المسارات المُختصرة [19]، خصوصًا عند استخدام عدد قليل جدًا، بل وحتى خطوة واحدة فقط، لخطوات إزالة الضجيج. قُيِّمَت ReinFlow في مهام تمثيلية للتنقُّل والتمانيب، بما في ذلك التخطيط على مدى طويل مع إدخال بصري وعوائد نادرة. حقَّقت سياسات التدفُّق المُصَحَّح متوسط نمو صافي في مكافأة المقطع الزمني بنسبة 135.36% بعد التحسين الدقيق في مهام التنقُّل بالرباعيات الصعبة، مع الحفاظ على عدد خطوات إزالة الضجيج، وانخفاض بنسبة 82.63% في زمن التنفيذ (wall time) مقارنةً بأفضل طريقة حديثة للتحسين باستخدام نموذج التشتُّت (diffusion RL)، وهي DPPO [43]. وحقَّقت سياسات نماذج المسارات المُختصرة (Shortcut Model) متوسط زيادة صافية في معدل النجاح بنسبة 40.34% بعد التحسين الدقيق باستخدام ReinFlow، حتى عند استخدام أربع خطوات أو حتى خطوة واحدة لإزالة الضجيج، مع أداء يُقارَن بأداء سياسات DDIM المُحسَّنة، مع توفير متوسط وقت حساب بنسبة 23.20%.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ReinFlow: التخصيص التدريجي لسياسة مطابقة التدفق باستخدام التعلم التعلّمي عبر الإنترنت | الأوراق البحثية | HyperAI