HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم أثناء النشر

التاريخ

منذ 5 ساعات

المؤسسة

جامعة كولومبيا

رابط الورقة البحثية

2605.00416

تم اقتراح مفهوم التعلم أثناء النشر (LWD) في عام 2026 من قبل باحثين من معهد شنغهاي للابتكار، وشركة AIZ للروبوتات، وجامعة كولومبيا. وقد نُشرت نتائج البحث ذات الصلة في ورقة بحثية. التعلم أثناء النشر: التعلم المعزز على نطاق الأسطول لسياسات الروبوتات العامة .

LWD هو إطار عمل قابل للتطوير يجمع بين نشر أساطيل الروبوتات على نطاق واسع والتعلم المعزز من البيانات غير المتصلة بالإنترنت إلى البيانات المتصلة. وهو يعالج بشكل أساسي تحديات "انزياح التوزيع وفشل الذيل الطويل" في نماذج الرؤية-اللغة-الفعل (VLA) العامة التي تؤدي مهامًا في بيئات واقعية معقدة، وذلك بسبب الاعتماد كليًا على البيانات المدربة مسبقًا غير المتصلة بالإنترنت. يقدم هذا الإطار التعلم الضمني الموزع للقيمة (DIVL) والتعلم Q القائم على المطابقة المرافقة (QAM) لتجميع البيانات باستمرار من تفاعلات الروبوتات المستقلة والتدخل البشري في عمليات النشر الواقعية، مما يتيح تكرارًا مستقرًا لنموذج السياسة دون الانحراف عن سيناريو التطبيق الفعلي. تُظهر نتائج البحث أن LWD يتغلب بفعالية على عنق الزجاجة في التعلم الناتج عن المكافآت المتفرقة، مما يعزز بشكل كبير قابلية التكيف وقدرة التعميم للنماذج العامة في مختلف البيئات المادية الواقعية. في ثمانية سيناريوهات واقعية معقدة، بما في ذلك تخزين السوبر ماركت، وتحضير الشاي، وخلط الكوكتيلات، حقق نموذج سياسة عام واحد معدل نجاح متوسط للمهمة يصل إلى 951 TP3T وقلل بشكل كبير من وقت تنفيذ المهام طويلة الأجل.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp