HyperAIHyperAI

Command Palette

Search for a command to run...

سياسات ديناميكية عصبية لتعلم حسّي-حركي من الطرف إلى الطرف

Shikhar Bahl Mustafa Mukadam Abhinav Gupta Deepak Pathak

الملخص

النموذج السائد حاليًا في التحكم الحسّي-الحركي، سواء في التعلّم بالتقلّد أو التعلّم القائم على التثبيت، يعتمد على تدريب السياسات مباشرة في فضاءات الإجراءات الخام مثل عزم الدوران، أو زاوية المفصل، أو موضع الطرف النهائي. وهذا يجبر الوكيل على اتخاذ قرارات منفردة في كل خطوة زمنية أثناء التدريب، وبالتالي يُحد من قابليته للتوسع في المهام المستمرة ذات الأبعاد العالية والفترات الزمنية الطويلة. وعلى النقيض من ذلك، استخدمت الأبحاث في الروبوتات الكلاسيكية، لفترة طويلة، الأنظمة الديناميكية كشكل لتمثيل السياسات لتعلم سلوكيات الروبوتات من خلال العروض التوضيحية. ومع ذلك، فإن هذه التقنيات تفتقر إلى المرونة والقابلية العامة التي توفرها الشبكات العصبية العميقة أو التعلّم القائم على التثبيت، وظلّت غير مُستكشَفة بشكل كافٍ في هذه السياقات. في هذا العمل، نبدأ في سد هذه الفجوة، ونُدمج بنية النظام الديناميكي في السياسات القائمة على الشبكات العصبية العميقة من خلال إعادة تشكيل فضاءات الإجراءات باستخدام المعادلات التفاضلية من الدرجة الثانية. نقترح ما يُسمّى بـ "سياسات ديناميكية عصبية" (Neural Dynamic Policies - NDPs)، التي تقوم بتوقعات في فضاء توزيع المسارات، بدلًا من الطرق السابقة لتعلم السياسات التي تمثل الإجراءات في فضاء التحكم الخام. وتمكّن البنية المدمجة من تعلّم السياسات بشكل مباشر من البداية إلى النهاية في بيئة التعلّم القائم على التثبيت وكذلك التعلّم القائم على التثبيت. ونُظهر أن NDPs تتفوّق على أحدث الأداءات السابقة من حيث الكفاءة أو الأداء عبر عدة مهام تحكم روبوتية، سواء في سياقات التعلّم بالتقلّد أو التعلّم القائم على التثبيت. يُمكن الاطلاع على الفيديو التوضيحي وشفرة المصدر عبر الرابط: https://shikharbahl.github.io/neural-dynamic-policies/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp