سياسات ديناميكية عصبية لتعلم حسّي-حركي من الطرف إلى الطرف

النموذج السائد حاليًا في التحكم الحسّي-الحركي، سواء في التعلّم بالتقلّد أو التعلّم القائم على التثبيت، يعتمد على تدريب السياسات مباشرة في فضاءات الإجراءات الخام مثل عزم الدوران، أو زاوية المفصل، أو موضع الطرف النهائي. وهذا يجبر الوكيل على اتخاذ قرارات منفردة في كل خطوة زمنية أثناء التدريب، وبالتالي يُحد من قابليته للتوسع في المهام المستمرة ذات الأبعاد العالية والفترات الزمنية الطويلة. وعلى النقيض من ذلك، استخدمت الأبحاث في الروبوتات الكلاسيكية، لفترة طويلة، الأنظمة الديناميكية كشكل لتمثيل السياسات لتعلم سلوكيات الروبوتات من خلال العروض التوضيحية. ومع ذلك، فإن هذه التقنيات تفتقر إلى المرونة والقابلية العامة التي توفرها الشبكات العصبية العميقة أو التعلّم القائم على التثبيت، وظلّت غير مُستكشَفة بشكل كافٍ في هذه السياقات. في هذا العمل، نبدأ في سد هذه الفجوة، ونُدمج بنية النظام الديناميكي في السياسات القائمة على الشبكات العصبية العميقة من خلال إعادة تشكيل فضاءات الإجراءات باستخدام المعادلات التفاضلية من الدرجة الثانية. نقترح ما يُسمّى بـ "سياسات ديناميكية عصبية" (Neural Dynamic Policies - NDPs)، التي تقوم بتوقعات في فضاء توزيع المسارات، بدلًا من الطرق السابقة لتعلم السياسات التي تمثل الإجراءات في فضاء التحكم الخام. وتمكّن البنية المدمجة من تعلّم السياسات بشكل مباشر من البداية إلى النهاية في بيئة التعلّم القائم على التثبيت وكذلك التعلّم القائم على التثبيت. ونُظهر أن NDPs تتفوّق على أحدث الأداءات السابقة من حيث الكفاءة أو الأداء عبر عدة مهام تحكم روبوتية، سواء في سياقات التعلّم بالتقلّد أو التعلّم القائم على التثبيت. يُمكن الاطلاع على الفيديو التوضيحي وشفرة المصدر عبر الرابط: https://shikharbahl.github.io/neural-dynamic-policies/