HyperAIHyperAI
منذ 11 أيام

الانتباه Q من الخشن إلى الدقيق: تعلّم فعّال للتحكم الروبوتى البصري من خلال التجزئة

Stephen James, Kentaro Wada, Tristan Laidlow, Andrew J. Davison
الانتباه Q من الخشن إلى الدقيق: تعلّم فعّال للتحكم الروبوتى البصري من خلال التجزئة
الملخص

نقدّم طريقة تَقسيم خشنة إلى دقيقة تُمكّن من استخدام أساليب التعلم بالتعزيز المنفصلة بدلًا من الأساليب غير المستقرة وغير الفعّالة من حيث البيانات، مثل طرق المُقدّم-المحفّز (actor-critic)، في مجالات الروبوتات المستمرة. تعتمد هذه الطريقة على خوارزمية ARM التي تم إصدارها حديثًا، والتي تستبدل الوكيل الذي يحدّد الموضع التالي الأمثل (المستقبل) المستمر بواحد منفصل، باستخدام تقنية Q-attention التكرارية (coarse-to-fine Q-attention). عند توفر مشهد مُقسّم إلى مكعبات (voxelised scene)، تتعلّم تقنية Q-attention التكرارية جزءًا معينًا من المشهد الذي يجب "تكبيره" (zoom into). وعند تطبيق هذا السلوك "التكبير" بشكل تكراري، يُنتج تقسيمًا شبه خالي من الخسارة لفضاء التحريك (translation space)، مما يسمح باستخدام طريقة تعزيز عميقة بعملية تعلّم Q منفصلة. ونُظهر أن خوارزميتنا الجديدة، التي تعتمد على التقسيم الخشنة إلى الدقيقة، تحقق أداءً يُعدّ من أفضل الأداءات المُحققة على عدة مهام صعبة في روبوتات RLBench تعتمد على الرؤية، وتُمكّن من تدريب سياسات واقعية، من الصفر (tabula rasa)، خلال دقائق معدودة، وباستخدام ما لا يزيد عن ثلاث تدريبات (demonstrations).

الانتباه Q من الخشن إلى الدقيق: تعلّم فعّال للتحكم الروبوتى البصري من خلال التجزئة | أحدث الأوراق البحثية | HyperAI