HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 22 أيام

D2E: توسيع التدريب المسبق للرؤية-العمل على بيانات سطح المكتب للتحويل إلى الذكاء الاصطناعي المادي

Suwhan Choi Jaeyoon Jung Haebin Seong Minchan Kim Minyeong Kim Yongjun Cho Yoonshik Kim Yubeen Park Youngjae Yu Yunsung Lee

D2E: توسيع التدريب المسبق للرؤية-العمل على بيانات سطح المكتب للتحويل إلى الذكاء الاصطناعي المادي

الملخص

تستفيد النماذج اللغوية الكبيرة من بيانات النصوص على نطاق الإنترنت، لكن الذكاء الاصطناعي المُدرَك (embodied AI) ما زال يعاني من القيود الناتجة عن التكاليف الباهظة المترتبة على جمع المسارات الفيزيائية. تُعد البيئات المكتبية – وبخاصة الألعاب الإلكترونية – بديلاً واعداً: فهي توفر تفاعلات حسية حركية غنية على نطاق واسع، مع الحفاظ على الارتباط الهيكلي بين الملاحظة والعمل الذي يُعدّ أساسياً للتعلم المُدرَك. نقدّم إطار عمل يُسمّى D2E (من البيئة المكتبية إلى الذكاء الاصطناعي المُدرَك)، الذي يُظهر أن التفاعلات المكتبية يمكن أن تُشكّل قاعدةً فعّالةً للتدريب المسبق في مهام الذكاء الاصطناعي المُدرَك للروبوتات. على عكس الدراسات السابقة التي بقيت محدودةً بالبيئة المحددة (مثل VPT في لعبة Minecraft) أو حافظت على بيانات مُستَثْمَرةٍ سرية (مثل SIMA)، يُنشئ D2E مساراً شاملاً يمتد من جمع البيانات المكتبية القابلة للتوسع إلى التحويل المُثبت في البيئات المُدرَكَة. يتكوّن إطارنا من ثلاث مكونات رئيسية: (1) أداة OWA التي توحّد التفاعلات المكتبية المتنوعة في تنسيق معياري، مع تحقيق انكماش بنسبة 152 مرة؛ (2) نموذج Generalist-IDM الذي يحقّق تعميماً قوياً بدون تدريب مسبق (zero-shot) عبر ألعاب غير مرئية من خلال التنبؤ بالحدث بناءً على الزمن، مما يمكّن من تسمية بديلة (pseudo-labeling) على نطاق الإنترنت؛ و(3) نموذج VAPT الذي ينقل التمثيلات المُدرّبة مسبقاً في البيئة المكتبية إلى مهام التلاعب والتنقل الفيزيائي. باستخدام أكثر من 1300 ساعة من البيانات (259 ساعة من التظاهرات البشرية، و1000 ساعة من لعب مُسمّى بديلة)، نحقّق معدل نجاح إجمالي قدره 96.6% في اختبارات التلاعب بـ LIBERO، و83.3% في اختبارات التنقل بـ CANVAS. ويُثبت هذا أن الكيانات الحسية الحركية في التفاعلات الرقمية تمتلك درجة كافية من التثبيت (invariance) لنقلها بشكل مُفيد إلى المهام المُدرَكَة الفيزيائية، مما يُثبت أن التدريب المسبق في البيئة المكتبية يُمثّل نموذجاً عملياً للروبوتات. وسنشرِّع جميع أعمالنا، بما في ذلك أداة OWA، وقواعد البيانات المُجمّعة من البشر والمعتمدة على التسمية البديلة، والنموذج المدرّب بواسطة VAPT، على الرابط: https://worv-ai.github.io/d2e/

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
D2E: توسيع التدريب المسبق للرؤية-العمل على بيانات سطح المكتب للتحويل إلى الذكاء الاصطناعي المادي | الأوراق البحثية | HyperAI