لومين: وصفة مفتوحة لبناء وكالات عامة في عوالم مفتوحة ثلاثية الأبعاد

الملخص
نقدّم "لومين" (Lumine)، أول وصفة مفتوحة لتطوير وكالات عامة قادرة على إنجاز مهام معقدة تدوم ساعات في بيئة ثلاثية الأبعاد مفتوحة وواقعية، بزمن حقيقي. تعتمد "لومين" نموذج تفاعل بشري مُبسّط، يُوحّد بين التمييز (الإدراك)، والاستنتاج، والتنفيذ بطريقة منتهية إلى النهاية، باستخدام نموذج متعدد الوسائط البصرية واللغوية. تقوم بمعالجة الصور الخام بمعدل 5 هرتز لإنتاج أوامر لوحة المفاتيح والماوس بدقة 30 هرتز، وتُفعّل الاستنتاج بشكل تكيفي فقط عند الحاجة. تم تدريبها داخل لعبة "جينشين إينفكت" (Genshin Impact)، وقد نجحت "لومين" في إتمام القصة الرئيسية لمدينة موندستاد ذات المدة الكاملة (5 ساعات) بمستوى كفاءة يعادل مستوى الإنسان، كما تلتزم بتوجيهات لغوية طبيعية لأداء طيف واسع من المهام في مجالات الاستكشاف ثلاثية الأبعاد والتفاعل مع واجهة المستخدم ثنائية الأبعاد، بما في ذلك جمع الموارد، والقتال، وحل الألغاز، وتفاعل NPCs. إلى جانب أدائها المتميز داخل النطاق المدرب عليه، تُظهر "لومين" قدرة قوية على التعميم الصفرية عبر الألعاب المختلفة. فبدون أي تدريب مُعدّل (fine-tuning)، نجحت في إتمام مهام تدوم 100 دقيقة في لعبة "وثرنغ ويفز" (Wuthering Waves)، وفِي إتمام الفصل الأول الكامل (5 ساعات) من لعبة "هونكاي: ستار ريل" (Honkai: Star Rail). تُبرز هذه النتائج الواعدة فعالية "لومين" في بيئات متنوعة وديناميات تفاعل مختلفة، ممّا يمثّل خطوة ملموسة نحو تطوير وكالات عامة في البيئات المفتوحة والغير محددة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.