Command Palette
Search for a command to run...
روبوأومني: التلاعب بالروبوت التفاعلي في سياق متعدد الأوجه

الملخص
أدى التقدم الأخير في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) إلى تقدم سريع في نماذج الرؤية واللغة والعمل (VLA) الخاصة بالتحكم الروبوتي. وعلى الرغم من فعاليتها في العديد من السيناريوهات، فإن النماذج الحالية تعتمد إلى حد كبير على تعليمات صريحة، في حين أن البشر نادرًا ما يُصدرون تعليمات مباشرة في التفاعلات الواقعية. ويتطلب التعاون الفعّال من الروبوتات استنتاج نوايا المستخدم بشكل استباقي. في هذا العمل، نُقدّم تعليمات سياقية متعددة الوسائط، وهو إعداد جديد يُستمدّ فيه النية من المحادثات الشفهية، والأصوات البيئية، والإشارات البصرية، بدلًا من الأوامر الصريحة. وللتعامل مع هذا السياق الجديد، نُقدّم "روبوأومني" (RoboOmni)، وهي إطار عمل مبني على نماذج لغة كبرى متعددة الوسائط متكاملة (end-to-end omni-modal LLMs)، يُوحّد اكتشاف النية، وتأكيد التفاعل، وتنفيذ الإجراءات. يُدمج روبوأومني الإشارات السمعية والبصرية بشكل مكاني-زمني لضمان اكتشاف نية قوي، مع دعم التفاعل الصوتي المباشر. ولحل مشكلة غياب بيانات التدريب الخاصة باكتشاف النية الاستباقية في التحكم الروبوتي، نُنشئ "أومنيأكشن" (OmniAction)، التي تتضمن 140 ألف مقطع تفاعلي، و hơn 5000 متحدث، و2400 صوت حدث، و640 خلفية، وستة أنواع من التعليمات السياقية. أظهرت التجارب في البيئات المحاكاة والواقعية أن روبوأومني يتفوق على النماذج القائمة على النصوص والاعتماد على التعرف على الكلام (ASR) من حيث معدل النجاح، وسرعة الاستنتاج، ودقة اكتشاف النية، والمساعدة الاستباقية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.