HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 7 أيام

VITA-E: تفاعل مُحَدَّثٌ طَبِيعِيٌّ مع رؤية، وَسَمْعٍ، وَكَلَامٍ، وَتَعَمُّلٍ مُتَزَامِنٍ

VITA-E: تفاعل مُحَدَّثٌ طَبِيعِيٌّ مع رؤية، وَسَمْعٍ، وَكَلَامٍ، وَتَعَمُّلٍ مُتَزَامِنٍ

الملخص

تُعاني النماذج الحالية لرؤية-لغة-عمل (VLA) غالبًا من بيئة تفاعلية صارمة وثابتة، ما يُحد من قدرتها على رؤية البيئة، والاستماع إلى الكلام، والتحدث، واتخاذ الإجراءات في آنٍ واحد، فضلًا عن عدم قدرتها على التعامل الديناميكي مع التدخلات الحقيقية من المستخدم. وينتج عن ذلك تجربة مستخدم غير مرنة وغير مُستجيبة، مما يُعيق التعاون المُدمج بسلاسة. ولحل هذه القيود، نُقدّم VITA-E، وهي إطار تفاعلي مُدمج جديد مُصمم لتمكين التزامن في السلوك والتدخلات القريبة من الزمن الحقيقي. وتمثّل النواة الأساسية لنهجنا معمارية نموذج مزدوج، حيث تعمل نموذجان متوازيان من نوع VLA كـ"نموذج نشط" و"نموذج احتياطي"، ما يمكّن الوكيل المُدمج من مراقبة البيئة، والاستماع إلى كلام المستخدم، وتقديم استجابات شفهية، وتنفيذ الإجراءات، كلها في آنٍ واحد وقابلة للانقطاع، مُقلّدةً بذلك القدرات متعددة المهام المُماثلة للإنسان. ونُقدّم كذلك نموذج "النموذج كمُتحكم"، حيث نُعدّل نموذج الرؤية-اللغة (VLM) لينتج رموزًا خاصة تُستخدم كأوامر مباشرة على مستوى النظام، مما يُرَبط التفكير في النموذج بسلوك النظام مباشرة. وأظهرت التجارب التي أُجريت على منصة بشرية مُصغّرة أن VITA-E قادرة على التعامل بثقة مع سيناريوهات تفاعلية معقدة. كما يُعدّ هذا الإطار متوافقًا مع مختلف النماذج الثنائية VLA، ويحقق معدل نجاح عالٍ جدًا في حالات التوقف الطارئ والتدخلات الصوتية، كما يُنفّذ بنجاح التفاعل الصوتي والعمل متزامنًا. ويعتبر هذا خطوة هامة نحو تطوير مساعدين مُدمجين أكثر طبيعية وفعالية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
VITA-E: تفاعل مُحَدَّثٌ طَبِيعِيٌّ مع رؤية، وَسَمْعٍ، وَكَلَامٍ، وَتَعَمُّلٍ مُتَزَامِنٍ | الأوراق البحثية | HyperAI