HyperAIHyperAI

Command Palette

Search for a command to run...

ستريم-أومني: التفاعلات متعددة الوسائط المتزامنة باستخدام نموذج اللغة-الرؤية-الكلام الكبير

Shaolei Zhang Shoutao Guo Qingkai Fang Yan Zhou Yang Feng

الملخص

ظهور نماذج متعددة الوسائط كبيرة مثل GPT-4o قد أثار استكشاف دمج النصوص والرؤية والكلام لدعم التفاعل المتعدد الوسائط بشكل أكثر مرونة. تجمع النماذج المتعددة الوسائط الحالية عادة تمثيلات الأوضاع على البُعد السِّلسِلي وتغذِّيها إلى نموذج لغوي كبير (LLM). رغم أن الجمع على البُعد السِّلسِلي بسيط للدمج بين الأوضاع، فإنه غالباً ما يعتمد بشكل كبير على البيانات الكبيرة لتعلم تراصف الأوضاع. في هذا البحث، نهدف إلى نمذجة العلاقات بين الأوضاع بشكل أكثر هدفية، مما يتيح تحقيق تراصفات أوضاع أكثر كفاءة ومرونة. لهذا الغرض، نقترح Stream-Omni، وهو نموذج لغة-رؤية-كلام كبير مع تراصفات أوضاع فعالة يمكنه دعم التفاعلات تحت مجموعة متنوعة من تركيبات الأوضاع. يستخدم Stream-Omni النموذج اللغوي الكبير كأساس ويتماشى بين الرؤية والكلام مع النص بناءً على علاقاتهما. بالنسبة للرؤية التي تكون مكملة للنص من الناحية الدلالية، يستخدم Stream-Omni الجمع على البُعد السِّلسِلي لتحقيق تراصف الرؤية-النص. أما بالنسبة للكلام الذي يكون متسقًا مع النص من الناحية الدلالية، فيقدم Stream-Omni خريطة بُعد طبقات قائمة على CTC لتحقيق تراصف الكلام-النص. بهذه الطريقة، يمكن لـ Stream-Omni تحقيق تراصفات الأوضاع باستخدام بيانات أقل (خاصة الكلام)، مما يمكّن من نقل قدرات النص إلى أوضاع أخرى. أظهرت التجارب على مجموعة متنوعة من المعايير أن Stream-Omni حقق أداءً قويًا في مهام فهم الصور وتفاعل الكلام وتفاعل الكلام المستند إلى الصور. بفضل الخريطة البُعد الطبقاتية، يمكن لـ Stream-Omni توفير إخراجات نصوص وسيطة (مثل تحويل الكلام إلى نص وردود الفعل النموذج) أثناء تفاعل الكلام، مما يقدم للمستخدمين تجربة متعددة الوسائط شاملة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ستريم-أومني: التفاعلات متعددة الوسائط المتزامنة باستخدام نموذج اللغة-الرؤية-الكلام الكبير | مستندات | HyperAI