ستريم-أومني: التفاعلات متعددة الوسائط المتزامنة باستخدام نموذج اللغة-الرؤية-الكلام الكبير

ظهور نماذج متعددة الوسائط كبيرة مثل GPT-4o قد أثار استكشاف دمج النصوص والرؤية والكلام لدعم التفاعل المتعدد الوسائط بشكل أكثر مرونة. تجمع النماذج المتعددة الوسائط الحالية عادة تمثيلات الأوضاع على البُعد السِّلسِلي وتغذِّيها إلى نموذج لغوي كبير (LLM). رغم أن الجمع على البُعد السِّلسِلي بسيط للدمج بين الأوضاع، فإنه غالباً ما يعتمد بشكل كبير على البيانات الكبيرة لتعلم تراصف الأوضاع. في هذا البحث، نهدف إلى نمذجة العلاقات بين الأوضاع بشكل أكثر هدفية، مما يتيح تحقيق تراصفات أوضاع أكثر كفاءة ومرونة. لهذا الغرض، نقترح Stream-Omni، وهو نموذج لغة-رؤية-كلام كبير مع تراصفات أوضاع فعالة يمكنه دعم التفاعلات تحت مجموعة متنوعة من تركيبات الأوضاع. يستخدم Stream-Omni النموذج اللغوي الكبير كأساس ويتماشى بين الرؤية والكلام مع النص بناءً على علاقاتهما. بالنسبة للرؤية التي تكون مكملة للنص من الناحية الدلالية، يستخدم Stream-Omni الجمع على البُعد السِّلسِلي لتحقيق تراصف الرؤية-النص. أما بالنسبة للكلام الذي يكون متسقًا مع النص من الناحية الدلالية، فيقدم Stream-Omni خريطة بُعد طبقات قائمة على CTC لتحقيق تراصف الكلام-النص. بهذه الطريقة، يمكن لـ Stream-Omni تحقيق تراصفات الأوضاع باستخدام بيانات أقل (خاصة الكلام)، مما يمكّن من نقل قدرات النص إلى أوضاع أخرى. أظهرت التجارب على مجموعة متنوعة من المعايير أن Stream-Omni حقق أداءً قويًا في مهام فهم الصور وتفاعل الكلام وتفاعل الكلام المستند إلى الصور. بفضل الخريطة البُعد الطبقاتية، يمكن لـ Stream-Omni توفير إخراجات نصوص وسيطة (مثل تحويل الكلام إلى نص وردود الفعل النموذج) أثناء تفاعل الكلام، مما يقدم للمستخدمين تجربة متعددة الوسائط شاملة.