علماء من الأكاديمية الصينية للعلوم يطورون Stream-Omni: نموذج ذكاء اصطناعي متعدد الأنظمة لعمليات زمنية حقيقية
ملخص: Stream-Omni، نموذج ذكاء اصطناعي متكامل في الوقت الفعلي فهم تحديات الأنظمة متعددة الوسائط الحالية النماذج الكبيرة متعددة الوسائط (LMMs) أظهرت قدرات متميزة عبر نصوص، صور، وكلمات مسموعة، مما يفتح آفاقًا واسعة لتطبيقات متنوعة. بينما حققت الأنظمة الرؤية-موجهة نجاحًا، فإن الأنظمة متعددة الوسائط التي تدعم التفاعل الصوتي بناءً على المعلومات البصرية تواجه تحديات بسبب الاختلافات التقنية بين الوسائط. النماذج الحديثة تسعى لتوحيد النصوص، الصور، والكلمات المسموعة من خلال الجمع بين تمثيلات معدات الترميز الفردية على مستوى التتابع الزمني، لكنها تعتمد على بيانات كبيرة لتعلم التوافق بين الوسائط بطريقة معتمدة على البيانات، مما لا يتوافق مع قلة البيانات العامة الثلاثية الوسائط ويفتقر إلى المرونة اللازمة لإنتاج نتائج نصية مؤقتة أثناء التفاعلات الصوتية. تصنيف النماذج متعددة الوسائط حاليًا حسب التركيز الوسائطي تنقسم النماذج متعددة الوسائط حاليًا إلى ثلاث فئات: رؤية-موجهة، صوت-موجهة، ومتعددة الوسائط. النماذج الرؤية-موجهة مثل LLaVA تستخرج الخصائص البصرية وتدمجها مع النصوص لإنتاج النصوص. أما النماذج الصوت-موجهة فتستخدم إما طرق مستمرة لتحويل الخصائص إلى مساحات ترميز النماذج اللغوية، أو وحدات صوتية منفصلة لتحويل الكلمات المسموعة إلى وحدات منفصلة للمعالجة المباشرة. أما النماذج متعددة الوسائط مثل VITA-1.5، MiniCPM2.6-o، وQwen2.5-Omni فتستخرج التمثيلات من معدات ترميز مختلفة وتقوم بدمجها لتحقيق فهم متعدد الوسائط واستخدام معدات التوليد الصوتي. تقديم Stream-Omni: نهج متمركز حول النصوص لتحقيق التوافق الوسائطي باحثون من جامعة الأكاديمية الصينية للعلوم قدّموا نموذجًا جديدًا يُدعى Stream-Omni، وهو نموذج كبير للغة والرؤية والكلمات المسموعة يهدف إلى حل تحديات التوافق بين الوسائط في الأنظمة متعددة الوسائط. يستخدم Stream-Omni نواة نموذج لغوي كبير ويحقق التوافق بين الوسائط البصرية والصوتية على أساس العلاقات الدلالية وليس عن طريق الدمج البسيط. في حالة الرؤية، يتم تطبيق معدة ترميز بصرية وطبقة ترميز للحصول على تمثيلات بصرية.而对于语音,它引入了一个基于CTC的层维度映射来实现语音与文本的一致性。Stream-Omni的设计通过引入目标一致机制克服了简单连接方法的局限性。 نظرة عامة على الهيكل: دمج الصوت في طبقتين وترميز الرؤية تستخدم بنية Stream-Omni نواة نموذج لغوي كبير مع استراتيجيات توافق متدرجة بين الوسائط. بالنسبة لتوافق الرؤية والنصوص، يطبق Stream-Omni معدة ترميز بصرية وطبقة ترميز لاستخراج التمثيلات البصرية. وبالنسبة لتوافق الصوت والنصوص، يُدخل طبقات صوتية خاصة في أسفل وأعلى نواة النموذج اللغوي، مما يمكن من التوافق المزدوج بين الوسائط الصوتية والنصية. يقوم Stream-Omni ببناء مكتبة التدريب الخاصة به من خلال أنابيب آلية، مستخدمًا بيانات LLaVA لزوجات الرؤية-النصوص، LibriSpeech وWenetSpeech لبيانات الصوت-النصوص، وإنشاء مجموعة بيانات InstructOmni عن طريق تحويل مجموعة البيانات التعليمية الحالية باستخدام تحويل النص إلى صوت. تقييم القدرات متعددة الوسائط عبر مجالات مختلفة في مهام فهم الرؤية، يحقق Stream-Omni أداءً مماثلًا للنماذج الرؤية-موجهة المتقدمة ويتفوق على VITA-1.5، مما يقلل من التداخل بين الوسائط بينما يحافظ على قدرات الرؤية القوية. وفي التفاعلات الصوتية، يظهر Stream-Omni أداءً معرفيًا متميزًا باستخدام كمية أقل من البيانات الصوتية (23 ألف ساعة) مقارنة بالنماذج التي تعتمد على وحدات الصوت المنفصلة مثل SpeechGPT، Moshi، وGLM-4-Voice. وفي تقييم التفاعلات الصوتية المستندة إلى الرؤية على معيار SpokenVisIT، يتفوق Stream-Omni على VITA-1.5 في فهم الرؤية في البيئات الواقعية. جودة التوافق بين الصوت والنصوص في Stream-Omni تحقق أداءً متميزًا في معيار LibriSpeech من حيث الدقة ووقت الاستدلال. الخلاصة: تحول جذري في تحقيق التوافق الوسائطي باختصار، قدّم الباحثون Stream-Omni كحل لتحديات التوافق بين الوسائط في الأنظمة متعددة الوسائط. يُظهر هذا النهج أن التوافق الوسائطي الفعال يمكن تحقيقه من خلال دمج التتابع الزمني للرؤية والنصوص وتوافق الطبقات بين الصوت والنصوص، مما يُلغي الحاجة إلى بيانات تدريب ثلاثية الوسائط كبيرة الحجم. بالإضافة إلى ذلك، يُثبت هذا البحث نموذجًا جديدًا للنماذج متعددة الوسائط الكبيرة، حيث يمكن لاستراتيجيات التوافق المستهدفة المستندة إلى العلاقات الدلالية أن تتغلب على قيود النهج التقليدية المبنية على الدمج البسيط في الأنظمة الذكائية متعددة الوسائط. تقييم الحدث من قِبل مختصين في المجال يعتبر Stream-Omni خطوة مهمة نحو تحسين التوافق بين الوسائط في نماذج الذكاء الاصطناعي متعددة الوسائط. يُشيد الخبراء بهذه الطريقة الجديدة في تحقيق التوافق بين الوسائط، حيث تُظهر مرونة أعلى وقدرة أكبر على التعامل مع البيانات المحدودة. كما يُعتبر هذا التطور مهمًا في تطبيقات الذكاء الاصطناعي الحالية، مثل المساعدات الذكية والترجمة الفورية وتحليل البيانات البصرية والصوتية. نبذة تعريفية عن الأكاديمية الصينية للعلوم الأكاديمية الصينية للعلوم هي مؤسسة بحثية رائدة في الصين، تُركز على البحوث العلمية والتكنولوجية المتقدمة. تضم العديد من المعاهد والجامعات المتخصصة، وتعمل على تطوير تقنيات جديدة في مجالات متنوعة، بما في ذلك الذكاء الاصطناعي والبيانات الضخمة والمعدات العلمية المتطورة.