يفتح Qwen2.5-Omni جميع طرق القراءة والاستماع والتحدث والكتابة
1. مقدمة البرنامج التعليمي
Qwen2.5-Omni هو أحدث طراز رائد متعدد الوسائط من البداية إلى النهاية تم إصداره بواسطة فريق Alibaba Tongyi Qianwen في 27 مارس 2025. تم تصميمه للإدراك المتعدد الوسائط الشامل ومعالجة المدخلات المختلفة بسلاسة بما في ذلك النصوص والصور والصوت والفيديو، مع دعم إنشاء النص المتدفق وإخراج توليف الكلام الطبيعي.
الميزات الرئيسية
- هندسة معمارية مبتكرة شاملة:يعتمد على بنية Thinker-Talker جديدة، وهو نموذج متعدد الوسائط من البداية إلى النهاية مصمم لدعم الفهم المتبادل للنص/الصورة/الصوت/الفيديو أثناء توليد النص واستجابات الكلام الطبيعية بطريقة متدفقة. واقترح فريق البحث تقنية جديدة للترميز الموضعي تسمى TMRoPE (Time-aligned Multimodal RoPE)، والتي تحقق مزامنة دقيقة لمدخلات الفيديو والصوت من خلال محاذاة المحور الزمني.
- التفاعل الصوتي والفيديو في الوقت الفعلي:تم تصميم الهندسة المعمارية لدعم التفاعل الكامل في الوقت الفعلي، ودعم الإدخال المجزأ والإخراج الفوري.
- توليد الكلام الطبيعي والطلاقة:يتفوق على العديد من البدائل المتدفقة وغير المتدفقة الموجودة من حيث الطبيعة والاستقرار في توليد الكلام.
- ميزة الأداء متعدد الوسائط:يظهر أداءً متفوقًا عند مقارنته بنماذج أحادية النمط ذات حجم مماثل. يتفوق Qwen2.5-Omni على Qwen2-Audio ذات الحجم المماثل في قدرات الصوت ويساوي Qwen2.5-VL-7B.
- قدرة ممتازة على متابعة الأوامر الصوتية من البداية إلى النهاية:يظهر Qwen2.5-Omni نتائج مماثلة لمعالجة إدخال النص في متابعة الأوامر الصوتية من البداية إلى النهاية، ويتفوق في معايير مثل فهم المعرفة العامة MMLU والتفكير الرياضي GSM8K.
يستخدم هذا البرنامج التعليمي Qwen2.5-Omni كعرض توضيحي، وموارد الحوسبة هي A6000.
وظائف الدعم:
- الحوار المتعدد الوسائط عبر الإنترنت
- محادثة متعددة الوسائط دون اتصال بالإنترنت
2. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب
إذا لم يتم عرض "النموذج"، فهذا يعني أنه يتم تهيئة النموذج. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج
عندما يكون مربع الإدخال باللون البرتقالي فهذا يعني أن النموذج يستجيب.

يدعم Qwen2.5-Omni تغيير صوت الصوت الناتج. تدعم نقطة التفتيش "Qwen/Qwen2.5-Omni-7B" نوعي الصوت التاليين:
نوع النغمة | جنس | يصف |
---|---|---|
تشيلسي | أنثى | حلوة، لطيفة، مشرقة، ناعمة |
إيثان | ذكر | أشعة الشمس، والحيوية، والخفة، والألفة |
- الحوار المتعدد الوسائط عبر الإنترنت
قم بتمكين أذونات الميكروفون والكاميرا على صفحة الويب حتى تتمكن من إجراء محادثات في الوقت الفعلي مع Qwen2.5-Omni بعد اكتمال التسجيل.

- محادثة متعددة الوسائط دون اتصال بالإنترنت
قم بتحميل الملفات متعددة الوسائط بشكل مباشر وتواصل مع Qwen2.5-Omni باستخدام محتوى نصي.
ملحوظة: يجب أن يحتوي ملف الفيديو على صوت. إذا لم يكن هناك صوت، سيتم عرض رسالة خطأ.

التبادل والمناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓