التاريخ

منذ 10 أشهر

الحجم

1.09 GB

الوسوم

1. مقدمة البرنامج التعليمي

Qwen2.5-Omni هو أحدث طراز رائد متعدد الوسائط من البداية إلى النهاية تم إصداره بواسطة فريق Alibaba Tongyi Qianwen في 27 مارس 2025. تم تصميمه للإدراك المتعدد الوسائط الشامل ومعالجة المدخلات المختلفة بسلاسة بما في ذلك النصوص والصور والصوت والفيديو، مع دعم إنشاء النص المتدفق وإخراج توليف الكلام الطبيعي.

الميزات الرئيسية

هندسة معمارية مبتكرة شاملة:يعتمد على بنية Thinker-Talker جديدة، وهو نموذج متعدد الوسائط من البداية إلى النهاية مصمم لدعم الفهم المتبادل للنص/الصورة/الصوت/الفيديو أثناء توليد النص واستجابات الكلام الطبيعية بطريقة متدفقة. واقترح فريق البحث تقنية جديدة للترميز الموضعي تسمى TMRoPE (Time-aligned Multimodal RoPE)، والتي تحقق مزامنة دقيقة لمدخلات الفيديو والصوت من خلال محاذاة المحور الزمني.
التفاعل الصوتي والفيديو في الوقت الفعلي:تم تصميم الهندسة المعمارية لدعم التفاعل الكامل في الوقت الفعلي، ودعم الإدخال المجزأ والإخراج الفوري.
توليد الكلام الطبيعي والطلاقة:يتفوق على العديد من البدائل المتدفقة وغير المتدفقة الموجودة من حيث الطبيعة والاستقرار في توليد الكلام.
ميزة الأداء متعدد الوسائط:يظهر أداءً متفوقًا عند مقارنته بنماذج أحادية النمط ذات حجم مماثل. يتفوق Qwen2.5-Omni على Qwen2-Audio ذات الحجم المماثل في قدرات الصوت ويساوي Qwen2.5-VL-7B.
قدرة ممتازة على متابعة الأوامر الصوتية من البداية إلى النهاية:يظهر Qwen2.5-Omni نتائج مماثلة لمعالجة إدخال النص في متابعة الأوامر الصوتية من البداية إلى النهاية، ويتفوق في معايير مثل فهم المعرفة العامة MMLU والتفكير الرياضي GSM8K.

يستخدم هذا البرنامج التعليمي Qwen2.5-Omni كعرض توضيحي، وموارد الحوسبة هي A6000.

وظائف الدعم:

الحوار المتعدد الوسائط عبر الإنترنت
محادثة متعددة الوسائط دون اتصال بالإنترنت

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا لم يتم عرض "النموذج"، فهذا يعني أنه يتم تهيئة النموذج. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج

عندما يكون مربع الإدخال باللون البرتقالي فهذا يعني أن النموذج يستجيب.

يدعم Qwen2.5-Omni تغيير صوت الصوت الناتج. تدعم نقطة التفتيش "Qwen/Qwen2.5-Omni-7B" نوعي الصوت التاليين:

نوع النغمة	جنس	يصف
تشيلسي	أنثى	حلوة، لطيفة، مشرقة، ناعمة
إيثان	ذكر	أشعة الشمس، والحيوية، والخفة، والألفة

الحوار المتعدد الوسائط عبر الإنترنت
قم بتمكين أذونات الميكروفون والكاميرا على صفحة الويب حتى تتمكن من إجراء محادثات في الوقت الفعلي مع Qwen2.5-Omni بعد اكتمال التسجيل.

محادثة متعددة الوسائط دون اتصال بالإنترنت
قم بتحميل الملفات متعددة الوسائط بشكل مباشر وتواصل مع Qwen2.5-Omni باستخدام محتوى نصي.
ملحوظة: يجب أن يحتوي ملف الفيديو على صوت. إذا لم يكن هناك صوت، سيتم عرض رسالة خطأ.

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

نشر Qwen-Image-2512 باستخدام vLLM-Omni

منذ 5 أيام

نشر Qwen-Image-Edit باستخدام vLLM-Omni

منذ 5 أيام

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ 10 أشهر

الحجم

1.09 GB

الوسوم

متعدد الوسائط

1. مقدمة البرنامج التعليمي

الميزات الرئيسية

هندسة معمارية مبتكرة شاملة:يعتمد على بنية Thinker-Talker جديدة، وهو نموذج متعدد الوسائط من البداية إلى النهاية مصمم لدعم الفهم المتبادل للنص/الصورة/الصوت/الفيديو أثناء توليد النص واستجابات الكلام الطبيعية بطريقة متدفقة. واقترح فريق البحث تقنية جديدة للترميز الموضعي تسمى TMRoPE (Time-aligned Multimodal RoPE)، والتي تحقق مزامنة دقيقة لمدخلات الفيديو والصوت من خلال محاذاة المحور الزمني.
التفاعل الصوتي والفيديو في الوقت الفعلي:تم تصميم الهندسة المعمارية لدعم التفاعل الكامل في الوقت الفعلي، ودعم الإدخال المجزأ والإخراج الفوري.
توليد الكلام الطبيعي والطلاقة:يتفوق على العديد من البدائل المتدفقة وغير المتدفقة الموجودة من حيث الطبيعة والاستقرار في توليد الكلام.
ميزة الأداء متعدد الوسائط:يظهر أداءً متفوقًا عند مقارنته بنماذج أحادية النمط ذات حجم مماثل. يتفوق Qwen2.5-Omni على Qwen2-Audio ذات الحجم المماثل في قدرات الصوت ويساوي Qwen2.5-VL-7B.
قدرة ممتازة على متابعة الأوامر الصوتية من البداية إلى النهاية:يظهر Qwen2.5-Omni نتائج مماثلة لمعالجة إدخال النص في متابعة الأوامر الصوتية من البداية إلى النهاية، ويتفوق في معايير مثل فهم المعرفة العامة MMLU والتفكير الرياضي GSM8K.

يستخدم هذا البرنامج التعليمي Qwen2.5-Omni كعرض توضيحي، وموارد الحوسبة هي A6000.

وظائف الدعم:

الحوار المتعدد الوسائط عبر الإنترنت
محادثة متعددة الوسائط دون اتصال بالإنترنت

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا لم يتم عرض "النموذج"، فهذا يعني أنه يتم تهيئة النموذج. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج

عندما يكون مربع الإدخال باللون البرتقالي فهذا يعني أن النموذج يستجيب.

يدعم Qwen2.5-Omni تغيير صوت الصوت الناتج. تدعم نقطة التفتيش "Qwen/Qwen2.5-Omni-7B" نوعي الصوت التاليين:

نوع النغمة	جنس	يصف
تشيلسي	أنثى	حلوة، لطيفة، مشرقة، ناعمة
إيثان	ذكر	أشعة الشمس، والحيوية، والخفة، والألفة

الحوار المتعدد الوسائط عبر الإنترنت
قم بتمكين أذونات الميكروفون والكاميرا على صفحة الويب حتى تتمكن من إجراء محادثات في الوقت الفعلي مع Qwen2.5-Omni بعد اكتمال التسجيل.

محادثة متعددة الوسائط دون اتصال بالإنترنت
قم بتحميل الملفات متعددة الوسائط بشكل مباشر وتواصل مع Qwen2.5-Omni باستخدام محتوى نصي.
ملحوظة: يجب أن يحتوي ملف الفيديو على صوت. إذا لم يكن هناك صوت، سيتم عرض رسالة خطأ.

التبادل والمناقشة

نشر Qwen-Image-2512 باستخدام vLLM-Omni

منذ 5 أيام

نشر Qwen-Image-Edit باستخدام vLLM-Omni

منذ 5 أيام

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

منذ 3 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

منذ 2 أشهر

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

منذ 3 أشهر

OCRFlux-3B: مجموعة أدوات التعرف على النصوص الذكية

منذ 3 أشهر

SAM3: نموذج التجزئة المرئية

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

يفتح Qwen2.5-Omni جميع طرق القراءة والاستماع والتحدث والكتابة

1. مقدمة البرنامج التعليمي

الميزات الرئيسية

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج

التبادل والمناقشة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

يفتح Qwen2.5-Omni جميع طرق القراءة والاستماع والتحدث والكتابة

1. مقدمة البرنامج التعليمي

الميزات الرئيسية

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج

التبادل والمناقشة

ذات صلة دفاتر تفاعلية

نشر Qwen-Image-2512 باستخدام vLLM-Omni

نشر Qwen-Image-Edit باستخدام vLLM-Omni

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

OCRFlux-3B: مجموعة أدوات التعرف على النصوص الذكية

SAM3: نموذج التجزئة المرئية

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

يفتح Qwen2.5-Omni جميع طرق القراءة والاستماع والتحدث والكتابة

1. مقدمة البرنامج التعليمي

الميزات الرئيسية

2. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. بعد الدخول إلى صفحة الويب، يمكنك بدء محادثة مع النموذج

التبادل والمناقشة

ذات صلة دفاتر تفاعلية

نشر Qwen-Image-2512 باستخدام vLLM-Omni

نشر Qwen-Image-Edit باستخدام vLLM-Omni

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

OCRFlux-3B: مجموعة أدوات التعرف على النصوص الذكية

SAM3: نموذج التجزئة المرئية

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

نشر Qwen-Image-2512 باستخدام vLLM-Omni

نشر Qwen-Image-Edit باستخدام vLLM-Omni

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

OCRFlux-3B: مجموعة أدوات التعرف على النصوص الذكية

SAM3: نموذج التجزئة المرئية

ذات صلة دفاتر تفاعلية

نشر Qwen-Image-2512 باستخدام vLLM-Omni

نشر Qwen-Image-Edit باستخدام vLLM-Omni

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

PixelReasoner-RL: نموذج الاستدلال البصري على مستوى البكسل

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

ROCKET-2: لعبة ثلاثية الأبعاد Zero-Shot Transfer

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

OCRFlux-3B: مجموعة أدوات التعرف على النصوص الذكية

SAM3: نموذج التجزئة المرئية