HyperAIHyperAI

Qwen3-Omni-30B-A3B-Captioner: وصف صوتي للنموذج الكبير

1. مقدمة البرنامج التعليمي

نجوم جيثب

Qwen3-Omni-30B-A3B-Captioner هو نموذج وصف صوتي ضخم، أصدره فريق Alibaba Tongyi Qianwen في سبتمبر 2025. يُنشئ النموذج تلقائيًا، دون أي توجيهات، أوصافًا دقيقة وشاملة للكلام المعقد، والأصوات المحيطة، والموسيقى، والمؤثرات الصوتية للأفلام والتلفزيون. يمكنه تحديد مشاعر المتحدث، والعناصر الموسيقية (مثل الأسلوب والآلات الموسيقية)، والمعلومات الحساسة. وهو مناسب لتحليل المحتوى الصوتي، والتدقيق الأمني، والتعرف على النوايا، وتحرير الصوت، وغيرها من المجالات. الأوراق البحثية ذات الصلة هي:تقرير فني عن Qwen3-Omini".

يستخدم هذا البرنامج التعليمي بطاقة RTX A6000 واحدة كمورد.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.  ملاحظة: مدة الصوت محدودة بـ 30 ثانية. يستغرق توليد النتائج حوالي 3-5 دقائق.

وصف المعلمة

  • درجة حرارة:كلما كانت القيمة أصغر، كانت الترجمات أكثر "محافظة" وأكثر يقينًا؛ وكلما كانت القيمة أكبر، كانت أكثر عشوائية وإبداعًا.
  • أعلى-صاختر فقط من بين "الكلمات ذات الدرجات العالية" التي يصل احتمالها إلى p. كلما كان p أصغر، قلّت الخيارات، وكان النص أكثر تحفظًا.
  • توب-كاحتفظ فقط بالكلمات ذات الاحتمالية الأعلى (k). كلما كان عدد الكلمات (k) أقل، قلّت الخيارات المتاحة، وكان النص أكثر تحفظًا.

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓