برنامج تعليمي عبر الإنترنت | أول نموذج صوتي مفتوح المصدر من Mistral AI يأخذ في الاعتبار إصدارات Voxtral و24B و3B فهم الكلام العميق في سيناريوهات متعددة

منذ عام واحد

باعتباره أكثر طرق التفاعل البشري طبيعية، أصبح الصوت تدريجيًا العنصر الأساسي في التفاعل بين الإنسان والحاسوب. ومع شيوع التفاعل الصوتي، تتطور نماذج الصوت باستمرار وتُحسّن وفقًا للطلب.ومع ذلك، يصاحب التطور السريع استقطاب في عرض السوق: فنماذج المصدر المفتوح منخفضة التكلفة أكثر عرضة لمشاكل مثل ارتفاع معدلات الأخطاء وضعف الفهم الدلالي، بينما نماذج المصدر المغلق عالية التكلفة عادةً ما تكون باهظة الثمن وتعاني من قيود في النشر. ويصعب على كلا النموذجين تلبية الاحتياجات المتنوعة.

وبناء على هذا،أطلقت شركة Mistral AI مؤخرًا رسميًا أول نموذج صوتي متقدم لها، Voxtral، والذي يركز على نقاط الألم في سوق الذكاء الصوتي مع الأداء العالي والتكلفة المنخفضة مفتوح المصدر.يتوفر هذا النموذج بنسختين: 24B و3B. النسخة الأولى مناسبة للنشر واسع النطاق على مستوى المؤسسات، بينما تُسهّل النسخة الثانية عملية النشر الفردي البسيط. من حيث الوظائف، وبفضل النسخ الصوتي الممتاز وقدرات الفهم العميق، يدعم Voxtral لغات متعددة، ومعالجة سياق النصوص الطويلة، ووظائف مدمجة للإجابة على الأسئلة والتلخيص، ويتفوق أداؤه على نماذج الصوت مفتوحة المصدر الحالية في العديد من المعايير. في الوقت نفسه، يتميز بتكلفة أقل واستخدام واسع في مختلف السيناريوهات، مما يُسهم في تعميم التفاعل الصوتي.

تستخدم شركة Voxtral التكنولوجيا لتعزيز التغيير النوعي في نماذج التفاعل الصوتي من "قابلة للاستخدام" إلى "سهلة الاستخدام".فهو لا يلبي فقط طلب السوق على نماذج الصوت عالية الأداء، بل يعمل أيضًا على توسيع سيناريوهات تطبيق التفاعل الصوتي، وبناء حجر الزاوية البيئي الذكي للحوار الطبيعي.

「نموذج فهم الكلام Voxtral-Small-3B/24B-2507 التجريبي」أصبح قسم "البرنامج التعليمي" في الموقع الرسمي لـ HyperAI (hyper.ai) متاحًا الآن على الإنترنت.دعونا نبدأ تجربة غامرة للتفاعل الصوتي حيث يمكننا "السماع بشكل أكثر دقة والفهم بشكل أعمق" ونشهد اختراقات جديدة في نماذج الصوت المتقدمة!

رابط البرنامج التعليمي:

* نموذج فهم الكلام Voxtral-Mini-3B-2507 التجريبي:

https://go.hyper.ai/5Q9uT

* نموذج فهم الكلام Voxtral-Small-24B-2507 التجريبي:

https://go.hyper.ai/p4X0s

اختبر المؤلف البرنامج باستخدام مقاطع من مقابلات براد بيت، بطل فيلم "فورمولا 1: وايلد ريس"، ووانغ نينغ، مؤسس بوب مارت، في مقابلة أجرتها معه قناة CCTV. كانت النتائج مثالية للغاية، مؤكدةً فعالية وظائف Voxtral.

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لـ hyper.ai، حدد صفحة "البرنامج التعليمي"، ثم حدد "Voxtral-Mini-3B-2507 Speech Understanding Model Demo"، ثم انقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".

2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

٣. اختر صورتي "NVIDIA GeForce RTX 4090" و"PyTorch"، ثم اختر "الدفع الفوري" أو "الباقة اليومية/الأسبوعية/الشهرية" حسب احتياجاتك، ثم انقر على "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على ٤ ساعات من بطاقة RTX 4090 + ٥ ساعات من وقت فراغ المعالج!

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://openbayes.com/console/signup?r=Ada0322_NR0n

٤. انتظر حتى يتم تخصيص الموارد. سيستغرق الاستنساخ الأول حوالي ٣ دقائق. عندما تتغير الحالة إلى "قيد التشغيل"، انقر على سهم الانتقال بجوار "عنوان واجهة برمجة التطبيقات" للانتقال إلى صفحة العرض التوضيحي. يُرجى العلم أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان واجهة برمجة التطبيقات.

عرض التأثير

اختر وظيفة اختبار "نسخ الصوت"، ثم حمّل مقطعًا صوتيًا، ثم اختر اللغة، وانقر على "نسخ الصوت". ستظهر النتيجة بعد قليل.

قم باختيار وظيفة اختبار "فهم الصوت"، ثم قم بتحميل مقطع صوتي، وأدخل السؤال، ثم انقر على "إرسال الاستعلام"، وسيتم توليد النتائج بعد فترة.

بالإضافة إلى ذلك، يُعد إصدار 24B الذي توفره Voxtral مناسبًا للنشر واسع النطاق على مستوى المؤسسات. وهو متاح الآن في قسم "الدليل التعليمي" على الموقع الرسمي لـ HyperAI (hyper.ai)، ويمكن للمستخدمين تجربته حسب الحاجة!

رابط البرنامج التعليمي:

* نموذج فهم الكلام Voxtral-Mini-3B-2507 التجريبي:

https://go.hyper.ai/5Q9uT

* نموذج فهم الكلام Voxtral-Small-24B-2507 التجريبي:

https://go.hyper.ai/p4X0s

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

يحقق MiniCPM5-1B، الذي تم تدريبه باستخدام RL+OPD، أداءً متطورًا (SOTA) في مهام معقدة متعددة؛ تم إصدار مجموعة بيانات CHI-Bench لتقييم العوامل الطبية، المصممة لأتمتة عمليات الرعاية الصحية المعقدة.

خفيف الوزن للغاية، ومع ذلك بجودة صورة لا تقل عن سابقتها! ERNIE-Image-Turbo: وداعاً للانتظار الطويل، سرعة فائقة؛ نقدم لكم مقاييس ثنائية الأبعاد للإدراك والمعرفة: مجموعة بيانات OmniParsingBench الموحدة متعددة الوسائط لتحليل وتقييم البيانات من Alibaba متاحة الآن عبر الإنترنت.

تم إصدار Anima V1، وهو نموذج جديد تمامًا للصور الخام، ويركز على توليد الصور بأسلوب الأنمي؛ وتغطي مجموعة بيانات تقييم الذاكرة طويلة المدى متعددة الوسائط MemLens آليات الاستدلال من النص إلى الصورة عبر المحادثات وآليات تحديث المعرفة.

نموذج كشف الخصوصية قابل للتشغيل محليًا: يحقق مرشح الخصوصية تصفية عالية الجودة للمعلومات الشخصية بتكلفة منخفضة؛ مفتوح المصدر بالكامل! يغطي مجموعة بيانات كرة القدم المنظمة من Transfermarkt التي تضم أكثر من 80000 مباراة.

يدعم إطار عمل توليد الفيديو متعدد الأنماط مفتوح المصدر من Meituan، LongCat 1.5، توليد الفيديو الحي والرسوم المتحركة والفيديو القائم على الحيوانات؛ كما أنه يعزز قدرات إعادة بناء المخططات واستخراج الجداول لمجموعة بيانات VLM ChartNet، التي تدعم ملايين نقاط البيانات.

HyperAI

برنامج تعليمي عبر الإنترنت | أول نموذج صوتي مفتوح المصدر من Mistral AI يأخذ في الاعتبار إصدارات Voxtral و24B و3B فهم الكلام العميق في سيناريوهات متعددة

منذ عام واحد

معلومة

التعلم الآلي

التعلم العميق

رابط البرنامج التعليمي:

* نموذج فهم الكلام Voxtral-Mini-3B-2507 التجريبي:

https://go.hyper.ai/5Q9uT

* نموذج فهم الكلام Voxtral-Small-24B-2507 التجريبي:

https://go.hyper.ai/p4X0s

تشغيل تجريبي

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://openbayes.com/console/signup?r=Ada0322_NR0n

عرض التأثير

رابط البرنامج التعليمي:

* نموذج فهم الكلام Voxtral-Mini-3B-2507 التجريبي:

https://go.hyper.ai/5Q9uT

* نموذج فهم الكلام Voxtral-Small-24B-2507 التجريبي:

https://go.hyper.ai/p4X0s

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

يحقق MiniCPM5-1B، الذي تم تدريبه باستخدام RL+OPD، أداءً متطورًا (SOTA) في مهام معقدة متعددة؛ تم إصدار مجموعة بيانات CHI-Bench لتقييم العوامل الطبية، المصممة لأتمتة عمليات الرعاية الصحية المعقدة.

خفيف الوزن للغاية، ومع ذلك بجودة صورة لا تقل عن سابقتها! ERNIE-Image-Turbo: وداعاً للانتظار الطويل، سرعة فائقة؛ نقدم لكم مقاييس ثنائية الأبعاد للإدراك والمعرفة: مجموعة بيانات OmniParsingBench الموحدة متعددة الوسائط لتحليل وتقييم البيانات من Alibaba متاحة الآن عبر الإنترنت.

تم إصدار Anima V1، وهو نموذج جديد تمامًا للصور الخام، ويركز على توليد الصور بأسلوب الأنمي؛ وتغطي مجموعة بيانات تقييم الذاكرة طويلة المدى متعددة الوسائط MemLens آليات الاستدلال من النص إلى الصورة عبر المحادثات وآليات تحديث المعرفة.

نموذج كشف الخصوصية قابل للتشغيل محليًا: يحقق مرشح الخصوصية تصفية عالية الجودة للمعلومات الشخصية بتكلفة منخفضة؛ مفتوح المصدر بالكامل! يغطي مجموعة بيانات كرة القدم المنظمة من Transfermarkt التي تضم أكثر من 80000 مباراة.

يدعم إطار عمل توليد الفيديو متعدد الأنماط مفتوح المصدر من Meituan، LongCat 1.5، توليد الفيديو الحي والرسوم المتحركة والفيديو القائم على الحيوانات؛ كما أنه يعزز قدرات إعادة بناء المخططات واستخراج الجداول لمجموعة بيانات VLM ChartNet، التي تدعم ملايين نقاط البيانات.

Command Palette

برنامج تعليمي عبر الإنترنت | أول نموذج صوتي مفتوح المصدر من Mistral AI يأخذ في الاعتبار إصدارات Voxtral و24B و3B فهم الكلام العميق في سيناريوهات متعددة

تشغيل تجريبي

عرض التأثير

Command Palette

برنامج تعليمي عبر الإنترنت | أول نموذج صوتي مفتوح المصدر من Mistral AI يأخذ في الاعتبار إصدارات Voxtral و24B و3B فهم الكلام العميق في سيناريوهات متعددة

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

Command Palette

برنامج تعليمي عبر الإنترنت | أول نموذج صوتي مفتوح المصدر من Mistral AI يأخذ في الاعتبار إصدارات Voxtral و24B و3B فهم الكلام العميق في سيناريوهات متعددة

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

ذات صلة الأخبار

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.