HyperAIHyperAI

Command Palette

Search for a command to run...

Voxtral تُطلق نماذج تحويل الصوت إلى نص بسرعة الصوت، مع تحسينات جوهرية في الدقة والتأخير المنخفض أطلقت Voxtral اليوم نسخة جديدة من نموذجها للتحويل الصوتي إلى نص، تُعرف بـ Voxtral Transcribe 2، والتي تضم نموذجين متطورين: Voxtral Mini Transcribe V2 للتحويل الجماعي، وVoxtral Realtime للتطبيقات الزمنية الحقيقية. تتميز النماذج بجودة تحويل صوتي متفوقة، وتمييز أصوات دقيقة، وتأخير منخفض جدًا، مما يفتح الباب أمام تطبيقات صوتية مبتكرة. Voxtral Realtime مصمم خصيصًا للتطبيقات التي تتطلب تأخيرًا منخفضًا جدًا. بخلاف النماذج التقليدية التي تعالج الصوت بقطع، يستخدم Realtime بنية تدفق حديثة تُحول الصوت أثناء وروده، مما يتيح ترجمة فورية بتأخير قابل للضبط حتى أقل من 200 مللي ثانية. عند تأخير 2.4 ثانية – المثالي للترجمة الفورية – يحقق Realtime نفس مستوى الدقة مثل Voxtral Mini Transcribe V2. وفي حالة تأخير 480 مللي ثانية، يبقى خطأ الكلمة ضمن 1-2%، ما يسمح بتشغيل وكلاء صوتيين بجودة قريبة من النماذج المكتوبة. النموذج متعدد اللغات بشكل طبيعي، ويُظهر أداءً قويًا في 13 لغة، منها الإنجليزية، الصينية، الهندية، الإسبانية، العربية، الفرنسية، البرتغالية، الروسية، الألمانية، اليابانية، الكورية، الإيطالية، والهولندية. بحجم 4 مليار معلمة، يمكن تشغيله على الأجهزة الحافة، مما يعزز الخصوصية والأمان في البيئات الحساسة. تم إصدار نموذج Realtime بحقوق مفتوحة تحت ترخيص Apache 2.0 على منصة Hugging Face. أما Voxtral Mini Transcribe V2، فهو يُقدّم تحسينات كبيرة في دقة التحويل وتمييز الأصوات عبر اللغات والبيئات. ويحقق معدل خطأ في الكلمات بنسبة 4% تقريبًا في معيار FLEURS، مقابل سعر يبلغ 0.003 دولار لكل دقيقة، ما يجعله الأفضل من حيث الأداء مقابل التكلفة بين جميع خدمات التحويل الصوتي. ويتفوق على نماذج مثل GPT-4o mini، Gemini 2.5 Flash، Assembly Universal، وDeepgram Nova من حيث الدقة، ويُعالج الصوت بسرعة تصل إلى 3 أضعاف سرعة Scribe v2 من ElevenLabs، مع الحفاظ على الجودة وتكاليف تقل إلى خمسة أضعاف. تتضمن الميزات المؤسسية الجديدة: تمييز الأصوات (Diarization): توليد نصوص مُرتبطة بأسماء المتحدثين مع تواريخ بدء ونهاية دقيقة، مناسبة لمحادثات الاجتماعات، التحليلات الصوتية، ومعالجة المكالمات متعددة الأطراف. التحفيز السياقي (Context Biasing): إدخال حتى 100 كلمة أو عبارة لتوجيه النموذج نحو تهجئة صحيحة لأسماء أو مصطلحات تقنية أو مصطلحات متخصصة، مفيد جدًا في المجالات الطبية أو القانونية. التواريخ لكل كلمة (Word-level timestamps): توفير تواريخ بدء ونهاية لكل كلمة، مثالي لصنع الترجمة الفورية، البحث في المحتوى الصوتي، والمحاذاة الزمنية. دعم لغات موسّع: يدعم نفس 13 لغة مثل Realtime، مع أداء متفوق على المنافسين في اللغات غير الإنجليزية. المتانة في البيئات الضوضائية: يحافظ على دقة عالية حتى في بيئات صوتية صعبة مثل المصانع أو مراكز الاتصالات أو التسجيلات الميدانية. دعم ملفات طويلة: يمكن معالجة تسجيلات تصل إلى 3 ساعات في طلب واحد. تم إطلاق "مختبر الصوت" (Audio Playground) في Mistral Studio، حيث يمكن للمستخدمين اختبار النماذج مباشرةً، بتحميل ما يصل إلى 10 ملفات صوتية، وتفعيل التمييز الصوتي، اختيار دقة التوقيت، وإدخال كلمات توجيهية للمجالات الخاصة. يدعم التنسيقات: .mp3، .wav، .m4a، .flac، .ogg، بحجم يصل إلى 1 غيغابايت لكل ملف. تُستخدم نماذج Voxtral Transcribe 2 في تطبيقات متنوعة، من الاجتماعات إلى التحليل الصوتي في القطاعات الطبية والقانونية والصناعية. وتوفر دعمًا متوافقًا مع معايير الخصوصية مثل GDPR وHIPAA عبر بيئات محلية أو سحابية خاصة. البدء بالاستخدام: Voxtral Mini Transcribe V2 متاح الآن عبر واجهة برمجة التطبيقات بسعر 0.003 دولار لكل دقيقة. Voxtral Realtime متاح عبر API بسعر 0.006 دولار لكل دقيقة، كما تم إصدار نموذجه المفتوح على Hugging Face. للمزيد من التفاصيل، اطّلع على الوثائق الرسمية حول القدرات الصوتية والتحويل الصوتي في Mistral. وإذا كنت مهتمًا ببناء نماذج ذكاء اصطناعي صوتي متطورة وتقديمها للمطورين حول العالم، فإن Voxtral تبحث عن أعضاء جدد للانضمام إلى فريقها.

تُطلق شركة Voxtral نسخة جديدة من نموذج تحويل الصوت إلى نص، تُعرف بـ Voxtral Transcribe 2، والتي تتميز بأداء متطور في الترجمة الصوتية، وتمييز المتكلمين، وتأخير منخفض جدًا. يشمل العائلة نموذجين: Voxtral Mini Transcribe V2 للتحويل الجماعي، وVoxtral Realtime للتطبيقات الحية. النموذج الأول مخصص للتحويل المجمّع، بينما الثاني مصمم خصيصًا للتطبيقات التي تتطلب تأخيرًا ضئيلًا جدًا، حيث يُحوّل الصوت أثناء وروده بفضل بنية تدفق مبتكرة، بدلاً من تقسيم الصوت إلى كتل. يُمكن ضبط التأخير عند أقل من 200 مللي ثانية، مما يُمكّن من تطوير تطبيقات صوتية أولوية مثل المساعدات الصوتية الحية. في اختبارات FLEURS، يُظهر Voxtral Realtime أداءً ممتازًا: عند تأخير 2.4 ثانية، يتساوى في الدقة مع Voxtral Mini Transcribe V2، بينما عند 480 مللي ثانية، يظل خطأ الكلمة ضمن نطاق 1-2%، ما يوفر دقة قريبة من النماذج المخصصة للتحويل غير الحي. النموذج متعدد اللغات بطبيعته، ويُعالج 13 لغة بفعالية، منها الإنجليزية، الصينية، الهندية، الإسبانية، العربية، الفرنسية، البرتغالية، الروسية، الألمانية، اليابانية، الكورية، الإيطالية، والهولندية. بحجم 4 مليار معلمة، يعمل بكفاءة على الأجهزة الحافة، مما يعزز الخصوصية والأمان في التطبيقات الحساسة. تم إتاحة النموذج مفتوح المصدر تحت ترخيص Apache 2.0 على منصة Hugging Face. أما Voxtral Mini Transcribe V2، فيقدم تحسينات كبيرة في دقة الترجمة وتمييز المتكلمين عبر اللغات والمجالات. يحقق معدل خطأ في الكلمات بنسبة 4% تقريبًا في اختبارات FLEURS، ويُقدّم أداءً أفضل من نماذج مثل GPT-4o mini، Gemini 2.5 Flash، وAssembly Universal، مع سرعة معالجة تفوق ElevenLabs Scribe v2 بثلاث مرات، وتكلفة خمسة أضعاف أقل. يدعم النموذج ميزات مؤسسية مهمة: تمييز المتكلمين مع تواريخ بدء ونهاية دقيقة، ودعم "التحفيز السياقي" (حتى 100 كلمة أو عبارة) لتحسين دقة التعرف على الأسماء أو المصطلحات الفنية، ودعم التوقيت على مستوى الكلمة، ودعم لغات متعددة بجودة عالية، ومقاومة للضوضاء في البيئات الصعبة، ودعم تسجيلات تصل إلى 3 ساعات في طلب واحد. يُتاح الآن تجربة النموذجين مباشرة عبر "مختبر الصوت" في Mistral Studio، حيث يمكن رفع ملفات صوتية (حتى 1 جيجابايت لكل ملف، بصيغ مثل MP3، WAV، FLAC)، وتمكين التمييز الصوتي، وتحديد دقة التوقيت، وإدخال كلمات مخصصة للتحفيز. يدعم النموذجان التكامل مع بيئة مخصصة أو سحابية آمنة، ويدعمان معايير حماية البيانات مثل GDPR وHIPAA. يُقدّم Voxtral Mini Transcribe V2 عبر واجهة برمجة التطبيقات بسعر 0.003 دولار للدقيقة، بينما يُقدّم Voxtral Realtime بسعر 0.006 دولار للدقيقة، مع إتاحة النموذج المفتوح عبر Hugging Face. الشركة تُعلن أيضًا عن فرص توظيف لمحترفي الذكاء الاصطناعي الصوتي المهتمين بتطوير نماذج رائدة ونشرها بين المطورين.

الروابط ذات الصلة

Voxtral تُطلق نماذج تحويل الصوت إلى نص بسرعة الصوت، مع تحسينات جوهرية في الدقة والتأخير المنخفض أطلقت Voxtral اليوم نسخة جديدة من نموذجها للتحويل الصوتي إلى نص، تُعرف بـ Voxtral Transcribe 2، والتي تضم نموذجين متطورين: Voxtral Mini Transcribe V2 للتحويل الجماعي، وVoxtral Realtime للتطبيقات الزمنية الحقيقية. تتميز النماذج بجودة تحويل صوتي متفوقة، وتمييز أصوات دقيقة، وتأخير منخفض جدًا، مما يفتح الباب أمام تطبيقات صوتية مبتكرة. Voxtral Realtime مصمم خصيصًا للتطبيقات التي تتطلب تأخيرًا منخفضًا جدًا. بخلاف النماذج التقليدية التي تعالج الصوت بقطع، يستخدم Realtime بنية تدفق حديثة تُحول الصوت أثناء وروده، مما يتيح ترجمة فورية بتأخير قابل للضبط حتى أقل من 200 مللي ثانية. عند تأخير 2.4 ثانية – المثالي للترجمة الفورية – يحقق Realtime نفس مستوى الدقة مثل Voxtral Mini Transcribe V2. وفي حالة تأخير 480 مللي ثانية، يبقى خطأ الكلمة ضمن 1-2%، ما يسمح بتشغيل وكلاء صوتيين بجودة قريبة من النماذج المكتوبة. النموذج متعدد اللغات بشكل طبيعي، ويُظهر أداءً قويًا في 13 لغة، منها الإنجليزية، الصينية، الهندية، الإسبانية، العربية، الفرنسية، البرتغالية، الروسية، الألمانية، اليابانية، الكورية، الإيطالية، والهولندية. بحجم 4 مليار معلمة، يمكن تشغيله على الأجهزة الحافة، مما يعزز الخصوصية والأمان في البيئات الحساسة. تم إصدار نموذج Realtime بحقوق مفتوحة تحت ترخيص Apache 2.0 على منصة Hugging Face. أما Voxtral Mini Transcribe V2، فهو يُقدّم تحسينات كبيرة في دقة التحويل وتمييز الأصوات عبر اللغات والبيئات. ويحقق معدل خطأ في الكلمات بنسبة 4% تقريبًا في معيار FLEURS، مقابل سعر يبلغ 0.003 دولار لكل دقيقة، ما يجعله الأفضل من حيث الأداء مقابل التكلفة بين جميع خدمات التحويل الصوتي. ويتفوق على نماذج مثل GPT-4o mini، Gemini 2.5 Flash، Assembly Universal، وDeepgram Nova من حيث الدقة، ويُعالج الصوت بسرعة تصل إلى 3 أضعاف سرعة Scribe v2 من ElevenLabs، مع الحفاظ على الجودة وتكاليف تقل إلى خمسة أضعاف. تتضمن الميزات المؤسسية الجديدة: تمييز الأصوات (Diarization): توليد نصوص مُرتبطة بأسماء المتحدثين مع تواريخ بدء ونهاية دقيقة، مناسبة لمحادثات الاجتماعات، التحليلات الصوتية، ومعالجة المكالمات متعددة الأطراف. التحفيز السياقي (Context Biasing): إدخال حتى 100 كلمة أو عبارة لتوجيه النموذج نحو تهجئة صحيحة لأسماء أو مصطلحات تقنية أو مصطلحات متخصصة، مفيد جدًا في المجالات الطبية أو القانونية. التواريخ لكل كلمة (Word-level timestamps): توفير تواريخ بدء ونهاية لكل كلمة، مثالي لصنع الترجمة الفورية، البحث في المحتوى الصوتي، والمحاذاة الزمنية. دعم لغات موسّع: يدعم نفس 13 لغة مثل Realtime، مع أداء متفوق على المنافسين في اللغات غير الإنجليزية. المتانة في البيئات الضوضائية: يحافظ على دقة عالية حتى في بيئات صوتية صعبة مثل المصانع أو مراكز الاتصالات أو التسجيلات الميدانية. دعم ملفات طويلة: يمكن معالجة تسجيلات تصل إلى 3 ساعات في طلب واحد. تم إطلاق "مختبر الصوت" (Audio Playground) في Mistral Studio، حيث يمكن للمستخدمين اختبار النماذج مباشرةً، بتحميل ما يصل إلى 10 ملفات صوتية، وتفعيل التمييز الصوتي، اختيار دقة التوقيت، وإدخال كلمات توجيهية للمجالات الخاصة. يدعم التنسيقات: .mp3، .wav، .m4a، .flac، .ogg، بحجم يصل إلى 1 غيغابايت لكل ملف. تُستخدم نماذج Voxtral Transcribe 2 في تطبيقات متنوعة، من الاجتماعات إلى التحليل الصوتي في القطاعات الطبية والقانونية والصناعية. وتوفر دعمًا متوافقًا مع معايير الخصوصية مثل GDPR وHIPAA عبر بيئات محلية أو سحابية خاصة. البدء بالاستخدام: Voxtral Mini Transcribe V2 متاح الآن عبر واجهة برمجة التطبيقات بسعر 0.003 دولار لكل دقيقة. Voxtral Realtime متاح عبر API بسعر 0.006 دولار لكل دقيقة، كما تم إصدار نموذجه المفتوح على Hugging Face. للمزيد من التفاصيل، اطّلع على الوثائق الرسمية حول القدرات الصوتية والتحويل الصوتي في Mistral. وإذا كنت مهتمًا ببناء نماذج ذكاء اصطناعي صوتي متطورة وتقديمها للمطورين حول العالم، فإن Voxtral تبحث عن أعضاء جدد للانضمام إلى فريقها. | القصص الشائعة | HyperAI