جوجل تطلق نموذج Gemini 3.1 Flash لتحويل النص إلى كلام، يدعم أكثر من 70 لغة
أعلنت جوجل رسميًا عن إطلاق نموذج جديد لتحويل النص إلى كلام يسمى Gemini 3.1 Flash TTS، وذلك في 15 أبريل 2026. يأتي هذا الإصدار الجديد ليمثل قفزة نوعية في جودة الصوت وتحكم المطورين، حيث يهدف إلى جعل نطق الآلة أكثر طبيعية وتعبريًا من أي نسخة سابقة. تم تصميم النموذج لخدمة كل من المطورين عبر واجهة Gemini API والاستوديو الذكي، والشركات عبر منصة Vertex AI، والمستخدمين العاديين من خلال تطبيق Google Vids. تتميز النسخة الجديدة بتحسينات كبيرة في جودة الصوت، حيث حققت أعلى درجات في اختبارات التفضيل البشري التي تقوم بها منظمة Artificial Analysis، وحصلت على تصنيف إيلو بلغ 1211 درجة. كما صنفت الشركة النموذج ضمن "أفضل المربعات" بسبب مزيجها المثالي بين جودة الإنتاج العالية والتكلفة المنخفضة. يدعم النموذج الآن أكثر من 70 لغة، مما يتيح إنشاء تجارب صوتية مخصصة ومحلية لمستخدمين في جميع أنحاء العالم. أحد أبرز الابتكارات في هذا النموذج هو نظام "الوسوم الصوتية" (Audio Tags)، الذي يمنح المطورين تحكمًا دقيقًا للغاية في أسلوب الصوت وسرعته وطريقة النطق. بدلاً من الأوامر المعقدة، يمكن للمطورين استخدام أوامر بلغة طبيعية داخل النص نفسه لتوجيه النموذج، مثل تحديد البيئة المحيطة أو نبرة الشخصية أو حتى التغير المفاجئ في المشاعر أثناء الجملة الواحدة. هذا النظام يسمح للمطورين بالعمل في وضع "المخرج السينمائي"، حيث يمكنهم تخصيص ملفات صوتية لكل شخصية، وتعديل الإيقاع والنبرة في الوقت الفعلي، وتصدير هذه الإعدادات كأكواد متسقة لضمان ثبات الهوية الصوتية عبر مشاريع مختلفة. تستهدف هذه الميزات تحسين تجربة المستخدم النهائي في تطبيقات الذكاء الاصطناعي التوليدي، سواء كان ذلك في خلق شخصيات ألعاب فيديو حية، أو إنشاء محتوى تعليمي، أو مساعدات صوتية ذكية. وقد أشارت الشركات التي أجرت تجارب أولية على النموذج إلى أن هذه الوسوم الجديدة قد حولت النصوص البسيطة إلى أداءات صوتية عالية الدقة وقابلة للتخصيص. وللرد على مخاوف انتشار المعلومات المضللة، تؤكد جوجل أن جميع الملفات الصوتية المولدة باستخدام Gemini 3.1 Flash TTS يتم دمج علامة مائية رقمية غير مرئية فيها تسمى SynthID. تعمل هذه العلامة على تحديد المحتوى كمنتج عن الذكاء الاصطناعي بسهولة، مما يساعد في تتبع المصادر ومنع الاستخدام الخادع للنماذج الصوتية. باختصار، يمثل Gemini 3.1 Flash TTS خطوة استراتيجية لجوجل لتعزيز مكانتها في سوق توليد الصوت، من خلال دمج الجودة العالية مع مرونة تحكم غير مسبوقة للمطورين، بالإضافة إلى التزام قوي بمعايير الأمان والشفافية عبر تقنيات التعريف الرقمي.
