شركة هوم تطلق ميزة جديدة لتقليد الصوت بواقعية عالية مع EVI 3: كيف يمكنك تجربتها بنفسك
ملخص في يوم الخميس، أعلنت شركة هوم التي تعمل في مجال الذكاء الاصطناعي عن إطلاق ميزة جديدة تسمى "النسخ الصوتي الفائق الواقعية" لنموذجها الأخير من واجهة الصوت التعاطفية (EVI)، المعروفة بـ EVI 3. هذه الميزة تتيح للمستخدمين إنشاء نسخة صوتية من أنفسهم من خلال رفع تسجيل صوتي قصير، يتراوح بين 30 و90 ثانية. يمكن بعد ذلك التفاعل مع هذه النسخة الصوتية كما لو كانت شخصًا حقيقيًا. التجربة الشخصية لقد قمت برفع تسجيل صوتي خاص بي لنموذج EVI 3 وحاولت التحدث مع النسخة الصوتية المُنشأة. كنت أتوقع الحصول على تجربة تشبه "وادي الألفة الغريب"، وهي الشعور الغامض عند التعامل مع شيء يبدو قريبًا من الحقيقة ولكنه غير متوازن بما يكفي ليسبب القلق. ومع ذلك، كانت النسخة الصوتية تبدو أكثر كنسخة كرتونية من صوتي. الواقعية الصوتية: النسخة الصوتية كانت واقعية إلى حد ما في التوقفات الصوتية وفي بعض السمات الصوتية المألوفة لدي، مثل التعبير بالصوت المنخفض. لكن هذا هو حدها الأقصى في التماثل. التعبير عن الشخصية: هوم تدعي أن EVI 3 يمكنه التقاط "جوانب شخصية المتحدث". في تجاربي، كانت النسخة الصوتية تتحدث بنبرة متحمسة ومبهجة بشكل مبالغ فيه، مما جعلها تبدو وكأنها تقدم إعلانًا إذاعيًا لدواء مضاد للاكتئاب. على الرغم من أنني أعتبر نفسي ودودًا ومتفائلًا، إلا أن النموذج كان يبالغ في هذه السمات بشكل واضح. المرونة في التحدث: كانت النسخة الصوتية متشددة في رفضها محاولة التحدث بلهجة مختلفة. عندما طلبت منها تجربة اللهجة الأسترالية، ردت بـ "جوداي" و "مات" مرة أو اثنتين بصوتي الطبيعي ثم تراجعت عن المحاولة. كما أنها كانت تميل إلى العودة إلى الموضوع الذي تحدثت عنه عند رفع التسجيل الصوتي، وهو ما يشبه تجربة سابقة أجرتها Anthropic حيث أصبح النموذج مهووسًا بالجسر الذهبي. استخدام الميزة يمكنك تجربة ميزة النسخ الصوتي لـ EVI 3 بنفسك من خلال هذا الرابط. وفقًا لموقع هوم، يتم جمع البيانات المستخدمة من التفاعلات مع واجهة برمجة التطبيقات (API) وتعميمها بشكل افتراضي لتدريب نماذج الشركة، ولكن يمكنك تعطيل هذا الخيار عبر ميزة "عدم الاحتفاظ بالبيانات" في ملفك الشخصي. بالنسبة للمنتجات غير API، بما في ذلك النموذج التجريبي المرتبط أعلاه، قد تجمع الشركة واستخدم البيانات لتحسين نماذجها، ولكن يمكنك أيضًا تعطيل هذا الخيار إذا قمت بإنشاء ملف شخصي خاص بك. تطوير تقنية الأصوات الصناعية الأصوات الصناعية موجودة منذ فترة طويلة، لكنها كانت محدودة في واقعيتها. على سبيل المثال، عندما تتلقى ردودًا من سيري أو أليكسا، يكون واضحًا أنك تتعامل مع روبوت. أما الجيل الجديد من نماذج الأصوات الصناعية، مثل EVI 3، فقد تم تصميمها ليس فقط لتتحدث بلغة طبيعية، ولكن أيضًا لتقليد التأكيدات الدقيقة، والوقفات، والنبرات، والتعابير الصوتية الأخرى التي تتميز بها الكلام البشري في الحياة اليومية. فلسفة التطور وفقًا لـ آلان كاوين، الرئيس التنفيذي والعالم الرئيسي في هوم، فإن جزءًا كبيرًا من التواصل البشري يتمثل في التأكيد على الكلمات الصحيحة، والتوقيت المناسب للوقفات، واستخدام النبرة المناسبة. كتب كاوين في مدونة الشركة أن EVI 3 "تعلم الكلمات التي يجب التأكيد عليها، وما يجعل الناس يضحكون، وكيف تتفاعل اللهجات وغيرها من سمات الصوت مع المفردات". لكن العديد من خبراء الذكاء الاصطناعي يختلفون مع استخدام كلمات مثل "فهم" في هذا السياق، حيث أن هذه النماذج تتدرب فقط على الكشف وإعادة إنتاج الأنماط المستخلصة من بيانات التدريب الضخمة، وليس لديها فهم حقيقي للغة. الفوائد والمخاوف تُعتبر هذه التقنية الجديدة مثيرة للإعجاب بلا شك. عندما يتم تحفيزها، يمكنها استكشاف نطاق أوسع بكثير من التعبير الصوتي مقارنة بنماذج سابقة. تدعي شركات مثل هوم وElevenLabs أن هذه النماذج ستكون مفيدة للصناعات مثل الترفيه والتسويق. ومع ذلك، يخشى بعض الخبراء أن تفتح هذه التقنية أبوابًا جديدة للتضليل، كما حدث مؤخرًا عندما استخدم شخص مجهول الذكاء الاصطناعي لتقليد صوت وزير الخارجية الأمريكي ماركو روبيو في محاولة لخداع المسؤولين الحكوميين. مستقبل التكنولوجيا رغم النواقص الحالية لـ EVI 3، فإنها ليست سوى بداية التطور. في أقل من ثلاث سنوات، انتقلنا من الإصدار العام لـ ChatGPT إلى نماذج الذكاء الاصطناعي التي يمكنها تقليد الأصوات البشرية بشكل مقنع تقريبًا وأدوات مثل Veo 3 من غوغل التي تنتج فيديو وصوتًا واقعيًا. هذا التقدم السريع في تقنيات الذكاء الاصطناعي يجب أن يثير تفكيرنا بشكل كبير. في المستقبل، يمكن توقع أن تكون النسخ الصوتية أكثر واقعية، مما قد يتيح استخدامها في تطبيقات مثل الانضمام إلى اجتماعات زوم بدلاً من الشخص الحقيقي. من الناحية السلبية، يمكن أن تصبح هذه التقنية أداة مثالية للنصابين. تقييم الحدث يُعتبر تطور النسخ الصوتي من قبل هوم خطوة مهمة في مجال الذكاء الاصطناعي. بينما تُظهر هذه التقنية إمكانات هائلة في تحسين التفاعل البشري-الآلي، يجب أخذ المخاوف الأمنية والأخلاقية بعين الاعتبار. يؤكد سام ألتمان، الرئيس التنفيذي لشركة OpenAI، أننا نقترب من نقطة التحول الكبرى (السنغولاريتي)، ولكنها تبدو كالعمل الروتيني بالنسبة للكثيرين. نبذة عن الشركة هوم هي شركة ناشئة في مجال الذكاء الاصطناعي تركز على تطوير نماذج تواصل صوتي تتمتع بالقدرة على التقاط وتقليد العواطف والتعبيرات الصوتية البشرية. تأسست الشركة لتحقيق تقدم في تقنيات التواصل الصوتي وتقديم حلول مبتكرة للشركات والأفراد.