من يريد أن يعيش في مستقبل حيث يتم تقليد صوتك بشكل مثالي بواسطة الذكاء الاصطناعي؟

لا تقلق، فالتكنولوجيا ليست مقنعة بعد...
أوه، ولكنني لا أزال أشعر بالقلق قليلا.
يمكن لبرامج الذكاء الاصطناعي تقليد صوت شخص ما مثل صوت الزرزور بمجرد الاستماع إليه عدة مرات، وفقًا لدراسة نشرها باحثون في بايدو.
إذا تم تطوير هذه التكنولوجيا، فمن الممكن استخدامها لإنشاء مقاطع صوتية مزيفة يقول فيها الأشخاص أشياء لم يقولوها في الواقع.
هل هذا يجعلك تشعر بالخوف قليلا؟
يتميز فريق الذكاء الاصطناعي في Baidu بعمله في تطوير الكلام الواقعي. يُظهر مشروع بحثي نُشر مؤخرًا كيف يمكن للنموذج أن يتعلم خصائص صوت الشخص ويولد محتوى لم يقله الشخص أبدًا.
ومع ذلك، كانت أفضل إصدارات المقاطع المنتجة من النموذج لا تزال صاخبة للغاية وذات جودة أقل من الكلام الأصلي. لكن "نظام الاستنساخ العصبي" الذي طوره الباحثون نجح في الحفاظ على اللهجة البريطانية والصوت المتشابه إلى حد كبير.
هناك طريقتان مختلفتان لبناء نظام استنساخ عصبي: تكييف المتحدث وترميز المتحدث.
تتضمن تقنية تكييف اللغة المنطوقة تدريب النموذج على التحدث مع أشخاص مختلفين بأصوات مختلفة. وقد نجح الفريق في تحقيق ذلك باستخدام قاعدة بيانات LibriSpeech، التي تحتوي على 2484 مصدرًا صوتيًا مختلفًا. يتعلم النظام كيفية استخراج السمات من الكلام البشري لمحاكاة التفاصيل الدقيقة لنطقه وإيقاعه.
تتضمن تقنيات ترميز الكلام المنطوق تدريب نموذج لتعلم تضمينات كلامية محددة من مجموعة من المتحدثين وإعادة إنتاج عينات الصوت في نظام منفصل تم تدريبه مسبقًا على العديد من الأشخاص.
بعد تدريب LibriSpeech، يتم استرجاع عشر عينات صوتية لمتحدث عشوائي من قاعدة بيانات أخرى. تحتوي مجموعة بيانات VCTK على مقاطع من 109 متحدثين أصليين للغة الإنجليزية بلهجات مختلفة. بشكل أساسي، بعد التدريب على مجموعة بيانات LibriSpeech، يجب نسخ الأصوات الجديدة من مجموعة بيانات VCTK.
وقال سيركان أريك، أحد المشاركين في إعداد الدراسة وباحث علمي في شركة بايدو للأبحاث، إن ترميز اللغة المنطوقة أسهل في التنفيذ في تطبيقات الحياة الواقعية مثل المساعدين الرقميين مقارنة بتكييف المتحدث.
يتطلب تكييف اللغة المنطوقة من المستخدم قراءة عبارات محددة من نص معين، بينما يُعد ترميز المتحدث عبارات عشوائية. هذا يعني أن تكييف اللغة المنطوقة لن يُستخدم على أجهزة المستهلكين على المدى القصير، نظرًا لصعوبة توسيع نطاقه ليشمل قاعدة مستخدمين أوسع. في المقابل، يُعد ترميز المتحدث أسهل في الاستخدام، نظرًا لسرعته وقلة استهلاكه للذاكرة، ويمكن استخدامه حتى على الهواتف الذكية.
تشعر الصناعة بقلق بالغ بشأن ما إذا كانت تقنية الذكاء الاصطناعي سيتم التلاعب بها ونشر معلومات كاذبة.
تظهر أحدث الأبحاث التي أجراها محرك البحث بايدو أنه على الرغم من إمكانية إنتاج كلام مزيف، إلا أن الأداء الحالي ليس جيدًا بما يكفي لخداع البشر.
تعد مجموعات البيانات الأكثر تنوعًا إحدى الطرق لتحسين النتيجة النهائية، ولا تزال نماذج التعلم العميق لاستنساخ الصوت نفسها تحتوي على بعض مجال التحسين.
ولكن ليس كل الأخبار سيئة. في الواقع، يمكن لتقنية استنساخ الصوت أن تفعل الكثير من الأشياء الجيدة.
يمكن للأم تكوين جهاز قراءة الكتب الصوتية بصوتها الخاص لقراءة القصص قبل النوم لطفلها عندما لا تتمكن من القراءة للطفل شخصيًا.
ومع ذلك، مع استمرار تحسن هذه التكنولوجيا وانتشارها على نطاق أوسع، يتعين علينا اتخاذ الاحتياطات اللازمة لضمان عدم استغلال هذه التكنولوجيا واستخدامها على النحو المقصود.
ترجم من: مدونة كاتيانا كواش: https://www.theregister.co.uk/2018/02/22/ai_human_voice_cloning/