HyperAI

استفاد موظفو Google في البداية من أداة التعرف على الصوت

特色图像

أصدر فريق Google Brain مؤخرًا مشروع Parrotron لمساعدة الأشخاص والأجهزة على فهم الأشخاص الذين يعانون من اضطرابات الكلام بشكل أكثر دقة. يبدأ Parrotron بتحليل الصوت ويحل المشكلة من منظور إشارات الصوت. يستخدم تدريبًا شاملاً للشبكة العصبية العميقة من البداية إلى النهاية لتحويل الكلام مباشرة من الأشخاص الذين يعانون من ضعف الكلام إلى كلام اصطناعي سلس، وبالتالي مساعدتهم في حل مشاكل الاتصال.

ولد ديمتري كانيفسكي في روسيا في الخمسينيات من القرن العشرين. نشأ في فترة الحرب الباردة بين الصين والاتحاد السوفييتي، لكنه أكمل دراسته وحصل على درجة الدكتوراه في الرياضيات.

بدأت رحلة دراسته وعمله في روسيا، ثم انتقل إلى إسرائيل وألمانيا. وأخيرًا اختار البقاء في الولايات المتحدة وأصبح باحثًا علميًا في جوجل، وركز على مجال خوارزميات التعرف على الكلام.

يبدو أن هذا هو مسار حياة النخبة الأكاديمية: الحصول على تعليم جيد، والحصول على البطاقة الخضراء الأميركية، ووظيفة مرموقة، و152 براءة اختراع علمية وتكنولوجية أميركية، وأخيراً الوصول إلى قمة الحياة في وادي السيليكون.

القصة ليست بسيطة على الإطلاق. ديمتري كانيفسكي ليس شخصًا عاديًا. ويجد معظم الناس صعوبة في تصور أنه ينتمي أيضًا إلى مجتمع ضعاف السمع.

أصبح ديمتري كانيفسكي أصمًا بسبب تناوله دواءً عندما كان عمره عامًا واحدًا، لكن عائلته اختارت له تعليمًا عاديًا. بدأ تعلم قراءة الشفاه والنطق منذ أن كان طفلاً وكان يذهب إلى المدارس العادية. وفي سنوات مراهقته، بدأ يتعلم اللغة الإنجليزية بمساعدة النطق الروسي.

ومع ذلك، عندما تعلم اللغة الإنجليزية، واجه عقبات كبيرة في التواصل اللغوي بسبب ضعف السمع واختلاف النطق باللغة الروسية. وكانت الجمل التي قالها غامضة إلى حد ما، وغالبا ما كانت غير مفهومة للطرف الآخر. حتى الرعاية اللفظية قد لا يتم تقديمها لعائلتك.

وببساطة، فإن معظم الناس يجدون صعوبة في فهم اللغة الإنجليزية التي يتحدث بها بشكل مباشر. من أجل حل مشكلته ومساعدة المزيد من الأشخاص الذين يواجهون مشاكل مماثلة، عمل ديمتري كانيفسكي على موضوع التعرف على الكلام.

في بعض الأحيان، ولإتمام بعض الاتصالات العادية، يحتاج ديمتري كانيفسكي إلى استخدام أدوات تحويل الكلام إلى نص

في الطب تسمى هذه الحالة من الكلام غير الواضح "عسر التلفظ".وفقا للإحصائيات،يعاني ما يصل إلى مليون شخص حول العالم من عسر التلفظ بسبب مرض جسدي.

عسر التلفظ هو اضطراب في الكلام يحدث بسبب اعتلال الأعصاب، أو شلل العضلات المرتبطة بالكلام، أو ضعف قوة الانقباض أو عدم تنسيق الحركات، والمعروف باسم "الكلام غير الواضح".

على سبيل المثال، السكتة الدماغية، الشلل الدماغي، مرض باركنسون، متلازمة داون، التصلب الجانبي الضموري والعديد من الأمراض الأخرى يمكن أن تسبب هذه الحالة.

قال الشخص الآخر الكثير من الكلام غير المفهوم، ولكن كل ما سمعته كان سلسلة من الأصوات الطنانة والمواء...

وفي شركة جوجل أيضًا، تم تشخيص إصابة مديرة تسويق العلامة التجارية أوبري لي بمرض ضمور العضلات النادر (ALS)، وهو ما تسبب في قضائها الكثير من الوقت على كرسي متحرك.

كما أن فقدان كتلة العضلات بشكل مستمر في جميع أنحاء جسدها تسبب لها أيضًا صعوبات في التواصل. عانت أوبري من مشاكل في السمع والنطق، وكثيراً ما كان الناس يساء فهمها لأنها لم تكن قادرة على الابتسام. بالإضافة إلى ذلك، لديها لهجات متعددة ونطقها غير واضح، لذلك غالبًا ما لا يستطيع الطرف الآخر فهم ما تعنيه أثناء المحادثات.

من أجل مساعدة الزملاء مثل ديمتري كانيفسكي وأوبري لي في حل مشكلاتهم اللغوية، أصبحت صعوبات النطق تدريجيًا اتجاهًا بحثيًا علميًا لفريق أبحاث الذكاء الاصطناعي في Google.

رعاية الأشخاص الذين يعانون من حواجز لغوية،جوجل تطلق أداة رائدة

قبل بضع سنوات، عندما انضم كانيفسكي إلى مجموعة أبحاث الذكاء الاصطناعي في جوجل بخبرة 30 عامًا في التعرف على الكلام، لم تكن هناك أدوات ملائمة تسمح له بالتواصل بشكل طبيعي مع الآخرين. بالنسبة لكل اجتماع، يحتاج كانيفسكي إلى حجز خدمة CART مسبقًا والاعتماد على كاتب التعليقات الصوتية للدخول إلى الاجتماع وكتابة الرسالة الصوتية على الشاشة للمحادثة.

وعلى نحو مماثل، يتعين على أوبري وزملائها أيضًا بذل الكثير من الجهد لإتمام اتصالات العمل التي يستطيع الأشخاص العاديون القيام بها بسهولة. لكن هذه المعضلة أصبحت شيئا فشيئا جزءا من التاريخ.

في فبراير 2019، أطلقت جوجل تطبيقًا——النسخ المباشر ، مما يجلب الأمل إلى ترجمة اللغة المحمولة. إنه تطبيق يقوم بنسخ الكلام الحقيقي على الفور، باستخدام الميكروفون المدمج في الهاتف لتحويل الكلام إلى نص يتم عرضه في الوقت الحقيقي.

ثم في مؤتمر Google I/O في شهر مايو، مشروع النشوة  تم اقتراح أن يوفر هذا البرنامج حلاً لتحويل الكلام إلى نص للأشخاص الذين يعانون من ضعف اللغة الناجم عن مرض التصلب الجانبي الضموري.

في مشروع Euphoria، تقوم Google بتدريب نماذج الذكاء الاصطناعي للتكيف مع الحواجز اللغوية

أطلقت شركة جوجل هذا الشهر أداة ذكاء اصطناعي جديدة تدعى Parrotron، يمكنها تحويل الأصوات الغامضة مباشرة إلى أصوات اصطناعية قياسية.وهذا يأخذ تكنولوجيا التغلب على الحواجز اللغوية إلى خطوة أبعد.

باروترون بواسطةالشبكة العصبية العميقة من البداية إلى النهايةويبدأ الأمر من منظور تحليل الصوت. عند الاستخدام، يتحدث المختبر إلى هاتف محمول أو جهاز آخر ويمكنه الحصول بسرعة على النطق القياسي بعد إعادة سرده.

في الورقة "باروترون: نموذج تحويل الكلام من طرف إلى طرف وتطبيقاته على الكلام وفصل الكلام لدى ضعاف السمع"وفي الدراسة، حقق باروترن أداءً جيدًا، مع تحقيق اختراقات جديدة في دقة التعرف على الكلام وتحويله.

عنوان الورقة: https://arxiv.org/abs/1904.04169

باروترون: ترجمة الكلمات الغامضة إلى كلام واضح

فكيف تم تحقيق هذه التكنولوجيا التي تبدو عالية التقنية؟

Parrotron هو نموذج تسلسلي من البداية إلى النهاية تم تدريبه باستخدام مجموعة متوازية من أزواج الكلام المدخلة/المخرجة لربط الكلام الغامض بالجمل العادية..

مخطط تدفق هيكل الباروترون

يتكون نموذج الشبكة من مشفر وفك تشفير مع آلية انتباه، وأخيرًا يقوم مشفر الصوت بتوليف شكل موجة المجال الزمني لتوفير إشارة صوتية متوقعة.

يقوم المشفر بتحويل سلسلة من الإطارات الصوتية إلى تمثيل للميزة الكامنة، ويقوم فك التشفير بتحليل التمثيل للتنبؤ بالطيف.

تنقسم العملية إلى خطوتين:أولاً، نقوم ببناء نموذج تحويل الكلام إلى كلام للصوت السلس القياسي، ثم نقوم بتعديل معلمات النموذج لأخذ الكلام الضبابي كمدخل حتى يتمكن النموذج من تعلم التمييز والتعرف.

كانيفسكي وموظف آخر يستخدمان باروترون

من أجل محاكاة خصائص الكلام لدى مرضى التصلب الجانبي الضموري، استخدموا مجموعة خطابات التصلب الجانبي الضموري من مشروع Euphonia وأنشأوا جملًا غامضة عن طريق تجميع اللغة كبيانات تدريبية.

بالنسبة لأفراد محددين، يتم توفير المواد المسجلة من قبل الفرد نفسه.

بعد التدريب،يمكن لنماذج التحويل أن تقضي على عوامل التشتيت في اللغة، مثل تأثيرات التوتر والإيقاع والضوضاء الخلفية؛وفي الوقت نفسه، تجاهل كل التدخلات غير اللفظية، بما في ذلك خصائص المتحدث، والعوامل البيئية، وأسلوب التحدث، وتحليل ومعالجة محتوى المحادثة فقط.

أول اختبارين لـ Parrontron: لا يوجد أي تشويق

ولكي نتحقق من التأثير الفعلي لباروترون، يتعين علينا بطبيعة الحال أن نرى كيفية أدائه في الممارسة العملية. ومن المؤكد أن أفضل المرشحين للاختبار هم ديمتري كانيفسكي وأوبري لي.

في التجربة، سجل ديمتري مجموعة من النصوص مدتها 15 ساعة وترك النموذج يتعلم التفاصيل الدقيقة لكلامه. ومن خلال التعلم يكون النموذج في الترجمة النهائية،تم تقليل معدل خطأ الترجمة في مجموعة الاختبار من 89% في البداية إلى 32%  .

بمعنى آخر، باستخدام الكلام المنقول بواسطة Parrotron، يمكن للطرف الآخر أو نظام ASR (التعرف على الكلام) أن يفهمه بسهولة.

تفاصيل استخدام كانيفسكي لباروترون

وفي وقت لاحق، أجرى أوبري لي أيضًا اختبارًا.خلال ساعة ونصف من الكلام الذي ساهمت به، قامت العارضة بترجمة الكلام الدقيق، مما سمح لها بالتعبير عن نفسها بوضوح..

 الذكاء الاصطناعي من أجل الصالح الاجتماعي: مهمة الذكاء الاصطناعي

تم اقتراح مشاريع إمكانية الوصول التي تم إنشاؤها بواسطة الذكاء الاصطناعي بشكل متكرر في السنوات الأخيرة. لقد ظهرت العديد من التقنيات الرعائية لمساعدة الأشخاص ذوي الإعاقة على فتح أبواب جديدة.

وبطبيعة الحال، في حين تخدم التكنولوجيا هؤلاء الأشخاص، فإنها مدفوعة أيضًا بهذه المجموعات الخاصة. على سبيل المثال، كان ديمتري كانيفسكي، الذي يدرك جيدًا الصعوبات التي تسببها عسر التلفظ، ملتزمًا بالبحث في مجال التعرف على الكلام والتواصل. تستخدم أوبري لي موقفها العاطفي والقوي تجاه الحياة لإلهام وحث المزيد من الاستثمار البحثي في الأشخاص ذوي الإعاقة.

أوبري هي أيضًا فنانة ومصممة متعددة التخصصات تنشط على منصات متعددة وتناضل من أجل حقوق الأشخاص ذوي الإعاقة.

على الرغم من أن البيانات الحالية تظهر أن الوضع ليس متفائلا:واحد فقط من كل عشرة أشخاص من ذوي الإعاقة في جميع أنحاء العالم لديهم إمكانية الوصول إلى أدوات التكنولوجيا. ولكن لحسن الحظ، فإن الكثير من ذلك يتغير، مع تحقيق بعض التقدم الواعد.

باعتبارها شركة عملاقة في مجال التكنولوجيا، لا تزال جوجل تنفذ الذكاء الاصطناعي من أجل الصالح الاجتماعيومن المحتمل أن تكون الخطط والأدوات مثل Parrotron بمثابة الخطوات نحو تحقيق هذه الرؤية الجميلة.

في الوقت الذي تجتاح فيه تكنولوجيا الذكاء الاصطناعي العالم، فقد شهدنا تحول الذكاء الاصطناعي وإبداعه في الفن، وتعزيزه الإيجابي للحياة الاجتماعية، ولكننا رأينا أيضًا بعض الأشخاص يستخدمون الذكاء الاصطناعي لتغيير الوجوه بشكل خبيث، والربط، وإنشاء أشياء من العدم.

آمل أن يعود الذكاء الاصطناعي إلى غرضه العلمي الأصلي، ويساعد المزيد من الأشخاص المحتاجين، ويجعل العالم مكانًا أفضل!

-- زيادة--