HyperAI

في المستقبل، قد لا يحتاج حفل مهرجان الربيع إلى مضيف مباشر.

بقلم سوبر نيرو

في حفل مهرجان الربيع عبر الإنترنت لعام 2019 في 28 يناير، صعد مضيف افتراضي للذكاء الاصطناعي على المسرح لاستضافة العرض. وأعلن سا بينينج، بصفته أحد المضيفين على نفس المسرح مع البديل الذكاء الاصطناعي، على الفور أنه مستعد "للتقاعد". هل حان الوقت حقًا للذكاء الاصطناعي ليحل محل المضيفين؟

في حفل مهرجان الربيع عبر الإنترنت هذا العام، ظهر أربعة مضيفين افتراضيين لأول مرة، وهم سا بينينج، وتشو شون، وغاو بو، ولونج يانج على التوالي. لقد تقاسم جميع المضيفين الأربعة المسرح مع مضيفين افتراضيين خاصين بهم، مما أضاف الكثير من المرح إلى الحفل.

انتقل إلى المشاهدة: أربعة مضيفين افتراضيين

كما هو واضح من الفيديو، هناك تشابه كبير بين المضيف الافتراضي للذكاء الاصطناعي والمضيف الحقيقي. بالإضافة إلى كونهم جيدين مثل البشر في الإجابة على الأسئلة وإبداء التعليقات الذكية، فإن لديهم أيضًا لغة جسد مقابلة، كما أن كل مضيف افتراضي لديه خصائص تعبير مختلفة.

ما هو المضيف الافتراضي؟

يقال إن المضيف الافتراضي الذي ظهر في حفل الربيع على الإنترنت هذه المرة كان PAI (الذكاء الاصطناعي الشخصي) الذي أنشأته ObEN، والذي يمكنه إنشاء نموذج مرآة افتراضية بناءً على صورة الشخص.

تتمثل التقنيات الأساسية لهذا المنتج بشكل رئيسي في ثلاثة جوانب:

أولاً، يتم إنشاء الصورة المرئية. باستخدام صورة المضيف، والماسحات الضوئية ثلاثية الأبعاد، و3DS MAX، وMAYA وأدوات النمذجة ثلاثية الأبعاد الأخرى، تقوم الذكاء الاصطناعي ببناء نموذج خوارزمي لفهم العلاقة بين توزيع الألوان والعمق البنيوي للصورة، وأخيرًا بناء شكل الوجه والجسم.

والخطوة التالية هي تركيب الأصوات. لا تتطلب تقنية الصوت الذكاء الاصطناعي التي يستخدمونها جمع عدد كبير من مكتبات الصوت. لا يتطلب الأمر سوى عشرات التسجيلات الصوتية أو نحو ذلك. يمكن إنشاء نموذج الصوت من خلال استخراج معلمات الميزة والتعلم الانتقالي وطرق أخرى.

وأخيرًا، اجعل المضيف الافتراضي واقعيًا قدر الإمكان. ويتطلب هذا ليس فقط أن تتطابق العناصر المرئية مع الأصوات، بل أيضًا أن تكون مخصصة. من خلال أجهزة الاستشعار وأجهزة تتبع الحركة، جنبًا إلى جنب مع تدريب الذكاء الاصطناعي والتقاط الحركة، يمكن للمضيف الافتراضي محاكاة التعبيرات الشفهية وتعبيرات الوجه والإيماءات وحركات الجسم وتفاعلات المشهد وفقًا للكيان المقابل.

على الرغم من أن هذه هي المرة الأولى التي تنتقل فيها الذكاء الاصطناعي إلى الاستضافة، فقد شهدنا عددًا لا بأس به من المذيعين الافتراضيين للذكاء الاصطناعي في العالم.

أول مذيع أخبار بالذكاء الاصطناعي

في مؤتمر الإنترنت الخامس الذي عقد في نوفمبر 2018، عرضت وكالة أنباء شينخوا مراسلاً جديدًا، وهو أول مذيع أخبار افتراضي باستخدام الذكاء الاصطناعي. قال تشيو هاو، النموذج الأولي للذكاء الاصطناعي: "الصورة هي صورتي، والصوت مناسب لصوتي أيضًا، لكنني لم أقل هذه الكلمات أبدًا في البث..."

انتقل إلى المشاهدة، مذيع الذكاء الاصطناعي الافتراضي

في هذا الفيديو، يمكننا أن نرى المضيف في الفيديو يقدم نفسه بلهجته، ويقوم وجهه وشفتيه بحركات متوافقة مع الصوت. يجب أن أقول، كانت هناك مفاجآت، لكنني مازلت أشعر بخيبة أمل قليلاً. بالمقارنة مع المراسي في الحياة الواقعية، يمكن للناس أن يخبروا من النظرة الأولى أنها منتج ميكانيكي. لا تزال الطريقة التي تعمل بها تتطلب من البشر كتابة البيانات الصحفية. لكن

يأتي هذا النوع من الدعم الفني من "تكنولوجيا الاستنساخ" الخاصة بشركة Sogou. إن المفتاح وراء هذه التكنولوجيا يكمن في جزأين: تركيب الكلام وتوليد الصورة.

يمكن لتقنية تركيب الكلام استخدام كمية صغيرة من البيانات الصوتية للسماح لنموذج الآلة بتعلم خصائص التحدث الخاصة بكائن الإدخال، وفهم الجرس والإيقاع والعاطفة والجوانب الأخرى، وتحقيق المعلومات الصوتية للنص المدخل في النهاية.

يستخدم إنشاء الصور التعلم والبناء في جوانب مثل التعرف على الوجه وإعادة بناء الوجه ثلاثي الأبعاد ونمذجة التعبير، مما يؤدي في النهاية إلى تحقيق التوافق بين الصوت الناتج والمعلومات المرئية الناتجة.

وبغض النظر عن هذه الانتقادات، فإن أكبر نقطة ترويجية لهذه التكنولوجيا هي أنها تستطيع تحقيق وظيفة الاستنساخ على الشاشة، وهو ما يعني أنه بإمكانك استخدام التلفزيون والكمبيوتر اللوحي والهاتف المحمول لمشاهدة شخص واحد يبث ثلاثة محتويات مختلفة في نفس الوقت.

مراسي الذكاء الاصطناعي السابقة

وكانت هناك تقارير في اليابان في وقت سابق تفيد بأنهم صنعوا أيضًا مرساة الذكاء الاصطناعي.

في أبريل/نيسان من العام الماضي، كان مقدم برنامج "NEWS CHECK 11" على محطة NHK التلفزيونية اليابانية هو مذيع أخبار ذكي لطيف من نوع "News Anchor Yomiko".

تم إنشاء هذا المرساة باستخدام تقنية CG. لقد تعلم تقسيم عدد كبير من التسجيلات إلى أصوات، ثم تعلم التعرف على النصوص وقراءتها، وأخيرًا استخدمها لقراءة الأخبار.

بالإضافة إلى ذلك، تم استخدام الروبوتات أيضًا كمذيعين للأخبار.

كما عمل الروبوت الجميل "إليكا" الذي طورته جامعة أوساكا وجامعة كيوتو كمذيع أخبار لقناة NNN التلفزيونية اليابانية في أبريل 2018.

شخصية "إليكا" هي فتاة جميلة تبلغ من العمر 23 عامًا. تم منحها وجهًا أنثويًا قياسيًا وتم تصنيع صوتها بناءً على تسجيل الممثل الصوتي، والذي يمكن وصفه بأنه طبيعي للغاية.

بالإضافة إلى ذلك، فإنه يحتوي أيضًا على نظام حوار متقدم. عند التحدث مع الأشخاص، فإنه يجمع المعلومات من خلال الميكروفونات وأجهزة الاستشعار، ويدرك صوت الطرف الآخر وحركاته، ثم يتحول إلى الطرف الآخر ويجري محادثة سلسة.

يمكن لعينيها وفمها ورقبتها و19 جزءًا آخر التحرك عبر ضغط الهواء لإظهار مجموعة متنوعة من التعبيرات، كما يمكنها أيضًا القيام ببعض الحركات البسيطة، والتي تشبه الحياة جدًا.

متى سيتم استبدال المضيف؟

بالعودة إلى حفل مهرجان الربيع عبر الإنترنت، حظي ظهور المضيفين الافتراضيين الأربعة المشاغبين باهتمام كبير، ومن موقف الجمهور، يمكن ملاحظة أنهم يحبونهم كثيرًا.

فهل ستكون هذه فرصة لتسريح المضيف؟ ربما لا شياو سا ولا شياو شياو سا سيوافقان.

أما فيما يتعلق باللهجة وتعبيرات الوجه المحرجة في البث المباشر للأخبار باستخدام الذكاء الاصطناعي، فلا يزال هناك مجال للتحسين. ولكن روبوتات البث الإخباري التي كانت شائعة في اليابان لم تتمكن بعد من استبدال صناعة الصحافة المحلية على نطاق واسع. على الأكثر، لا تزال في المستوى المساعد والجديد.

ومن هذا المنظور، فإن التقدم التكنولوجي يجلب لنا تجارب جديدة ورائعة، ولكن ربما في عصر كهذا، تصبح الحيل أسرع من الواقع.

ربما يأتي يوم الاستبدال في نهاية المطاف، لكنه بالتأكيد ليس اليوم. ينبغي لنا أن نصدق أنه عندما يأتي ذلك اليوم حقًا، ربما يكون البشر قد اكتشفوا بالفعل كيفية التعامل مع الذكاء الاصطناعي. خلال مهرجان الربيع في ذلك الوقت، لن نرى الذكاء الاصطناعي يستضيف حفل مهرجان الربيع فحسب، بل سنرى أيضًا الذكاء الاصطناعي يؤدي العروض. أما بالنسبة لنا، فكل ما علينا فعله هو فتح أفواهنا وانتظار الذكاء الاصطناعي ليطعمنا.

أما بالنسبة لنا، فكل ما علينا فعله هو فتح أفواهنا وانتظار الذكاء الاصطناعي ليطعمنا.

في المستقبل، قد لا يحتاج حفل مهرجان الربيع إلى مضيف مباشر.