HyperAI

التعرف على الوجوه غير فعال في الرسوم المتحركة، لذا قامت شركة ديزني بإنشاء مكتبة للتعرف على الوجوه خصيصًا للرسوم المتحركة

特色图像

واجهت تقنية التعرف على الوجه أيضًا بعض المشاكل. يمكنه التعرف على الأشياء ثلاثية الأبعاد ولكنه غير فعال بالنسبة للأشياء ثنائية الأبعاد. يقوم الفريق الفني لشركة ديزني بتطوير هذه الخوارزمية لمساعدة رسامي الرسوم المتحركة في عمليات البحث في مرحلة ما بعد الإنتاج. استخدم الفريق PyTorch لتحسين الكفاءة بشكل كبير.

عندما يتعلق الأمر بالرسوم المتحركة، يتعين علينا أن نذكر شركة ديزني، وهي إمبراطورية تجارية تأسست عام 1923. وقد بدأت شركة ديزني كشركة للرسوم المتحركة، وهي تقود تطوير أفلام الرسوم المتحركة في جميع أنحاء العالم حتى يومنا هذا.

وراء كل فيلم رسوم متحركة، هناك العمل الجاد والعرق لمئات الأشخاص. منذ إصدار أول فيلم رسوم متحركة ثلاثي الأبعاد على الكمبيوتر "قصة لعبة"، شرعت شركة ديزني في رحلة إنشاء الرسوم المتحركة الرقمية. مع تطور تكنولوجيا CGI والذكاء الاصطناعي، شهدت أساليب إنتاج وأرشفة أفلام ديزني المتحركة أيضًا تغييرات هائلة.

استغرق إنتاج فيلم "زوتوبيا" الشهير عالميًا خمس سنوات

وفي الوقت الحالي، استوعبت شركة ديزني أيضًا عددًا كبيرًا من علماء الكمبيوتر الذين يستخدمون التكنولوجيا المتطورة لتغيير طريقة إنشاء المحتوى وتقليل العبء على صناع الأفلام وراء الكواليس.

كيف تدير شركة أفلام عملاقة عمرها قرن من الزمان المحتوى الرقمي؟

ومن المعلوم أن هناك نحو 800 موظف من 25 دولة مختلفة في استوديوهات والت ديزني للرسوم المتحركة، بما في ذلك الفنانين والمخرجين وكتاب السيناريو والمنتجين والفرق الفنية.

يتطلب صنع فيلم المرور بالعديد من العمليات المعقدة، من توليد الإلهام، إلى كتابة مخطط القصة، إلى صياغة السيناريو، وتصميم الفن، وتصميم الشخصية، والدبلجة، وتأثيرات الرسوم المتحركة، وإنتاج المؤثرات الخاصة، والمونتاج، ومرحلة ما بعد الإنتاج، وما إلى ذلك.

اعتبارًا من مارس 2021، أنتجت وأصدرت استوديوهات والت ديزني للرسوم المتحركة، المتخصصة في إنتاج أفلام الرسوم المتحركة وحدها، 59 فيلمًا رسوميًا طويلًا، ويصل عدد الشخصيات المتحركة في هذه الأفلام إلى مئات وآلاف.

سيتم استخدام البيانات المادية ذات الصلة بشخصيات الرسوم المتحركة التاريخية بشكل متكرر في التكملة وبيض عيد الفصح وتصميمات المرجع

عندما يعمل الرسامون المتحركون على تكملة أو يريدون الإشارة إلى شخصية معينة، فإنهم يحتاجون إلى البحث في أرشيف ضخم من المحتوى للعثور على شخصية أو مشهد أو كائن معين. تحقيقا لهذه الغاية،غالبًا ما يضطرون إلى قضاء ساعات في مشاهدة مقاطع الفيديو، والاعتماد فقط على أعينهم لتصفية المقاطع التي يحتاجونها.

ولحل هذه المشكلة، بدأت شركة ديزني مشروعًا يسمى "جينوم المحتوى"مشاريع الذكاء الاصطناعي،تم تصميمه لإنشاء أرشيف لمحتوى ديزني الرقمي، فهو يساعد رسامي الرسوم المتحركة على التعرف بسرعة ودقة على الوجوه في الرسوم المتحركة، سواء كانت أشخاصًا أو أشياء.

تدريب خوارزميات التعرف على الوجوه الخاصة بالرسوم المتحركة

الخطوة الأولى في رقمنة مكتبة المحتوى هي اكتشاف المحتوى في الأعمال السابقة ووضع علامة عليه لتسهيل عمليات البحث من قبل المنتجين والمستخدمين.

أصبحت تقنية التعرف على الوجه ناضجة نسبيًا بالفعل، ولكن هل يمكن استخدام نفس الطريقة للتعرف على الوجه في الرسوم المتحركة؟

وبعد إجراء التجارب، وجد الفريق الفني لـ Content Genome أن هذا كان ممكنًا فقط في ظروف معينة.

قاموا باختيار فيلمين رسوم متحركة، "إيلينا من أفالون" و"حارس الأسد"، وقاموا بشرح بعض العينات يدويًا، ووضعوا علامات على الوجوه في مئات الإطارات من الفيلم باستخدام المربعات. من خلال مجموعة البيانات الموضحة يدويًا هذه،وقد تأكد الفريق من أن تقنية التعرف على الوجوه المعتمدة على خط أنابيب HOG + SVM كان أداؤها ضعيفًا على الوجوه المتحركة (وخاصة الوجوه التي تشبه وجوه البشر ووجوه الحيوانات).

قم بإضافة تعليقات توضيحية يدويًا على وجوه الشخصيات المتحركة

بعد التحليل، أكد الفريق أن الأساليب مثل HOG+SVM قوية في مواجهة التغيرات في اللون أو السطوع أو الملمس، ولكن النماذج المستخدمة لا يمكنها مطابقة الشخصيات المتحركة إلا مع النسب البشرية (أي عينان وأنف وفم).

علاوة على ذلك، نظرًا لأن خلفية المحتوى المتحرك عادةً ما تحتوي على مناطق مسطحة وتفاصيل قليلة، فإن نموذج Faster-RCNN سوف يحدد عن طريق الخطأ أي شيء يبرز على الخلفية البسيطة على أنه وجه متحرك.

في فيلم "سيارات"، يمتلك بطلا "السباق" وجوهًا مجردة نسبيًا.،من المستحيل اكتشافه وتحديده باستخدام تقنية التعرف على الوجه التقليدية

ولذلك، قرر الفريق أنهم بحاجة إلى تقنية يمكنها تعلم مفاهيم أكثر تجريدية للوجوه.

اختار الفريق استخدام PyTorch لتدريب النموذج. قدم الفريق،باستخدام PyTorch، يمكنهم الوصول إلى نماذج مدربة مسبقًا ومتطورة لتلبية احتياجاتهم التدريبية وجعل عملية الأرشفة أكثر كفاءة.

أثناء عملية التدريب، وجد الفريق أن هناك عددًا كافيًا من العينات الإيجابية في مجموعة البيانات الخاصة بهم، ولكن لم يكن هناك ما يكفي من العينات السلبية لتدريب النموذج. قرروا تعزيز مجموعة البيانات الأولية الخاصة بهم بصور إضافية لا تحتوي على وجوه متحركة، ولكنها تحتوي على ميزات متحركة.

ولكي نتمكن من القيام بذلك من الناحية الفنية،  قاموا بتوسيع نطاق تنفيذ Faster-RCNN الخاص بـ Torchvision للسماح بتحميل العينات السلبية أثناء التدريب دون تعليقات توضيحية.

وهذه أيضًا ميزة جديدة قام الفريق بإنشائها لإصدار Torchvision 0.6 تحت إشراف مطوري Torchvision الأساسيين.إن إضافة أمثلة سلبية إلى مجموعة البيانات يمكن أن يقلل بشكل كبير من النتائج الإيجابية الخاطئة في وقت الاستدلال، مما يؤدي إلى نتائج متفوقة.

يؤدي استخدام PyTorch لمعالجة مقاطع الفيديو إلى زيادة الكفاءة بمقدار 10 مرات

بعد تحقيق التعرف على الوجه للشخصيات المتحركة، فإن الهدف التالي للفريق هو تسريع عملية تحليل الفيديو، وتطبيق PyTorch يمكن أن يؤدي إلى موازاة وتسريع المهام الأخرى بشكل فعال.

قدم الفريق:كما أن قراءة وفك تشفير الفيديو يستغرق وقتًا طويلاً، لذا استخدم الفريق مجموعة بيانات PyTorch IterableDataset مخصصة، جنبًا إلى جنب مع DataLoader الخاص بـ PyTorch، للسماح بقراءة أجزاء مختلفة من الفيديو باستخدام وحدات المعالجة المركزية المتوازية.

يتم استخراج الفيديو إلى إطارات I، والتي يتم تقسيمها إلى أجزاء مختلفة.،يقوم كل عامل في وحدة المعالجة المركزية بقراءة كتلة مختلفة

تعتبر هذه الطريقة لقراءة الفيديو سريعة جدًا بالفعل، لكن الفريق حاول أيضًا إكمال جميع الحسابات بقراءة واحدة فقط. لذا، قاموا بتنفيذ معظم خط الأنابيب في PyTorch وأخذوا في الاعتبار تنفيذ وحدة معالجة الرسوميات. يتم إرسال كل إطار إلى وحدة معالجة الرسومات مرة واحدة فقط، ثم يتم تطبيق جميع الخوارزميات على كل دفعة، مما يقلل الاتصال بين وحدة المعالجة المركزية ووحدة معالجة الرسومات إلى الحد الأدنى.

كما استخدم الفريق PyTorch لتنفيذ خوارزميات أكثر تقليدية، مثل كاشف اللقطات، الذي لا يستخدم الشبكات العصبية ويقوم بشكل أساسي بعمليات مثل تحويل مساحة اللون، والمخططات البيانية، وتحليل القيمة المفردة (SVD). لقد مكّن PyTorch الفريق من نقل العمليات الحسابية إلى وحدة معالجة الرسوميات بأقل تكلفة وإعادة تدوير النتائج الوسيطة المشتركة بين خوارزميات متعددة بسهولة.

باستخدام PyTorch، قام الفريق بنقل جزء وحدة المعالجة المركزية إلى وحدة معالجة الرسومات واستخدم DataLoader لتسريع قراءة الفيديو، والاستفادة الكاملة من الأجهزة وفي النهاية تقليل وقت المعالجة بمقدار 10 مرات.

وخلص مطورو الفريق إلى أن المكونات الأساسية لـ PyTorch، مثل IterableDataset وDataLoader وTorchvision، تسمح للفريق بتحسين تحميل البيانات وكفاءة الخوارزمية في بيئات الإنتاج. من الاستدلال إلى موارد تدريب النموذج إلى مجموعة أدوات تحسين خط الأنابيب الكاملة، يختار الفريق بشكل متزايد استخدام PyTorch.

تم تجميع هذه المقالة ونشرها بواسطة الحساب الرسمي لمجتمع مطوري PyTorch