5 مليارات مشاهدة، 17 مليون شخص شاركوا في "Transformation Comics"، فريق Douyin قبل مقابلة مع CSDN

في السنوات الأخيرة، أصبحت تطبيقات تحرير الصور وتجميلها وإضافة المؤثرات الخاصة تحظى بشعبية كبيرة بين المستخدمين. في الآونة الأخيرة، أصبحت المؤثرات الخاصة الجديدة "التحول إلى القصص المصورة" في Douyin موضوعًا ساخنًا مرة أخرى. ما هي التقنيات الرئيسية وراء هذا الانفجار في الشعبية؟
المحرر: نيورو شياوكسي
تم تجميع المحتوى من CSDN وByteFan (الرابط مرفق في نهاية المقال)
في الآونة الأخيرة، أصبح تأثير "التحول إلى الرسوم الهزلية" الخاص على TikTok شائعًا، ولا يستطيع الجميع، من المارة إلى المشاهير، إلا تجربته.
في ثانية واحدة فقط، يمكنك رؤية نفسك في عالم ثنائي الأبعاد، بعيون دامعة كبيرة وبشرة فاتحة، وتبدو مليئًا بالطاقة.


حتى الآن، قام أكثر من 17.7 مليون مستخدم على Douyin بإنشاء مقاطع فيديو باستخدام المؤثرات الخاصة "التحول إلى القصص المصورة"، وقد جمعت هذه السلسلة من مقاطع الفيديو 5.67 مليار مشاهدة.
الإلهام من العام الماضي، باستخدام GAN لتحقيق اختراق
على الرغم من أن هذا التأثير الخاص سهل الاستخدام ولا يستغرق التحويل سوى ثانية واحدة، إلا أن النجاح في الواقع هو نتيجة لبحث وتطوير وصقل طويل الأمد من قبل فريق فيديو Douyin.
في عام 2018، أنشأت شركة ByteDance فريقًا متخصصًا في التصوير.إنه يدعم تلميع سلسلة المنتجات بأكملها بما في ذلك Tik Tok وVolcano وQingyan، بما في ذلك الاستكشاف طويل الأمد للعب بأسلوب واقعي، ويسعى جاهداً لإنشاء تأثيرات خاصة بشكل مستمر تجذب المستخدمين.

وقد أجرت وسائل الإعلام التكنولوجية CSDN مقابلة مع الفريق المعني في أقرب وقت ممكن، ونقلنا جزءًا منها:
جاءت فكرة مشروع "Transformation Comics" الذي تم إطلاقه هذه المرة من اجتماع عصف ذهني عقد قبل عام تقريبًا.
لقد تعلمت أنه خلال جلسة العصف الذهني،تم طرح فكرة "تحويل شخص حقيقي إلى وجه كرتوني في ثوانٍ".لقد أثارت الفكرة حماس الفريق.
افعل ما تقوله في سبتمبر 2019، نجح فريق فيديو Douyin بسرعة في إشراك زملاء من البحث والتطوير والتصميم ومجالات أخرى للحصول على الدعم التعاوني للمشاركة.
التكنولوجيا الرئيسية المستخدمة في المؤثرات الخاصة لتحويل القصص المصورة التي أطلقها TikTok هذه المرة لا تزال GAN، ولكن هناك أيضًا بعض الاختلافات مقارنة بالماضي.أضاف الفريق محاولات جديدة تعتمد على GAN.
في الواقع، قبل الاختيار النهائي للتكنولوجيا، قامت شركة Douyin للمؤثرات الخاصة بالقصص المصورة في الوقت الفعلي بمقارنة عدد كبير من أساليب التكنولوجيا الحالية، بما في ذلك أساليب توليد القصص المصورة، مثل ugatit، وطرق المهام الأخرى، مثل MUNIT.
ومع ذلك، وجد البحث أنهناك بعض المشاكل مع شبكات GAN الحالية المستخدمة لمهام مثل إنشاء القصص المصورة ونقل الأسلوب.
أولاً، التدريب غير مستقر. ثانياً، حتى التعديل البسيط للمعلمات الفائقة قد يكون له تأثير كبير على النتائج. علاوة على ذلك، فمن السهل مواجهة مشكلة اختفاء التدرج.
في هذا الصدد،تتمثل خطة تحسين Douyin في تجربة خسائر متعددة، بما في ذلك WGAN وLSGAN وما إلى ذلك.ولكن لا يوجد حل سحري حتى الآن، لذا فمن الضروري مراقبة التغيرات في التدرجات أثناء التجربة.

وقال الفريق الفني لشركة دوين أيضًا إنه في عملية استكشاف تقنية الفيديو الكوميدي، واجه الفريق الفني العديد من النكسات في المحاولات الأولية. في البحث الأولي المبكر، كانت النسخة الناتجة مختلفة تمامًا عن نسخة الصورة، ولم يكن الأداء يفي بالمعايير.
بعد عدة محاولات غير مرضية، بدأ الفريق يشك في جدوى القصص المصورة في الوقت الحقيقي.
ولكن لحسن الحظ، وبعد عدة محاولات فاشلة، أشار شخص ما إلى المفتاح عند تلخيص التجربة:كانت النماذج السابقة تحتوي على بنية واحدة، ولم تكن مزايا وعيوب النماذج المختلفة متسقة تمامًا.
ثم،قام الفريق الفني بتجربة طريقة تطعيم النماذج، باستخدام وحدات مختلفة لربط نماذج جديدة، مما أدى إلى تحسين جودة إنتاج القصص المصورة بشكل كبير.

بعد استيفاء معايير الجودة، تم تقليص النموذج عن طريق حساب أهمية كل طبقة، وأخيراً تم تحديد بنية النموذج في الوقت الحقيقي.
ويشارك فريق منتج الأداء أيضًا في ضبط أداء النموذج، ويلخص العلاقة الكمية بين المعلمات والتأثيرات، ويحسن النموذج من خلال ضبط المعلمات بدقة. وأخيرًا، ولد هذا المنتج الناجح.
هناك العديد من الصعوبات في التحويل في الوقت الحقيقي إلى القصص المصورة. كيف نتغلب عليها؟
أحد الجوانب الأكثر جاذبية في "Transformation Comics" هو التحول في الوقت الحقيقي.
لذا، بالمقارنة مع معالجة الصور الثابتة، ما هي الصعوبة في تحقيق معالجة القصص المصورة في الوقت الفعلي، وخاصة على الهواتف المحمولة؟
قال الفريق الفني لـ Douyin أن معالجة القصص المصورة المصورة في الوقت الفعلي لا تزال صعبة للغاية، على سبيل المثال:
- أولاً، يجب أن تكون التعقيدات الحسابية للنموذج نفسه صغيرة للغاية. وللحصول على تأثير كوميدي جيد مع تعقيد حسابي محدود، من الضروري الاستفادة الكاملة من قيمة كل عملية.
- ثانيًا، لدى Douyin عدد كبير من المستخدمين، ويختلف أداء النماذج التي يستخدمها المستخدمون بشكل كبير، لذلك من الضروري تطوير استراتيجيات تسليم نماذج معقدة ومخصصة بشكل خاص.
من أجل تلبية احتياجات المستخدمين على مستويات مختلفة، طورت Douyin استراتيجية توزيع نموذج معقدة وأدركت توزيع النموذج المخصص، مما ضمن في النهاية الإطلاق الناجح للقصص المصورة في الوقت الفعلي وتلبية متطلبات القصص المصورة في الوقت الفعلي من حيث التأثير والأداء.
أيضًا،تستخدم المؤثرات الخاصة في قصص Tik Tok المصورة محرك الاستدلال ByteNN، الذي طورته ByteDance ذاتيًا.تم تصميم محرك الاستدلال هذا للتنفيذ السريع لخوارزميات الجانب الحافة، ولا يدعم قدرات الحوسبة العامة لوحدة المعالجة المركزية ووحدة معالجة الرسومات فحسب، بل يستفيد أيضًا بشكل كامل من قدرات التسريع لأجهزة NPU/DSP الخاصة بالشركة المصنعة، مما يضمن أن القصص المصورة في الوقت الفعلي يمكنها دعم قاعدة مستخدمي TikTok الضخمة بشكل مستقر.
وبطبيعة الحال، فإن الخوارزمية الحالية لهذه التأثيرات الكوميدية في الوقت الحقيقي لا تزال لديها مجال للتحسين لبعض السيناريوهات الخاصة. في التكرارات اللاحقة، سنبدأ أيضًا من النموذج نفسه ومحرك الاستدلال لتحسين تأثير النموذج مع تحسين أداء الاستدلال.
فريق تصوير ByteDance: يجب أن تكون المرشحات الكوميدية واقعية وجميلة
وفي السنوات الأخيرة، ظهرت المؤثرات الخاصة مثل الأنماط الكوميدية والرسم اليدوي واحدة تلو الأخرى.كيف تبرز وتصبح ناجحًا هي المشكلة الصعبة التي يواجهها الفريق.
وفقًا لـ Da Peng من فريق التصوير الخاص بـ ByteDance، فإن أهم شيء هو،الهدف هو جلب المفاجأة والتفاعل للمستخدمين.
من ناحية أخرى، فريق المؤثرات الخاصة في "Transformation Comics"فهو يحقق "التشابه" و"الجمال" في آن واحد.ومن ناحية أخرى، من خلال التحسين المستمر للتكنولوجيا،تم تحقيق تأثيرات التحويل في الوقت الفعلي لآلاف الوجوه لآلاف الأشخاص.
قال يو تشين من فريق المشروع: "حددنا سمتين رئيسيتين: الجمال الأخّاذ والتشابه الفائق. علينا الحفاظ على سمات المستخدم بالكامل وجعل الصورة تبدو كشخص حقيقي، مع الحفاظ في الوقت نفسه على الجمال الفني الفريد للقصص المصورة."
بالإضافة إلى ذلك، قام الفريق بدمج نقاط القوة في الصور في القصص المصورة اليابانية والصينية والكورية لتصميم النسخة النهائية من القصص المصورة، وقد تم الاعتراف بجمالياتها على نطاق واسع.

من حيث طريقة اللعب، اختار الفريق أخيرًا 6 أدوات إبداعية، مثل تحريك الأيدي والإيماءات وطرق التحول الأخرى، لتحسين التجربة التفاعلية ومراعاة احتياجات المستخدمين من مختلف الأعمار والمستويات والتفضيلات.
GAN: سلاح سحري مهم في مجال توليد الصور
دعونا نتحدث عن التكنولوجيا الأساسية لهذا المنتج الناجح - GAN (الشبكات التنافسية التوليدية).
في السنوات الأخيرة، كانت الأبحاث القائمة على GAN في كامل نشاطها. في كل مرة تكون نتائج البحث في توليد الصور وتحويلها عبارة عن مسح للشاشة، يتم استخدام تقنية GAN دائمًا تقريبًا.
في عام 2014، نشر إيان جودفيلو وفريقه ورقة بحثية بعنوان "الشبكات التنافسية التوليدية" حيث كانوا رائدين في نموذج التعلم العميق المسمى GAN.

يتضمن الهيكل الرئيسي لنموذج GAN المولد G (المولد) والمميز D (المميز).يتم تدريب هذا النموذج في حالة اللعبة التنافسية.
باستخدام فكرة اللعبة التنافسية، أثناء عملية التدريب، فإن هدف المولد G هو توليد صور واقعية قدر الإمكان لخداع المميز D. هدف D هو محاولة التمييز بين الصور التي يولدها G والصور الحقيقية. وبهذه الطريقة، يشكل G وD "عملية لعبة" ديناميكية.
ما هي النتيجة النهائية للمباراة؟ وهذا يعني أنه في ظل الظروف المثالية، يمكن لـ G توليد صور "حقيقية" بدرجة كافية ليتم الخلط بينها وبين الصور الحقيقية.
بعبارات بسيطة، فإن G يشبه مزورًا لعمل فني، يحاول بكل الطرق الممكنة خداع المميز D، وفي النهاية يحصل على عمل يصعب التمييز بين الأصلي والمزيف.
في السنوات الأخيرة، يمكن القول أن تطبيق GAN أصبح غنيًا جدًا. على سبيل المثال، يتم استخدامها لتوليد شخصيات الأنمي:

تحويل الصور باستخدام CycleGAN:

StyleGAN، الذي اقترحته NVIDIA في عام 2018، يولد صورًا مزيفة:

مصادر:
https://mp.weixin.qq.com/s/lLfp8F6G2uHxYpCMCF1Tmw
https://mp.weixin.qq.com/s/WeZD__I7Y98Fg18pEZ9L9g
-- زيادة--