HyperAI

ترجمة القصص المصورة، وتضمين الذكاء الاصطناعي، وأوراق جامعة طوكيو المدرجة في AAAI'21

منذ 4 أعوام
أخبار المصانع الكبيرة
العناوين الرئيسية
神经小兮
特色图像

في الآونة الأخيرة، أثارت دراسة حول الترجمة الآلية للنصوص المصورة نقاشًا حادًا. نشر فريق مانترا، المكون من طالبي دكتوراه من جامعة طوكيو، ورقة بحثية تم تضمينها في AAAI 2021. يهدف مشروع مانترا إلى توفير أدوات الترجمة الآلية للقصص المصورة اليابانية.

صدر مؤخرًا بيان مشترك من فريق Mantra التابع لجامعة طوكيو وياهو (اليابان) ومؤسسات أخرى نحو ترجمة مانجا آلية بالكامل(عنوان الورقة https://arxiv.org/abs/2012.14271)وقد حظيت هذه الورقة باهتمام الأوساط الأكاديمية والمجتمع ثنائي الأبعاد.

كما هو موضح في الصورة: الأول على اليسار هو الإصدار الياباني الأصلي، ويتم إخراج الإصدار الإنجليزي (الثاني من اليمين) والإصدار الصيني (الأول من اليمين) تلقائيًا.

حقق فريق مانترا نجاحا كبيرايتم التعرف تلقائيًا على الحوارات وكلمات الأجواء والملصقات والنصوص الأخرى في القصص المصورة، كما يتم تمييز الشخصيات وربط السياق. وأخيرًا، يتم استبدال النص المترجم بدقة وتضمينه في منطقة الفقاعة.

مع أداة الترجمة السحرية هذه، ينبغي أن يكون فريق الترجمة ومحبي القصص المصورة سعداء للغاية.

نشر الأوراق البحثية، ونشر مجموعات البيانات، والتسويق

من حيث البحث العلمي، تم قبول الورقة من قبل AAAI 2021. كما فتح فريق البحث أيضًا مجموعة بيانات لتقييم الترجمة تتكون من خمسة قصص مصورة من أنماط مختلفة (الخيال، والرومانسية، والقتال، والتشويق، والحياة).

مجموعة بيانات تقييم ترجمة القصص المصورة OpenMantra

عنوان الورقة:https://arxiv.org/abs/2012.14271

تنسيق البيانات: ملفات JSON الموضحة والصور الخام

محتوى البيانات:1593 جملة، 848 مشهد، 214 صفحة هزلية

حجم البيانات: 36.8 ميجابايت

تم التحديث: 7 ديسمبر 2020

عنوان التنزيل:https://orion.hyper.ai/datasets/14137

من حيث الإنتاج،تخطط شركة مانترا لإطلاق محرك ترجمة آلي متكاملإنه لا يقدم خدمات الترجمة والتوزيع الآلية للقصص المصورة للناشرين فحسب، بل يقدم أيضًا خدمات الإصدار للمستخدمين الفرديين.

فيما يلي بعض ترجمات المانجا اليابانية "Surrounding Men" المختارة من حساب Mantra الرسمي على تويتر.هذه القصة المصورة متعددة الإطارات، ذات النمط الدانمي الخفيف، مليئة بالفرح والحب المرح، مع الخلفية البشرية للأجهزة الرقمية المستخدمة بشكل شائع في الحياة.:

شريحةشاهد النسخة اليابانية الأصلية من "Nearby Man"

والترجمة الآلية للنسختين الصينية والإنجليزية

الاعتراف والترجمة والتضمين كلها خطوات مهمة

وقد تم شرح خطوات التنفيذ المحددة بالتفصيل من قبل فريق البحث في مانترا في ورقة بحثية بعنوان "نحو ترجمة المانجا الآلية بالكامل".

الخطوة الأولى هي تحديد النص 

الخطوة الأولى لتحقيق الترجمة الآلية للقصص المصورة هي استخراج منطقة النص.

ومع ذلك، نظرًا لخصوصية القصص المصورة، سيتم عرض الحوارات من شخصيات مختلفة، والكلمات الصوتية، وتعليقات النصوص، وما إلى ذلك، في صورة كوميدية. سيستخدم رسامو الكاريكاتير الفقاعات والخطوط المختلفة والخطوط المبالغ فيها لعرض النصوص بتأثيرات مختلفة.

أصبح التعرف على الشخصيات المرسومة والمشكلات يدويًا في القصص المصورة مشكلة صعبة

توصل فريق البحث إلى أنه بسبب هذه الخطوط المتنوعة والأنماط المرسومة يدويًا في القصص المصورة، فإن حتى أنظمة التعرف الضوئي على الحروف الأكثر تقدمًا (مثل Google Cloud Vision API) تعمل بشكل ضعيف على نصوص القصص المصورة.

ولذلك، قام الفريق بتطوير وحدة التعرف على النصوص المخصصة للقصص المصورة، والتي يمكنها التعرف على الأحرف الخاصة من خلال اكتشاف أسطر النص وتحديد الأحرف في كل سطر نصي.

الخطوة 2 تحديد المحتوى 

في القصص المصورة، النص الأكثر شيوعًا هو الحوار بين الشخصيات، وسيتم تقطيع فقاعات نص الحوار إلى قطع متعددة.

ويتطلب هذا أن تتمكن الترجمة الآلية من التمييز بدقة بين الأدوار، والانتباه إلى العلاقة بين الموضوعات، وتجنب التكرار في السياق، مما يفرض مطالب أعلى على الترجمة الآلية.

انقر للتكبير لرؤية تصنيف المشهد وترتيب النص وخط أنابيب التعرف على المشاعر

وفي هذه الخطوة، من الضروري تحقيق ذلك من خلال الوعي بالسياق والتعرف على المشاعر وغيرها من الأساليب. في مجال الوعي السياقي، استخدم فريق مانترا ثلاث طرق: تجميع النصوص، وترتيب قراءة النص، واستخراج الدلالات البصرية لتحقيق الوعي السياقي المتعدد الوسائط.

الخطوة 3 التضمين التلقائي 

لا يستطيع محرك Mantra الآلي التمييز بين الشخصيات وترجمتها بدقة في السياق فحسب، بل يمكنه أيضًا حل الجزء الأكثر استهلاكًا للوقت والجهد في ترجمة القصص المصورة - تضمين الشخصيات.

في عملية التضمين، يجب عليك أولاً مسح المنطقة المضمنة ثم تضمين الأحرف. نظرًا لأن الأشكال والتهجئات والتركيبات والقراءات المتصلة للأحرف اليابانية والصينية والإنجليزية مختلفة جميعًا، فإن هذه العملية صعبة بشكل خاص.

في هذه الخطوة، عليك القيام بما يلي: مطابقة الصفحة → اكتشاف مربع النص → عد وحدات البكسل في فقاعات النص → تقسيم الفقاعات المتصلة → المحاذاة بين اللغات → التعرف على النص → استخراج السياق.

التجربة: اختبار مجموعة البيانات والنموذج 

في الجزء التجريبي من الورقة، ذكر فريق Mantra أنه لا توجد حاليًا مجموعة بيانات هزلية تتضمن لغات متعددة، لذلك قاموا بإنشاء مجموعات بيانات OpenMantra (مفتوحة المصدر) وPubManga، والتي يتم استخدام OpenMantra لتقييم الترجمة الآلية ويحتوي على 1,593 جملة و 848 مشهدًا و 214 صفحة من القصص المصورة. طلب فريق مانترا من المترجمين المحترفين ترجمة مجموعة البيانات إلى اللغتين الإنجليزية والصينية.

يتم استخدام مجموعة بيانات PubManga لتقييم المجموعة المبنية، والتي تحتوي على تعليقات توضيحية لـ: 1) المربعات المحيطة بالنص والإطارات؛ 2) النص (تسلسلات الأحرف) باللغتين اليابانية والإنجليزية؛ 3) ترتيب قراءة الإطارات والنص.

لتدريب النموذج، قام الفريق بإعداد 842,097 زوجًا من صفحات القصص المصورة باللغتين اليابانية والإنجليزية، بإجمالي 3,979,205 زوجًا من الجمل باللغتين اليابانية والإنجليزية.يمكن العثور على الطريقة المحددة في الورقة. يتم إجراء تقييم تأثير النموذج النهائي يدويًا. فريق مانترا مدعوخمسة مترجمين محترفين من اليابانية إلى الإنجليزيةقم بتقييم الجمل باستخدام برنامج تقييم الترجمة الاحترافي.

وراء المشروع: أرواح مثيرة للاهتمام تتعلم معًا

حاليًا، تم تضمين هذه الورقة في AAAI 2021، كما أن أعمال الإنتاج تتقدم بشكل مطرد. من خلال حساب فريق Mantra على تويتر، يمكننا أن نرى أن العديد من القصص المصورة قد استخدمت Mantra بنجاح للترجمة الآلية.

تم إكمال مثل هذا المشروع الكنز من قبل اثنين من طلاب الدكتوراه من جامعة طوكيو. حصل الرئيس التنفيذي شونوسوكي إيشيواتاري والمدير التقني ريوتا هينامي على درجة الدكتوراه من جامعة طوكيو وأسسا فريق مانترا في عام 2020.

الرئيس التنفيذي لشركة مانترا شونوسوكي إيشيوا (يسار) ومدير التكنولوجيا التنفيذي هينامي ريوتا (يمين)

الرئيس التنفيذي شونوسوكي إيشيوا،التحق بالفصل الدراسي الجامعي بقسم علوم المعلومات في جامعة طوكيو في عام 2010 وتخرج بدرجة الدكتوراه. في عام 2019.يركز بشكل أساسي على البحث والتطوير في مجال معالجة اللغة الطبيعية، بما في ذلك الترجمة الآلية وتوليد القواميس، وهو أيضًا المؤلف الثاني لهذه الورقة.

ومن الجدير بالذكر أن إيشيوا شيانغزيسوكي يتمتع بخبرة بحثية غنية. لم يكن باحثًا متبادلًا في جامعة كارنيجي ميلون فحسب، بل تدرب أيضًا في Microsoft Research Asia في بكين لمدة نصف عام من عام 2016 إلى عام 2017. في ذلك الوقت، كان منخرطًا في البحث في مجال الحوسبة باللغة الطبيعية (NLC) في فريق كبير الباحثين في MSRA، ليو شوجي.

التحق مدير التكنولوجيا في الشركة هينامي ريوتايشي بالمدرسة في نفس العام الذي التحق فيه شونوسوكي وركز على مجال التعرف على الصور.في عامي 2016 و2017، قمت بالتدريب في Microsoft Research Asia مع Shonosuke Ishiwa.

لقد أتم هذا الزوج من الأصدقاء ذوي المهارات المتكاملة معظم أعمال مانترا. أليس الأمر مثيرًا للحسد من كمية الشعر إلى النتائج؟

إذا كنت تريد معرفة المزيد عن المانترا، يمكنك زيارة الصحيفة (https://arxiv.org/abs/2012.14271)、الموقع الرسمي للمشروع(https://mantra.co.jp/)أو قم بتنزيل مجموعة البيانات(https://orion.hyper.ai/datasets/14137)لمزيد من البحث.