HyperAI

المعلم شيان تشاو من معبد لونغكوان: استخدام الذكاء الاصطناعي لتحديد وتقسيم وترجمة الكتب المقدسة القديمة

منذ 4 أعوام
أخبار المصانع الكبيرة
العناوين الرئيسية
ثرثرة حقيقية
神经小兮
特色图像

كان المعلم شيان تشاو من معبد لونغكوان، أقوى معبد للأبحاث العلمية، يدرس دمج الذكاء الاصطناعي والوثائق القديمة في السنوات الأخيرة. وفي الوقت الحاضر، قام فريق "تريبيتاكا" الذي قاده بتنفيذ ممارسات تقنية مثل علامات الترقيم الآلية للذكاء الاصطناعي، والترجمة الأدبية والعامية، والتعرف على النصوص القديمة.

يمكن اعتبار معبد لونغكوان، الواقع عند سفح فنغهوانغلينغ في ضاحية بكين، المعبد البوذي الذي يتمتع بأقوى قدرات البحث العلمي في البلاد وحتى العالم.

استنادًا إلى قول السيد شيويه تشنغ "البوذية قديمة، لكن البوذيين حديثون"، مما شجع الرهبان في معبد لونغكوان على الانخراط في البحث العلمي وكتابة التعليمات البرمجية، والجمع بين البوذية والتقنيات الجديدة، ونشر المشاريع وتعميمها دوليًا. النتائج لا حصر لها، والمنتجات تم البحث عنها بشكل متكرر وجذبت اهتمامًا مستمرًا من العالم الخارجي.

في الآونة الأخيرة، شارك المعلم شيان تشاو من معبد لونغكوان في مؤتمر محلي للتكنولوجيا وشارك في الممارسات الفنية لاستخدام الذكاء الاصطناعي لتنظيم ومراجعة تريبيتاكا.

ولادة الذكاء الاصطناعي البوذي: جعل الكتب المقدسة البوذية أسهل للقراءة

كان الأستاذ شيان تشاو في الأصل أستاذًا في فيزياء المادة المكثفة من كلية الفيزياء بجامعة بكين. تخرج من جامعة بكين في عام 2007 وتحول إلى البوذية في معبد لونغكوان في عام 2008. ومنذ ذلك الحين، التزم بتحرير ومراجعة تريبيتاكا لونغكوان ودراسة العقائد البوذية.

في عام 2016، جذب انتصار AlphaGo التاريخي على Lee Sedol انتباه المعلم Xianchao إلى الذكاء الاصطناعي. ومنذ ذلك الحين، بدأ في محاولة الجمع بين الذكاء الاصطناعي وتقنية التعرف الضوئي على الحروف والعلامات التلقائية التي كان يبحث عنها.

يقدم البروفيسور شيان تشاو نتائج أبحاثه في مؤتمر مطوري Techo Park

  الذكاء الاصطناعي الأصلي لبوذا يحل نقاط الضعف في الكتب المقدسة القديمة 

تعتبر تريبيتاكا التي جمعها ورتبها معبد لونغكوان مجموعة من الكتب المقدسة البوذية، والمعروفة أيضًا باسم تريبيتاكا. على مدى أكثر من ألفي عام من البوذية الصينية، قامت السلالات المتعاقبة بترجمة وتكملة ومراجعة التريبيتاكا.

هناك العشرات من الإصدارات التي تم تناقلها حتى يومنا هذا، أقصرها يحتوي على أكثر من 5000 كلمة، وأطولها يحتوي على أكثر من 120 مليون كلمة.

وقد شارك في مراجعة طبعة تشيان لونغ من تريبيتاكا أكثر من 60 مسؤولاً وعالماً وراهباً بارزاً، وأكثر من 860 حرفياً مثل النقاشين والطابعين ومجلدي الكتب. استغرق إكماله ست سنوات (الصورة توضح نقش طبعة تشيان لونغ من تريبيتاكا)

في عام 2012، بدأ دير لونغكوان في تجميع تريبيتاكا.ومن المقرر أن يستغرق المشروع عشر سنوات كاملة حتى يكتمل. لأن الطرق التقليدية لفرز الكتب القديمة تشمل بشكل أساسي التدقيق اللغوي، والمقارنة، والترقيم.يمكن لهذه الخطوات أن تضمن للقراء المعاصرين أن يتمكنوا من فهم النصوص الغامضة وغير المألوفة قدر الإمكان.

بعد ثلاث سنوات، قام معبد لونغكوان بتجميع ونشر "الأعمال الثمانية العظيمة لنانشان"؛ في العام التالي، تم تأسيس مكتب الكتاب المقدس البوذي في معبد لونغكوان، بهدف استكشاف استخدام تكنولوجيا الذكاء الاصطناعي وتطوير محرك التعرف على الكلمة الواحدة استنادًا إلى التعلم العميق؛

في عام 2017، أنشأ معبد لونغكوان مركزًا للذكاء الاصطناعي وتكنولوجيا المعلومات، وطور محرك التعرف على الأعمدة بالكامل الذي يمكنه تحديد إصدارات مختلفة من تريبيتاكا، ونجح في رقمنة نسخة تريبيتاكا من "سوترا أفاتامساكا المكونة من ستين مجلدًا".

يشغل السيد شيانشاو حاليًا منصب مدير مكتب الشريعة البوذية وهو المسؤول عن تجميع تريبيتاكا.

  علامات الترقيم التلقائية: التعرف الضوئي على الحروف + التعلم العميق 

من أجل خفض عتبة قراءة الناس للكلاسيكيات الصينية القديمة وتحسين كفاءة عمل العلماء، قام فريق الأستاذ شيان تشاو في السنوات الأخيرةلقد حقق استخدام التقنيات بما في ذلك التعلم العميق والتعرف الضوئي على الحروف لتغيير الطريقة التقليدية لتفسير التريبيتاكا نتائج مذهلة للغاية.

في اللغة الصينية الحديثة، هناك ما يقرب من عشرة علامات ترقيم شائعة، مثل النقاط، وعلامات الاقتباس، وعلامات عنوان الكتاب. في اللغة الصينية القديمة، لا توجد سوى النقاط والفواصل، والتي نادراً ما تظهر في الكتب المقدسة ويصعب قراءتها.

قدم السيد شيانتشاو،تشير علامات الترقيم التلقائية إلى تقنية وضع علامات الترقيم الصينية الحديثة تلقائيًا للنصوص القديمة استنادًا إلى خوارزميات دون تدخل بشري.وهذا يهدف بشكل أساسي إلى راحة القراء المعاصرين.

وفي السابق، كانت هناك دراسات ذات صلة باستخدام الذكاء الاصطناعي لإضافة علامات الترقيم إلى النصوص الصينية القديمة. ومع ذلك، قال المعلم شيان تشاو أنه في السابق، كان الأمر في الأساس مجرد إضافة فترات إلى النصوص الصينية القديمة. ويعتقد أن هذا النهج "أكثر تحفظا وأكثر أكاديمية".

قام فريقه بتطبيق التعلم العميق على علامات الترقيم الآلية.يمكنك إضافة علامات الترقيم مثل النقطة والفاصلة وعلامة الاستفهام وعلامة التعجب والنقطة المنقوطة والفاصلة المنقوطة إلى النصوص القديمة بدقة أعلى.بعد التحقق، أصبحت نتائج وسم المحول الذي طوروه "غير قابلة للتمييز تقريبًا" عن نتائج الوسم البشري.

 لقد أدى استخدام RNN+LSTM+ResNet إلى تحسين التأثير العام 

إن علامات الترقيم الآلية، في مجال معالجة اللغة الطبيعية، هي عبارة عن مشكلة بسيطة تتعلق بتسمية التسلسل. النهج القياسي لحل هذا النوع من المشاكل هو استخدام الشبكة العصبية المتكررة (RNN).

من أجل تعزيز أداء RNN، تم تطوير RNN ثنائي الاتجاه على هذا الأساس، أي أن الإخراج في كل لحظة لا يعتمد فقط على جميع المدخلات في اللحظة السابقة، ولكن أيضًا على المدخلات السابقة واللاحقة. وبعد ذلك، قدم فريق السيد شيانشاو طريقة LSTM.

ومع ذلك، فإن علامات الترقيم التلقائية التي تم تحقيقها في السابق بالاعتماد على هذه التقنيات لا تزال غير مرضية للغاية. السبب وراء نجاح فريق السيد شيانشاو في تحقيق نتائج غير متوقعة هو أنهم قدموا شبكة ResNet المتبقية على أساس العمل السابق.

نشر الفريق أوراقًا بحثية في عام 2019:"تجميع تريبيتاكا: عندما يلتقي الذكاء الاصطناعي بالبوذية"، مقدمةً تقنية علامات الترقيم التلقائية

وأوضح المعلم شيانشاو أن الشبكات العصبية السابقة كانت تحتوي على هياكل مكونة من اثنتي عشرة أو عشرين طبقة على الأكثر. إذا زاد عدد الطبقات، فلن يكون من السهل تجميع نتائج التدريب.يمكن أن تحتوي الشبكة المتبقية على مئات أو حتى آلاف الطبقات. تساعد الشبكات الأكثر عمقًا على التقاط معلومات دلالية أكثر عمقًا، وهو مفتاح نجاحها الكبير.

وحاول الفريق أيضًا استخدام الشبكات العصبية التلافيفية (CNNs). وكانت النتيجة النهائية هي أن الشبكة المتبقية كان متوسط دقة علامات الترقيم فيها أعلى بنحو 20-30% من الشبكة العصبية التلافيفية.

ما مدى كفاءة أداة الترقيم التلقائية للذكاء الاصطناعي؟تمكن الأستاذ شيان تشاو من إتمام عملية ترقيم نص صيني قديم مكون من حوالي 20 ألف كلمة في يوم واحد. وبحسب مستوى الأجر العام البالغ 15 يوانًا لكل ألف كلمة لعلامات الترقيم في النصوص القديمة، فإن ذلك يعادل خلق قيمة اقتصادية قدرها 300 يوان يوميًا.حتى لو تم حساب دقة علامات الترقيم التلقائية بناءً على 60% فقط، فإنها لا تزال تخلق قيمة تبلغ 180 يوانًا في اليوم.

ويقوم الفريق أيضًا بتحديث أداة الترقيم التلقائية باستمرار،الجيل الأحدث يتمتع بدقة 93.3%

في الوقت الحاضر، بما أن بيانات تدريب فريق المعلم شيانشاو مأخوذة في الغالب من الكتب المقدسة البوذية، فإن علامات الترقيم التلقائية الخاصة به أكثر ملاءمة لوضع علامات الترقيم على النصوص البوذية. ومع ذلك، قال،وفي المستقبل، سيتم استخدام هذه التكنولوجيا أيضًا في تجميع الوثائق القديمة في المزيد من المجالات مثل الكلاسيكيات والتاريخ والأعمال المتنوعة، وبالتالي تحرير العلماء من العمل الميكانيكي والمتكرر.

في المستقبل، من المتوقع أن يتغير أسلوب عمل التدقيق اللغوي للكتب القديمة إلى: سوف تقوم الذكاء الاصطناعي أولاً بتقسيم الجمل وإضافة علامات الترقيم؛ وسوف يقوم علماء متخصصون بإجراء عمليات التدقيق والمراجعة لاحقًا.

قام فريق المعلم Xianchao بإنشاء خدمة علامات الترقيم التلقائية عبر الإنترنت مفتوحة المصدر في عام 2018.يمكنك زيارة GuJiCool (http://gj.cool) للحصول على تجربة مجانية والتقدم بطلب للحصول على مكالمات API المجانية.

التعرف والترجمة: الذكاء الاصطناعي يصبح صندوق كنز للترجمة الصينية للكتب المقدسة البوذية

بالإضافة إلى علامات الترقيم التلقائية، يطبق المعلم شيانشاو أيضًا الذكاء الاصطناعي على العديد من جوانب البحث في الكتب القديمة.

الأبيات الأدبية والعامية: المحاذاة والترجمة 

الأبيات الأدبية والعامية هي محاذاة وترجمة اللغة الصينية القديمة إلى اللغة الصينية الحديثة. من أجل تحقيق الأبيات الأدبية والعامية المتناسقة، قام الأستاذ شيانشاو أولاً ببناء مجموعة من النصوص الأدبية والعامية المتناسقة، ثم صمم خوارزمية محاذاة، والتي حققت نتائج جيدة للغاية.بناءً على المؤشرين المستقلين للتشابه والاختلاف، من السهل جدًا تحديد الجمل غير المتوافقة.

ترجمة التريبيتاكا وترتيب الجمل بشكل منفصل،يساعد في عمليات الاسترجاع اليدوي والمراجعة اللاحقة

نظرًا لأن التريبيتاكا تحتوي على العديد من المصطلحات المهنية، وأن مجموعة الأعمال المترجمة من السلالات السابقة معقدة، فهي ليست شيئًا يمكن للمتخصصين المرتبطين بالصينية القديمة إتقانه. العدد الإجمالي للأحرف في تريبيتاكا هو بالمليارات. إذا اعتمدنا فقط على عدد محدود من الخبراء، فإن حجم العمل سيكون هائلاً. ولذلك، فإن تدخل الذكاء الاصطناعي قد ساهم في تقاسم قدر كبير من عبء العمل على الخبراء.

  التعرف الضوئي على الحروف (OCR) استنادًا إلى التعلم العميق، والتعرف على النصوص القديمة 

حاليًا، تقتصر برامج التعرف الضوئي على الحروف (OCR) الموجودة في السوق على النصوص المطبوعة، وبالتالي فهي لا تستطيع التعرف على الخطوط الموجودة في الكتب والوثائق القديمة بشكل جيد.

قام المعلم Xianchao وفريقه بتطوير محرك OCR جديد يعتمد على إطار CNN+LSTM+CTC. بعد ذلك، تم إجراء التدريب بناءً على مجموعة بيانات تضم أكثر من 70 ألف صورة كاملة و1.68 مليون صورة نصية من تريبيتاكا (طبعة كوريو).

تقسيم النص بدقة بناءً على التعلم ضعيف الإشراف

وفي نهاية المطاف، أصبحت طريقة التعرف الضوئي على الحروف التي طوروها قادرة على التعرف على الكلمة الواحدة، والتعرف على العمود الواحد، والتعرف شبه التلقائي على الأعمدة المتعددة للكتب القديمة، ويمكنها إكمال رقمنة أنواع مختلفة من الكتب القديمة بشكل فعال.

يتعرف برنامج OCR على النصوص القديمة ويقوم بترقيمها

كما نشر المعلم شيان تشاو على حسابه العام على WeChat "Xianchao Little Monk" (معرف WeChat: xianchaofashi)في هذه التدوينة، شاركت المزيد من ممارسات المشروع ورؤى حول البوذية. يمكن للأصدقاء المهتمين متابعته.

التكنولوجيا والبوذية: مظاهر مختلفة للتعاطف

البوذية والتكنولوجيا ليستا بعيدتين عن بعضهما البعض.

لدينا أيضافي هذا القرن، أرسل بوذا الروبوتات لنشر البوذيةوفي إحدى المقالات، تم الإبلاغ عن اتجاه دمج البوذية والتكنولوجيا. لقد أظهرت الروبوتات Xian'er، وآلة Guanyin، والخرزات البوذية الذكية، وما إلى ذلك التي ظهرت في السنوات الأخيرة منذ فترة طويلة أن التكنولوجيا قد تم دمجها بشكل عميق ومتناغم في البوذية.

لقد أدى اندماج العلم والتكنولوجيا والبوذية إلى إنتاج العديد من الأعمال الممتازة، والتي جذبتملحوظة

وفي مقابلة أجريت معه، سُئل السيد شيانكسين، وهو راهب مشهور آخر في معبد لونغكوان ومؤسس معسكر التأمل في تكنولوجيا المعلومات، عن العلاقة بين البوذية والتكنولوجيا.

فأجاب:العلم والتكنولوجيا هو السعي وراء الحقيقة في العالم المادي. البوذية هي حقيقة العالم الداخلي.كان العديد من الأشخاص الذين قاموا بالاستكشافات العلمية والتكنولوجية يرغبون في البداية في المساهمة في الإنسانية، وهو ما يتوافق مع سعي البوذية إلى تحقيق أقصى قدر من التعاطف. هذه هي النقطة المشتركة بين العلم والتكنولوجيا والبوذية. "

مراجع:

حساب الراهب الصغير شيانتشاو على وي تشات: "التصادم والتكامل بين الذكاء الاصطناعي والحضارة الصينية"

مؤتمر Yunqi لعام 2050: "السيد Xiandu - الممارسة التكنولوجية لمعبد Longquan"

أداة الترقيم التلقائية لمعبد لونغكوان:http://gj.cool/gjcool/index