HyperAI

الذكاء الاصطناعي يتدخل! تحديد المؤلفين الحقيقيين لـ "حلم الغرفة الحمراء" و"هنري الثامن" من خلال تحليل النص

منذ 5 أعوام
معلومة
Dao Wei
特色图像

يتدخل الذكاء الاصطناعي في عالم الأدب مرة أخرى، ولكن هذه المرة يُستخدم "للبحث عن المؤلفين"

بالنسبة لبعض الأعمال الأدبية، إذا لم يكن المؤلف متأكدًا، وكانت الأعمال قديمة جدًا ولا توجد سجلات تاريخية مفصلة، فإن قضية المؤلف غالبًا ما تصبح لغزًا مع العديد من الآراء المختلفة.

ولكي يكتشف الباحثون المستقبليون الحقيقة، فإنهم يحتاجون إلى بذل الكثير من الطاقة للبحث عن المعلومات وإجراء البحوث والمقارنة. ومع ذلك، فإن الأدلة الأكثر أهمية لا تكون متاحة في كثير من الأحيان بسبب بعض القيود.

ومع ذلك، ومع تدخل الذكاء الاصطناعي، يبدو أن هناك طريقة أخرى لإزالة الضباب.

استخدام علم البيانات للتحقق من مؤلف حلم الغرفة الحمراء

فيما يتعلق بـ "حلم الغرفة الحمراء"، يُعتقد عمومًا أن كاو شيويه تشين كتب أول ثمانين فصلاً، وقام قاو إي بتجميع الفصول الأربعين الأخيرة واستمر في كتابتها. ويتفق مع هذا البيان أيضًا علماء الأدب مثل هو شي، ويو بينجبو، وتشو روتشانغ.

ولكن هناك أيضًا العديد من الأصوات المختلفة في العالم الأدبي. يعتقد العديد من الأساتذة، بما في ذلك لو شون، ولين يوتانغ، ووانغ قوه وي، وباي هسين يونغ، أن كاو شيويه تشين وحده أكمل جميع الفصول الـ 120.

  1. دراسة إحصائية نُشرت عام 1980 

ومنذ انعقاد أول ندوة دولية حول "حلم الغرفة الحمراء" في عام 1980، استخدم الباحثون الأساليب الإحصائية الحاسوبية لمحاولة معرفة مؤلفها الحقيقي.

السيد تشين بينجزاو، وهو باحث صيني من جامعة ولاية ويسكونسن،نشر بحثًا بعنوان "حول تأليف حلم القصور الحمراء من منظور الإحصاء المعجمي"، والذي لفت انتباه مجتمع علم الإحصاء الأحمر الدولي.

قام تشين بينغزاو بتجميع النسخة المكونة من 120 فصلاً من "حلم الغرفة الحمراء" في ثلاث مجموعات بالتسلسل، مع 40 فصلاً في كل مجموعة. كما تم إدراج عمل آخر، وهو أبطال الأطفال، ضمن المجموعة الرابعة للدراسة المقارنة.

لقد استمرت الأبحاث حول مؤلف حلم الغرفة الحمراء لمئات السنين

اختر 80000 كلمة من كل مجموعة.اختر خمسة أنواع من الكلمات: الأسماء والأفعال والصفات والظروف وكلمات الوظيفةوتم ترتيب هذه الكلمات وإحصاؤها ومقارنتها ومعالجتها من خلال برامج الكمبيوتر في ذلك الوقت، وتم العثور على درجة الارتباط بين كل مجموعة.

تشير النتائج الإحصائية إلى أن الارتباط الإيجابي بين الكلمات المستخدمة في الفصول الثمانين الأولى والفصول الأربعين الأخيرة من "حلم القصور الحمراء" هو 78.57%في حين أن الارتباط الإيجابي بين الكلمات المستخدمة في حلم القصور الحمراء وأبطال الأطفال هو 32.14%.
ومن هذا استنتج البروفيسور تشين بينغزاو أن الفصول الثمانين الأولى والفصول الأربعين الأخيرة كلها كتبها كاو شيويه تشين وحده.

  2. البحث في خوارزميات SVM الحديثة

ولكن ما هي الاستنتاجات التي يمكننا التوصل إليها إذا استخدمنا التعلم الآلي لإصدار الأحكام؟

في السنوات الأخيرة، استخدم أحد المهندسين تحليلًا خوارزميًا بسيطًا لدراسة تأليف كتاب حلم الغرفة الحمراء. لقد استخدم أداة بايثون، المدربة على ميزات مثل تكرار الكلمات المستخدمة في الرواية، للتمييز بين القضايا الأسلوبية في أجزاء مختلفة.

قام بتقسيم الكتاب بأكمله إلى كلمات وأجرى إحصاءات تردد الكلمات. بعد العثور على الكلمات ذات التردد العالي، قام بحساب عدد المرات التي ظهرت فيها في كل فصل، وبالتالي الحصول على الاختلافات في عادات استخدام الكلمات في الفصول المختلفة.

ثم قمنا ببناء نموذج باستخدام خوارزمية SVM. لقد قمنا باختيار جزء من الفصول من أول 80 فصلاً وآخر 40 فصلاً وأدخلناها إلى النموذج لمعرفة خصائص الكتابة. لقد استخدمنا أيضًا الفصول المتبقية كمدخلات للسماح للكمبيوتر بتحديد الجزء الذي تنتمي إليه.

يمكن للنموذج النهائي إجراء تنبؤات بدقة 95%، وبالتالييثبت هذا بشكل غير مباشر أن الفصول الثمانين الأولى والفصول الأربعين الأخيرة لها اختلافات واضحة في أسلوب الكتابة في نموذج الخوارزمية وتنتمي إلى مؤلفين مختلفين.

إحصائيات استخدام الكلمات في أول 80 حلقة (باللون الأحمر) وآخر 40 حلقة (باللون الأزرق)

وهذا المشروع له عيوب أيضا.على سبيل المثال، تم اختيار عدد قليل جدًا من الميزات، وفي النهاية تم اختيار 278 كلمة فقط كمؤشرات.، ومحتوى التدريب يقتصر على كتاب واحد، وهو ما يفشل في شرح المشكلة بدقة.

إذا كان تحليل مؤلف رواية "حلم الغرفة الحمراء" مجرد تجربة تجريبية، فإن الدراسة التي أجراها أحد العلماء مؤخرًا عن مؤلف الرواية الشهيرة "هنري الثامن" كانت أكثر دقة وصرامة.

مؤلف هنري الثامن لا يزال لغزا، والذكاء الاصطناعي يتخذ إجراء

وكما حدث في "حلم القصور الحمراء"، واجهت الدراما الأدبية البريطانية الشهيرة "هنري الثامن" نفس المشكلة. يُطلق عليه اسم العمل الأخير لشكسبير، لكن من الممكن أن يكون مؤلفه الحقيقي أكثر من واحد.

كان هنري الثامن ملكًا طاغيًا للغاية في التاريخ، ويمكن مقارنته بالملك تشين شي هوانغ الأكثر قتامة. وفي الفترة ما بين عامي 1513 و1547 فقط، أمر بإعدام نحو ألف شخص. 72,000السجناء السياسيين، حتىاثنتان من الزوجات الستأُرسل إلى المقصلة.

وبسبب حداثة الشخصية وطبيعتها الأسطورية، فقد كان هناك سيل لا حصر له من الأعمال الأدبية والسينمائية والتلفزيونية عنه، مثل الرواية والفيلم المقتبس منها الذي يحمل نفس الاسم "فتاة بولين الأخرى"، والمسلسل التلفزيوني "عائلة تيودور".

تحكي رواية فتاة بولين الأخرى قصة قسوة هنري الثامن ووحشيته
بطولة سكارليت جوهانسون بدور الأرملة السوداء وناتالي بورتمان بدور البجعة السوداء

تم تأليف مسرحية "هنري الثامن" في عام 1612. وهي عبارة عن اقتباس وتفسير مبني على أحداث مرتبطة بهنري الثامن. لقد تم عرضه عدة مرات وحظي باستجابة اجتماعية كبيرة.لكن بعد دراسة النص، وجد كثير من الناس أن أسلوب كتابته كان مختلفًا جدًا عن أعمال شكسبير الأخرى.

يتساءل البعض عما إذا كان هذا المنتج من صنع شخص آخر أم أنه كان نتيجة تعاون. ولم يكن الأمر كذلك حتى عام 1850 عندما أشار أحد الباحثين بشكل خاص إلى وجود نوع آخرربما كان الكاتب المسرحي فليتشر متعاونًا في مسرحية هنري الثامن.

أسبابه هي:يمكن العثور على قدر كبير من أسلوب فليتشر المميز في الكتابة في مسرحية هنري الثامن.

أصبح فليتشر (يسار) الكاتب المسرحي الرئيسي لفرقة King's Men بعد تقاعد شكسبير (يمين)

على مدى القرن التالي، استمر الجدل حول المؤلف، حتى أن البعض اقترح أن كاتبًا مسرحيًا ثالثًا، وهو ماسينجر، كان متورطًا.

لقد أصبح هذا اللغز واضحا بفضل دراسة حديثة. عالم بيانات،باستخدام خوارزميات الذكاء الاصطناعي، تم العثور على المؤلف الأصلي للدراما "هنري الثامن" بمزيد من التفصيل، وصولاً إلى كل التفاصيل الموجودة في النص.

يساعد التعلم الآلي في تحديد من هو المؤلف الحقيقي

استخدم بيتر بليشاتش، الباحث في الأكاديمية التشيكية للعلوم في براغ، مؤخرًا تقنيات التعلم الآلي لتحديد مشكلات التأليف في مسرحية هنري الثامن، محققًا نتائج مقنعة. وقد تم كتابة نتائجه في ورقة وتم تحميلها على arXiv.

العنوان: https://arxiv.org/pdf/1911.05652.pdf

في هذا العمل، استخدم بليتشا بُعد علم البيانات لتحديد من كتب كل جزء من "هنري الثامن" وقدم حججًا محددة.

ومن خلال تحليل محتوى الأعمال النصية، تمكن من تحديد خصائص معينة لأساليب الكتابة لدى المؤلفين المختلفين، وبالتالي التمييز بين الأعمال وإجراء تقسيمات وتصنيفات مفصلة.

وفي نهاية المطاف، نسبت الخوارزمية بعض فصول مسرحية هنري الثامن إلى شكسبير وبعضها الآخر إلى فليتشر، مما أعطى كلا الرجلين مساهمات متساوية تقريبا في العمل. ليس هذا فحسب، بل تقوم الخوارزمية أيضًا بتقسيم مؤلفي كل قسم محدد.

الصفحة الأولى من مسرحية هنري الثامن، نُشرت لأول مرة في عام 1623

وفي النهاية، كان تقسيم المؤلفين الذي قدمه التعلم الآلي متوافقًا مع وجهات نظر دراسة رئيسية سابقة وحقق أيضًا بعض الاختراقات.

تحديد مصدر النص من خلال النظر إلى مفرداته وإيقاعه

كيف فعل ذلك بالتحديد؟ بمجرد فهم أسلوب المؤلف والكلمات والأنماط المستخدمة بشكل شائع، يمكنك استخدامه لتحديد الاتفاقيات النصية في الأعمال الجديدة لتحديد ما إذا كانت من نفس المؤلف.

في هذه الدراسة،دع نموذج الخوارزمية يتعلم ويحلل الكلمات الشائعة في النص وأنماط إيقاع الجملة الشائعة حتى تتمكن الخوارزمية من تعلم كيفية التعرف على هذه الميزات.

تحليل شامل لإيقاع الجملة (الأنواع الإيقاعية) والكلمات الشائعة
دقة النموذج التي تم التحقق منها من خلال أعمال أخرى تقترب من 1

على وجه التحديد، نحتاج أولاً إلى تقسيم النص إلى عدة مشاهد صغيرة، واستخدام آلات دعم المتجهات لإجراء تحليل الإسناد والتصنيف على كل مشهد من مسرحية هنري الثامن.

ومن بينها، يتم استخدام ترددات أكثر 500 نوع إيقاع شيوعًا وترددات أكثر 500 كلمة شائعة كمجموعات ميزات للمصنف.

ونظراً للاختلافات المحتملة في الأساليب بين المؤلفين في فترات مختلفة، استخدم الباحثون مشاهد من مسرحيات أخرى من نفس الفترة (مثل العاصفة وكوريولانوس) كعينات تدريبية. بالنسبة للمؤلفين المحتملين، تم أيضًا جمع عينات تدريبية.

تم جمعها أخيرا 53 عينة تدريب لشكسبير، و90 عينة تدريب لفلتشر، و46 عينة تدريب لماسينجر.ومن أجل تقدير دقة النموذج، تم استخدام التحقق المتبادل أيضًا لاختباره.

بعد التدريب، تم تشغيل النموذج على نص هنري الثامن، مع الجمع بين التحليل الشامل للمفردات والتعدد الوظيفي لتحديد المؤلفين الذين شاركوا في كتابة المسرحية ومساهماتهم المحددة.

وقد أثبتت النتيجة النهائية أن هذا كان معيارًا موثوقًا للغاية للتمييز بين أسلوبي المؤلفين. وعلى وجه الخصوص، فإن النموذج المشترك الذي يستخدم الكلمات المشتركة والإيقاعات المشتركة يتمتع بدقة أعلى من 96% في التعرف على أسلوب المؤلفين الثلاثة.

نتائج تصنيف المصنف لـ 30 عينة من فصول مختلفة أكثر تفصيلاً من تصنيف المؤلف الأكثر موثوقية (العمود الأخير)

وعند تطبيق ذلك على تحليل مسرحية هنري الثامن، تظهر النتائج بوضوح مشاركة كلا المؤلفين. وأشار كاتب مسرحي آخر يُشاع أنه ماسينجر، على المستوى الخوارزمي، إلى أنه لم تكن له أي علاقة بالسيناريو. 

الطريقة الجديدة تعمل على تحسين مؤلف كل قسم

وللحصول على صورة أكثر موثوقية عن حصة الفضل الممنوحة لمؤلفين محددين، إلى جانب الإسناد البسيط لمشاهد محددة، استخدم بليشاتش أسلوبًا تحليليًا يسمى الإسناد المتداول، والذي يحدد احتمالية أن تنتمي قطعة معينة من النص إلى مؤلف معين.

الإسناد المستمر هو تقنية للحالات التي تنطوي على تأليف مختلط. في الإسناد المتجدد، بدلاً من تصنيف النص بأكمله أو أجزائه المنطقية (الفصل، المشهد، وما إلى ذلك)، يتم إخضاع أجزاء متداخلة ذات طول ثابت لمهمة التصنيف.

يحدد الإسناد المستمر تكوين الأعمال الأخرى للمؤلفين
متوافق إلى حد كبير مع الوضع الفعلي

تعتمد الطريقة على مفهوم النافذة المتحركة ويتم دمجها مع تقنيات التصنيف الإشرافي القياسية. ويهدف إلى تقييم الاختلافات الأسلوبية بين عينات النصوص المنفصلة لاختبار مدى اتساق أنماط النصوص الخاصة بها.

وتظهر النتائج أن طريقة الإسناد المتداول مع السمات المعجمية موثوقة للغاية: حيث تصل دقة الإسناد المتداول المقدرة إلى 0.9977 عند التمييز بين شكسبير وفليتشر.

خاص بتقسيم المؤلف ومصداقية كل فصل

وباستخدام هذه الطريقة، تمكنا من تحديد احتمالية أن يكون كل فصل ينتمي إلى مؤلف معين. في الشكل أعلاه، يمكننا أن نرى بوضوح الفصول التي أكملها شكسبير وفليتشر.الاستنتاج هو: لقد أكمل كل من شكسبير وفليتشر ما يقرب من نصف إنشاء المحتوى.

الذكاء الاصطناعي يستعد للنجاح في الأدب

يعد استخدام خوارزميات الذكاء الاصطناعي لحل لغز مؤلف الأعمال الشهيرة أمرًا قيمًا للغاية للباحثين والمتحمسين الأدبيين. وفي الوقت نفسه، فإنه يوفر أيضًا منظورًا لأبعاد البيانات للنظر في مثل هذه القضايا.

وبطبيعة الحال، بالإضافة إلى استخدامها لتحديد هوية المؤلف أو الكتابة بالإنابة أو الحكم على الانتحال، يمكن أيضًا دمج أساليب الذكاء الاصطناعي المماثلة مع تقنيات مثل GPT-2 لتوليد أعمال بأسلوب معين، والتي قد تكون قادرة على استعادة تلك الأعمال المفقودة في نهر التاريخ الطويل بشكل أفضل.

إذا تم استعارتها من جوانب مثل الموسيقى والرسم، فيمكن استخدامها ليس فقط لتحديد هوية المؤلف، ولكن أيضًا لإنشاء أعمال جديدة باستخدام أسلوب المؤلفين المعروفين.

ومع وضع هذا في الاعتبار، يبدو أن اليوم الذي تصبح فيه الذكاء الاصطناعي كاتبًا عظيمًا ربما يكون قريبًا.

-- زيادة--