تفسير جديد لشفرة الألفية: ديب مايند يطور إيثاكا لفك رموز النقوش اليونانية

تعكس النقوش واللوحات التذكارية أفكار وثقافة ولغة الحضارات السابقة. من أجل فك رموز النصوص التي يعود تاريخها إلى آلاف السنين، يحتاج علماء النقوش إلى إكمال ثلاث مهام رئيسية: استعادة النص، وإسناد الوقت، وإسناد المنطقة.
الطريقة البحثية السائدة هي "مطابقة السلسلة"، والتي تعني مطابقة النقوش مع الخطوط المماثلة بناءً على الذاكرة أو مجموعة الاستعلامات، مما يؤدي إلى الارتباك وسوء تقدير النتائج.
ولتحقيق هذه الغاية، قامت شركة DeepMind وجامعة البندقية فوسكاري بتطوير برنامج Ithaca بشكل مشترك، والذي يستخدم الذكاء الاصطناعي لمساعدة العلماء البشر في فك رموز النقوش اليونانية.
المؤلف | أضف صفرًا
المحرر | شيويه تساي، سانيانغ
علم النقوش، دراسة النقوش واللوحات التذكارية والنقوش القديمة، يربط بين أفكار وثقافة ولغة الحضارات الماضية. يواجه المجتمع الأكاديمي في الوقت الحاضر سؤالاً مهماً: كيف يمكن دراسة هذه التراثات وفهمها بعمق؟
وبشكل عام، يتطلب تفسير النقوش من علماء النقوش إكمال المهام الأساسية الثلاثة التالية:
- استعادة النص: استكمال الأجزاء المفقودة من النص؛
- الإسناد الزمني: تحديد وقت كتابة النقش؛
- الإسناد الجغرافي: تحديد الموقع الأصلي الذي تمت كتابة النقش فيه.
ولإنجاز هذه المهام، يحتاج علماء النقوش إلى إجراء دراسات مقارنة موسعة تجمع بين السياق والمجموعات النصية الموجودة. على الرغم من أن ظهور المجموعات الرقمية يمكن أن يخفف العبء على الباحثين إلى حد ما، فإن طريقة مطابقة السلاسل التي يتبعونها غالبًا ما تؤدي إلى الارتباك وسوء تقدير النتائج. وفي الوقت نفسه، وبسبب قدمها، تعرضت العديد من النقوش للتلف أو الضياع، مما جعل المهمة أكثر تعقيدا.

أيقونة إصلاح النقش
تتمتع الذكاء الاصطناعي بالقدرة على اكتشاف الأنماط الإحصائية المعقدة وتطبيقها لتحليل كميات كبيرة من البيانات التي يصعب على البشر معالجتها.. ولذلك، قام باحثون من DeepMind وجامعة Ca' Foscari في البندقية بتطوير برنامج Ithaca بشكل مشترك، والذي يهدف إلى مساعدة علماء النقوش في عمل ترميم النصوص، والإسناد الزمني، والإسناد الجغرافي.
وقد أكدت التجارب أن دقة أعمال ترميم نصوص إيثاكا وصلت إلى 62%، وكان خطأ الإسناد الزمني في غضون 30 عامًا، ووصلت دقة الإسناد الإقليمي إلى 71%، وكان لها تآزر جيد. وقد نُشرت الورقة ذات الصلة في مجلة "نيتشر".

وقد نشرت النتائج ذات الصلة في مجلة Nature
احصل على الورقة:
https://www.nature.com/articles/s41586-022-04448-z
تم توفير الكود ذي الصلة بمدينة إيثاكا مفتوح المصدر على منصة GitHub، ويمكن لخبراء النقوش أيضًا استخدام الواجهة العامة لإجراء الأبحاث.
كود المصدر: https://GitHub.com/deepmind/Ithaca
الواجهة العامة: https://Ithaca.deepmind.com
الإجراءات التجريبية
مجموعة البيانات
مجموعة النقوش القابلة للتشغيل الآلي I.PHI
أجرى الباحثون أبحاثهم بالاعتماد على مجموعة البيانات العامة القابلة للبحث في النقوش اليونانية (PHI) التابعة لمعهد باكارد للعلوم الإنسانية.
ملاحظة: PHI تعني مجموعة البيانات العامة للنقوش اليونانية القابلة للبحث التابعة لمعهد باكارد للعلوم الإنسانية
لتسهيل تشغيل الآلة، قام الباحثون بتصفية النص في PHI، وتعيين معرفات رقمية، والمواقع الموضحة المقابلة، ومعلومات الوقت للنصوص المحددة، وأخيرًا حصلوا على مجموعة بيانات I.PHI.
مجموعة بيانات I.PHI هي حاليًا أكبر مجموعة بيانات نقوش قابلة للتشغيل الآلي، وتحتوي على 78608 نقشًا.

مثال على مجموعة بيانات PHI
تدريب الخوارزمية:التدريب على 3 مهام رئيسية
1. تلوين النص: استخدم دالة فقدان الإنتروبيا المتقاطعة لإخفاء جزء من النص المدخل وتدريب نموذج إيثاكا للتنبؤ بالأحرف المقنعة؛
2. الإسناد الزمني: مع فترات زمنية مدتها 10 سنوات، قامت إيثاكا بتقسيم الفترة حوالي 800 قبل الميلاد إلى فترات زمنية ذات احتمالية متساوية، وهو ما يسمى بتوزيع احتمالية الهدف. باستخدام تباعد كولباك-ليبلر، قم بتقليل الفرق بين توزيع الاحتمالات المتوقع وتوزيع الاحتمالات المستهدف؛
3. الإسناد الإقليمي: باستخدام دالة فقدان الإنتروبيا المتقاطعة، يتم استخدام البيانات الوصفية الإقليمية كعلامة مستهدفة، ويتم تطبيق تقنية تنعيم العلامة مع معامل تنعيم 10% لتجنب الإفراط في التجهيز.
بناءً على ذلك، تم تدريب Ithaca لمدة أسبوع على 128 وحدة TPU v4 على Google Cloud Platform بحجم دفعة يبلغ 8192 نصًا ومُحسِّن LAMB بحجم 3 × 10-4 معدل التعلم يحسن معلمات إيثاكا.
هيكل النموذج:يتكون نموذج إيثاكا من 4 أجزاء:

تدفق معالجة المهام في نموذج إيثاكا
يمكن تلخيص هيكل نموذج إيثاكا في الأجزاء الأربعة التالية:
1. المدخلات: تتم معالجة النص المدخل كأحرف وكلمات، مما يضمن أن إيثاكا يمكنها فهم الأحرف الفردية ودمجها في الكلمات من أجل الفهم السياقي. يتم استبدال الكلمات غير المعروفة والفاسدة بالرمز الخاص "unk"؛
2. الجذع: يعتمد جذع إيثاكا على بنية الشبكة العصبية المتحولة المكدسة، والتي تستخدم آلية الانتباه لقياس تأثير الأحرف والكلمات المدخلة على عملية اتخاذ القرار في النموذج.
في جزء الجسم، يقوم Ithaca بدمج النص المدخل مع معلومات الموضع ويقوم بتطبيعه في تسلسل بطول يساوي عدد أحرف الإدخال، حيث يكون كل عنصر في التسلسل عبارة عن متجه تضمين مكون من 2048 بُعدًا. يتم نقل هذا التسلسل إلى 3 رؤوس مهام مختلفة؛
3. رؤوس المهام: يوجد في إيثاكا 3 رؤوس مهام مختلفة، يتكون كل رأس من شبكة عصبية تغذية أمامية ضحلة، متخصصة في مهام استعادة النص والإسناد الزمني والإسناد الإقليمي.
4. المخرجات: تقوم رؤوس المهام الثلاثة بإخراج النتائج المقابلة على التوالي.

إنتاج إيثاكا
- إصلاح النص: يتنبأ Ithaca بثلاثة أحرف مفقودة ويوفر مجموعة من أفضل 20 توقعًا لفك التشفير مرتبة حسب الاحتمالية (أ أعلاه)؛
- الإسناد الإقليمي: يقسم إيثاكا النص المدخل إلى 84 منطقة ويستخدم الخرائط والرسوم البيانية الشريطية لتنفيذ جدول تصنيف التنبؤ الإقليمي المحتمل بشكل حدسي (الشكل ب أعلاه)؛
- إسناد الوقت: لتوسيع إمكانية تفسير مهام إسناد الوقت، يرجع تاريخ إيثاكا إلى 800 قبل الميلاد إلى 800 بعد الميلاد ويتنبأ بتوزيع تصنيفي للتواريخ بدلاً من إخراج قيمة تاريخ واحدة (الشكل 2ج أعلاه).
نتائج التدريب النموذجي
مقارنة شاملة:إيثاكا لديها أداء متفوق
* 4 آليات التباين
1. المؤرخ القديم: يستخدم علماء الأنثروبولوجيا مجموعة التدريب للعثور على أوجه التشابه في النصوص ومقارنة النتائج مع إيثاكا؛
2. المؤرخ القديم وإيثاكا: توفر إيثاكا 20 ترميمًا محتملاً لعلماء النقوش، وتقيم التآزر بين إيثاكا وعلماء الأنثروبولوجيا؛
3. بايثيا: شبكة عصبية متكررة من تسلسل إلى تسلسل لمهام تلوين النصوص، وتقييم أداء تلوين النصوص في إيثاكا؛
4. علم الأسماء: استخدم الباحثون التوزيع المعروف للأسماء الشخصية اليونانية في الزمان والمكان لاستكمال الإسناد الزمني والإقليمي لمجموعة من النصوص وتقييم أداء الإسناد الزمني والإقليمي لإيثاكا.
* 3 مؤشرات تقييم رئيسية
1. معدل خطأ الأحرف (CER): يقوم بتقييم مهام إصلاح النص ويحسب الفرق الطبيعي بين أعلى تسلسل إصلاح متوقع وتسلسل الهدف؛
2. دقة أعلى k: تقوم بتقييم مهام استعادة النص أو الإسناد الإقليمي، وتحسب نسبة نتائج أعلى k ذات الاحتمالية الأعلى في نتائج التنبؤ التي تحتوي على تسميات صحيحة. غالبًا ما يتم استخدام الدقة العالية 1؛
3. مقياس المسافة (الطرق): يقوم بتقييم مهمة الإسناد الزمني ويحسب المسافة بالسنوات بين متوسط التوزيع المتوقع والفاصل الزمني الحقيقي.
* النتائج التجريبية
1. إصلاح النص

مهام إصلاح النص
أ: النقش الأصلي؛
ب: نقش رودس-أوزبورن المُرمم؛
ج: استعادة بايثيا، التي تحتوي على 74 عدم تطابق مع إصدار رودس-أوزبورن؛
د: ترميم إيثاكا، الذي يحتوي على 45 عدم تطابق مع نسخة رودس-أوزبورن؛
تظهر الأجزاء التي تم إصلاحها بشكل صحيح باللون الأخضر في الشكل، ويتم تسليط الضوء على الأخطاء باللون الأحمر.
النص الأصلي (IG II² 116) يفتقد 378 حرفًا. وبناءً على عملية الترميم التي أنجزتها شركة رودس-أوزبورن في عام 2003 (الشكل ب)، فإن معدل كفاءة الطاقة في إيثاكا هو 26.3% وتصل الدقة القصوى إلى 61.8%.
وبالمقارنة مع النقوش، فإن معدل CER في إيثاكا أقل بمقدار 2.2 مرة. دقة التنبؤ في أعلى 20 موقعًا في إيثاكا هي 78.3%، وهو أعلى بـ 1.5 مرة من بايثيا.
2. الإسناد الجغرافي

مهام الإسناد الجغرافي
وفي مهمة إسناد المنطقة، حققت إيثاكا دقة من الدرجة الأولى بلغت 70.8% ودقة من الدرجة الثالثة بلغت 82.1%.يوضح الرسم البياني أعلاه أن إيثاكا نسبت بشكل صحيح نقش العتق إلى منطقة دلفي.
3. إسناد الوقت

مهمة إسناد الوقت
بالنسبة لمهمة إسناد الوقت، كان متوسط تنبؤ الخبراء البشريين 144.4 سنة، وكان المتوسط 94.5 سنة، في حين كان متوسط الفارق بين تنبؤ إيثاكا والفاصل الزمني الحقيقي 29.3 سنة، ومتوسط الفارق 3 سنوات فقط.
وبدمج أداء إيثاكا في المهام الثلاث، يمكن تلخيص النتائج على النحو التالي:
وبالمقارنة مع الخبراء البشريين وبايثيا، أظهرت إيثاكا أداءً متفوقًا في جميع المهام الثلاث.
وعندما تعاون الخبراء البشريون مع إيثاكا، تمكنوا من تحقيق معدل دقة CER يبلغ 18.3% وأعلى دقة تبلغ 71.7%.، مما يدل على تحسن بمقدار 3.2 أضعاف و2.8 أضعاف مقارنة بالعاملين في النقوش الذين يعملون بمفردهم، وتحسن كبير مقارنة بإيثاكا التي أكملت المهمة بمفردها.إظهار التآزر المتفوق في إيثاكا.

مقارنة النتائج التجريبية لإيثاكا
إسناد الوقت:أناثاكا حل النزاعات
لقد كان تأريخ بعض النقوش مثيرا للجدل. لا يمكن لمعيار تأريخ سيجما التقليدي المستخدم في التأريخ أن يضمن الدقة، ولا يمكن لخبراء النقوش تحديد ما إذا كانت هذه النقوش قد تم إجراؤها قبل أو بعد 446/5 قبل الميلاد.
كان تاريخ النقش الموضح أدناه يرجع تقليديًا إلى 446/5 قبل الميلاد، ولكن تم مؤخرًا إعادة تأريخه إلى 424/3 قبل الميلاد.

نقش مثير للجدل (جزئي)
توجد هذه المجموعة المثيرة للجدل من النقوش في مجموعة بيانات I.PHI، وتؤدي نتائج إسناد الوقت إلى إيثاكا إلى قلب التفسير التاريخي التقليدي المبني على معيار تأريخ سيجما، ويبلغ الفرق مع الحقائق الأساسية المكتشفة حديثًا متوسط 5 سنوات.
وهذا يثبت أنيمكن أن تساعد إيثاكا المؤرخين على تضييق نطاقات التواريخ وزيادة دقة نسبهم للأحداث التاريخية.
الذكاء الاصطناعي والبشر: 1 + 1 > 2؟
إن الجزء الناتج عن إيثاكا مثير للاهتمام للغاية. إنه لا ينتج إجابة واحدة، بل يعطي نتائج متعددة محتملة للباحثين للاختيار من بينها.
من المفيد أن يتعلم منه مطورو ومستخدمو الذكاء الاصطناعي الآخرون. بدلاً من الاعتماد على مخرجات الذكاء الاصطناعي، من الأفضل استخدام الذكاء الاصطناعي "لاستكشاف الطريق"، والتخلص من بعض الإجابات الخاطئة، وتوسيع عمق واتساع التفكير المستقل.
من خلال الجمع بين القوة الحسابية للذكاء الاصطناعي والإبداع والتفكير العميق للبشر، تساعدنا إيثاكا في ابتكار نموذج جديد للعمل جنبًا إلى جنب مع الذكاء الاصطناعي.
وفي المستقبل، نتوقع أن يتعاون الذكاء الاصطناعي والعلماء البشريون لتحقيق هدف "1 + 1 > 2".
مراجع:
https://www.nature.com/articles/s41586-022-04448-z
https://www.nature.com/articles/d41586-023-03212-1
-- زيادة--