HyperAI

يحتوي على 140,000 صورة! أصدرت جامعة هواتشونغ للعلوم والتكنولوجيا مجموعة بيانات عالية الجودة لنقوش عظام أوراكل، مما ساعد الفريق على الفوز بجائزة ACL لأفضل ورقة بحثية

特色图像

إذا نظرنا إلى الحاضر من منظور التاريخ، نجد أن الناس لم يتوقفوا أبدًا عن استكشاف الحقائق التاريخية. إن الكتابة هي بلا شك أفضل علامة على بقاء الحضارات عبر العصور، كما أنها وسيلة لفهم عملية تطورها. يعتبر خط العظام الصيني (OBS) أحد أقدم أشكال الكتابة المنهجية المعروفة في بلدي، ويعود تاريخه إلى حوالي 3000 عام، ويحمل ثقافة الأمة الصينية.

في السنوات الأخيرة، تم اكتشاف نقوش عظام أوراكل واحدة تلو الأخرى، تسجل محتوى غنيًا بما في ذلك علم الفلك، والأرصاد الجوية، وتربية الحيوانات، والدين والطقوس. على غرار النصوص القديمة الأخرى، فقد ضاع معنى العديد من نقوش العظام مع مرور الوقت. من بين 160 ألف قطعة من عظام الوحي التي تم اكتشافها، تم اكتشاف أكثر من 4600 نقش عظمي مختلف، ولكن تم تأكيد معاني حوالي 1500 نقش عظمي فقط والحروف الصينية الحديثة المقابلة.

إن مهمة فك رموز أحرف عظام الوحي معقدة بسبب عدد من العوامل. لقد أدت طرق الحفظ والحفر غير الكافية في الماضي إلى إتلاف العديد من عظام العرافة. وكثيراً ما يؤدي هذا الضرر إلى جعل النقوش غير واضحة جزئياً أو غير قابلة للقراءة، مما يجعل من الصعب على الباحثين فك رموزها. لذلك، فإن معظم الصور المستخدمة حاليًا في أبحاث عظام الأوراكل هي صور ممسوحة ضوئيًا خالية من الضوضاء ومعالجة أو صور منقولة يدويًا. بالإضافة إلى ذلك، وباعتبارها نظام كتابة مبكر، خضعت كتابة عظام الوحي لتطور كبير، وهناك اختلافات كبيرة في شكل الأحرف. على الرغم من أن العديد من الأحرف لها مظهر مختلف، إلا أنها تتوافق مع نفس الحرف الصيني. ويؤدي هذا التنوع إلى زيادة تعقيد عملية فك التشفير.

ليس من الصعب أن نجد أن العديد من العوامل تجعل من الصعب فهم نقوش العظام بشكل كامل، ولكن فك رموز حرف واحد فقط سيكون له أهمية كبيرة للبحث التاريخي.إن الطريق أمامنا طويل وشاق، مما أثار اهتمامًا كبيرًا بين العلماء والمؤرخين في مجال الدراسات الصينية القديمة.

اكتشف علماء الآثار نقوشًا عظمية عمرها 3000 عام

لقد قدّم ظهور الذكاء الاصطناعي للباحثين أفكارًا جديدة لفهم هذه اللغة القديمة، مما جعل فك رموز عظام العرافة أمرًا ممكنًا بمساعدة الذكاء الاصطناعي. ولكن كما هو الحال مع تطبيق الذكاء الاصطناعي في الصناعات الأخرى، فإن مجموعات البيانات الشاملة وعالية الجودة تشكل أمرا ضروريا. في الوقت الحاضر، توجد مجموعات بيانات عالية الجودة في مجال أوراكل، مثل OBI-100، وOBI-125، وOracle-20k، وHWOBC. ومع ذلك، لا تزال هناك بعض القيود، مثل مصدر بيانات واحد، وفئات وعينات محدودة؛ يحتوي فقط على عظام أوراكل مفكوكة الشفرات، وغير قادر على أداء مهام فك الشفرات؛ جودة البيانات رديئة، أو ضوضاء عالية، أو شكل واحد.

ردًا على ذلك، اقترح وانج بينججي وآخرون من فريق البحث التابع للبروفيسور باي شيانج في جامعة هواتشونغ للعلوم والتكنولوجيا مجموعة بيانات HUST-OBC عالية الجودة.تم جمعها من 3 مصادر مختلفة بما في ذلك الكتب ومواقع الويب ومجموعات البيانات الموجودة. تحتوي مجموعة البيانات هذه على نوعين من صور عينات عظام الأوراكل. أحدها هو صور عظام الوحي التي تم الحصول عليها من عمليات المسح المعالجة لفرك عظام الوحي الأصلية، والآخر هو صور عظام الوحي المكتوبة بخط اليد استنادًا إلى عظام الوحي الأصلية، والتي تنقسم بدورها إلى صور تعتمد على الفرك وصور مكتوبة بخط اليد تعتمد على الحروف الهيروغليفية.

مقارنة HUST-OBC مع مجموعات البيانات الأخرى

تم قبول البحث، الذي يحمل عنوان "مجموعة بيانات مفتوحة للتعرف على نصوص عظام الوحي وفك تشفيرها"، من قبل شركة Scientific Data.

عنوان الورقة:

https://arxiv.org/abs/2401.15365

تنزيل مجموعة البيانات مباشرة:

https://go.hyper.ai/46AiA

يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:

https://github.com/hyperai/awesome-ai4s

جمع البيانات من مصادر متعددة وبناء خط إنتاج شبه آلي

لبناء مجموعة بيانات متنوعة، جمع الباحثون صور عظام العرافة من ثلاثة مصادر مختلفة: الكتب، ومواقع الويب، ومجموعات البيانات.ومن أجل تنظيم البيانات ودمجها من هذه المصادر المختلفة، كما هو موضح في الشكل أدناه، يتم استخدام خط أنابيب شبه آلي لإجراء أربع خطوات رئيسية: الحصول على البيانات، والتعليق التلقائي، ودمج البيانات، والتحقق من البيانات.

مخطط انسيابي لبناء مجموعة بيانات HUST-OBC

اكتساب البيانات

تم نحت عظام العرافة على أصداف السلاحف وعظام الحيوانات ودفنها تحت الأرض لأكثر من 3000 عام. تنتشر هذه القطع الأثرية الثمينة في المتاحف والمجموعات الخاصة في جميع أنحاء العالم، ويتم الحفاظ عليها بعناية، لذلك من الصعب للغاية الحصول على النص الموجود على عظام الوحي الأصلية بشكل مباشر.وللتغلب على هذه الصعوبة، استخدم الباحثون صور عظام أوراكل التي قام خبراء بنسخها، وحصلوا على بيانات عظام أوراكل غنية ومتنوعة من خلال مسح الكتب الموثوقة، وتصفح المواقع الأكاديمية، وإدخال مجموعات البيانات.

اكتساب البيانات ومعالجتها

وضع العلامات التلقائية

تحتاج البيانات الخام المجمعة إلى معالجة إضافية، مثل القص والتعليق والتصفية. بالنسبة للبيانات الموجودة في الكتب، من الصعب على أدوات التعرف الضوئي على الحروف (OCR) الحالية التعرف بدقة على الأحرف الصينية المقابلة لنقوش عظام الوحي في الكتب لأنها نادرة وغامضة نسبيًا.قام الباحثون بتدريب ما يقرب من 90 ألف نموذج OCR للأحرف الصينية لتحديد علامات الأحرف الصينية تلقائيًا. لقد تمت معالجة الصور من الموقع وقاعدة البيانات مسبقًا ولا تتطلب سوى التصفية ومطابقة التعليمات البرمجية.

طريقة التعرف الضوئي على الحروف الصينية التلقائية

تكامل البيانات

قد تختلف معايير التوضيح للمصادر المختلفة، مما يؤدي إلى تصنيف نفس أحرف عظام الوحي في فئات مختلفة، مثل الفئات المكررة الناجمة عن توضيح المتغيرات الخاصة بالأحرف الصينية.من خلال تدريب نموذج التعلم التباين البصري غير الخاضع للإشراف MOCO، يتم دمج العينات المتشابهة في نفس الفئة لتقليل الفئات المكررة.

التعلم التبايني في تكامل البيانات

التحقق من صحة البيانات

قد تكون هناك أخطاء في عملية الاستحواذ التلقائي للبيانات والتعليق عليها.قام الباحثون بدعوة علماء أوراكل لإجراء مراجعة يدوية وإرشادات لضمان دقة البيانات، وأخيرًا قاموا بتشكيل مجموعة بيانات HUST-OBC.

تحتوي مجموعة بيانات HUST-OBC التي أنشأها الباحثون في النهاية على 77064 صورة لـ 1588 حرفًا تم فك شفرتها و62989 صورة لم يتم فك شفرتها، بإجمالي 140053 صورة.فيما يلي عرض لبعض البيانات التي تم فك شفرتها والتي لم يتم فك شفرتها.

أمثلة على صور النقوش العظمية المفكوكة وغير المفكوكة

لتقييم جودة مجموعة البيانات،تم تدريب نموذج الذكاء الاصطناعي باستخدام مجموعة البيانات هذه، وتم تقسيم الجزء الذي تم فك شفرته إلى مجموعة تدريب ومجموعة تحقق ومجموعة اختبار وفقًا لـ 8:1:1. تم استخدام ResNet لمهام تصنيف الصور. بلغت دقة التصنيف النهائي 94.6% وكان متوسط النتيجة الكلية لـ F1 0.914. بعض النتائج هي كما يلي:

مثال على مقاييس التصنيف لـ Oracle

عمل الفريق بجد على Oracle وفاز بجائزة ACL لأفضل ورقة بحثية

كانت جامعة هواتشونغ للعلوم والتكنولوجيا دائمًا في طليعة أبحاث نصوص عظام أوراكل وهي واحدة من أوائل الجامعات في الصين التي قامت ببناء قاعدة بيانات مستقلة لنصوص عظام أوراكل. مع إعادة تشكيل موجة الذكاء الاصطناعي للبحث العلمي التقليدي، أصبح الباحثون ممثلين بالأستاذ الجامعي باي شيانغ مرة أخرى روادًا ومبتكرين في مجال أبحاث عظام أوراكل المدعومة بالذكاء الاصطناعي.

يشغل البروفيسور باي شيانغ حاليًا منصب عالم شاب متميز على المستوى الوطني وزميل IAPR. وهو يشغل حاليًا منصب عميد كلية البرمجيات في جامعة هواتشونغ للعلوم والتكنولوجيا ومدير مركز أبحاث هندسة هوبي للرؤية الآلية والأنظمة الذكية.مؤخرًا، فاز بحث "فك شفرة لغة عظام أوراكل باستخدام نماذج الانتشار" الذي نشره البروفيسور باي شيانغ وفريقه بجائزة ACL 2024 لأفضل بحث.

استنادًا إلى مجموعة بيانات HUST-OBS ومجموعة بيانات EVOBC، استخدمت هذه الدراسة نموذجًا توليديًا قائمًا على الصور لتدريب نموذج الانتشار الشرطي، Oracle Bone Script Decipher (OBSD)، والذي تم تحسينه لفك تشفير نصوص Oracle Bone. يستخدم هذا النموذج الفئات غير المرئية من نصوص عظام أوراكل كمدخلات مشروطة لتوليد صور أحرف صينية حديثة مقابلة، مما يوفر طريقة جديدة لمهمة التعرف على الأحرف القديمة التي يصعب حلها في معالجة اللغة الطبيعية.

نموذج الانتشار الشرطي لفك تشفير Oracle

تظهر نتائج تجربة التقييم أن نقوش عظام الوحي المدخلة من خلال طريقة OBSD يمكن أن تنتج فك تشفير أحرف صينية حديثة بدقة عالية ويمكنها تمييز التفاصيل المعقدة لنقوش عظام الوحي. لا تسلط هذه النتائج الضوء على فعالية OSBD فحسب، بل تسلط الضوء أيضًا على إمكاناتها كأداة متخصصة لفك رموز لغة عظام أوراكل.

رسم الكتاب

لقد قدمت لك HyperAI ودار نشر صناعة الإلكترونيات كتبًا مجانية بشكل مشترك! لقد أعددنا 5 كتب علمية شعبية مفيدة للغاية بعنوان "الذكاء الاصطناعي من أجل العلم: الذكاء الاصطناعي يقود الابتكار العلمي"، تعال وشارك في السحب المحظوظ ~

كيفية المشاركة

اتبع الحساب الرسمي لـ HyperAI WeChat، وأجب بـ "كتاب AI4S المجاني" في الخلفية، وانقر على صفحة السحب المحظوظ للمشاركة في السحب المحظوظ. لقد قمنا بإعداد 5 كتب لك، والتي سيتم تسليمها إليك عن طريق التوصيل السريع. تعالوا وشاركوا!

مقدمة الكتاب

من التنبؤ ببنية البروتين إلى استنتاج مسببات الأمراض من الطفرات الجينية، سمح لنا النموذج الجديد الذي تقوده الذكاء الاصطناعي برؤية فرص جديدة في مختلف المجالات العلمية، بما في ذلك علوم الحياة.

يركز كتاب "الذكاء الاصطناعي من أجل العلوم: الذكاء الاصطناعي يقود الابتكار العلمي" على التكامل المتبادل للذكاء الاصطناعي مع خمسة مجالات رئيسية: علم المواد، وعلوم الحياة، والعلوم الإلكترونية، وعلوم الطاقة، وعلوم البيئة. ويستخدم لغة سهلة الفهم لتقديم المفاهيم الأساسية والمبادئ التقنية وسيناريوهات التطبيق بشكل شامل، مما يسمح للقراء بإتقان المعرفة الأساسية للذكاء الاصطناعي للعلوم بسرعة. وبالإضافة إلى ذلك، يقدم الكتاب لكل مجال متقاطع مقدمة مفصلة من خلال الحالات، ويوضح خريطة الصناعة، ويقدم رؤى سياسية ذات صلة.