Contient 140 000 Images ! L'Université Des Sciences Et Technologies De Huazhong Publie Un Ensemble De Données De Haute Qualité Sur Les Inscriptions Sur Os D'oracle, Aidant L'équipe À Remporter Le Prix Du Meilleur Article De L'acl

En regardant le présent du point de vue de l’histoire, les gens n’ont jamais cessé d’explorer les faits historiques. L’écriture est sans aucun doute le meilleur signe de la survie des civilisations à travers les âges, et c’est aussi un moyen de comprendre leur processus de développement. L'écriture osseuse oraculaire (OBS) est l'une des premières formes d'écriture systématiques connues dans mon pays, datant d'environ 3 000 ans, et porte la culture de la nation chinoise.
Ces dernières années, des inscriptions sur os d'oracle ont été découvertes les unes après les autres, enregistrant un contenu riche, notamment sur l'astronomie, la météorologie, l'élevage, la religion et les rituels. Comme pour d’autres écritures anciennes, la signification de nombreuses inscriptions sur os d’oracle a été perdue au fil du temps. Parmi les 160 000 morceaux d'os d'oracle qui ont été déterrés, plus de 4 600 inscriptions différentes sur os d'oracle ont été découvertes, mais la signification d'environ 1 500 inscriptions sur os d'oracle et des caractères chinois modernes correspondants a été confirmée.
La tâche de déchiffrer les caractères des os d’oracle est compliquée par un certain nombre de facteurs. Des méthodes de préservation et d’excavation inadéquates dans le passé ont entraîné des dommages à de nombreux os d’oracle. Ces dommages rendent souvent certaines parties des inscriptions floues ou illisibles, ce qui rend leur déchiffrement plus difficile pour les chercheurs. Par conséquent, la plupart des images actuellement utilisées dans la recherche sur les os d'oracle sont des images numérisées débruitées et traitées ou des images transcrites manuellement. De plus, en tant que système d'écriture ancien, l'écriture sur os d'oracle a connu une évolution significative et il existe de grandes différences dans la forme des caractères. Bien que de nombreux caractères aient des apparences différentes, ils correspondent au même caractère chinois. Cette variabilité augmente la complexité du processus de déchiffrement.
Il n’est pas difficile de constater que de nombreux facteurs rendent difficile la compréhension complète des inscriptions sur os d’oracle, mais même le déchiffrement d’un seul caractère sera d’une grande importance pour la recherche historique.Le chemin à parcourir est long et ardu, ce qui a également suscité un grand intérêt parmi les chercheurs et les historiens du domaine des études chinoises anciennes.

L’émergence de l’intelligence artificielle a fourni aux chercheurs de nouvelles idées pour comprendre cette langue ancienne, permettant de déchiffrer les os d’oracle à l’aide de l’IA. Mais comme pour l’application de l’IA dans d’autres secteurs, des ensembles de données complets et de haute qualité sont essentiels. À l’heure actuelle, il existe des ensembles de données de haute qualité dans le domaine des oracles, tels que OBI-100, OBI-125, Oracle-20k et HWOBC. Il existe néanmoins encore certaines limitations, comme une source de données unique, des catégories et des échantillons limités ; contenant uniquement des os d'oracle déchiffrés, incapable d'effectuer des tâches de déchiffrement ; mauvaise qualité des données, bruit élevé ou forme unique.
En réponse à cela, Wang Pengjie et d'autres membres de l'équipe de recherche du professeur Bai Xiang à l'Université des sciences et technologies de Huazhong ont proposé un ensemble de données HUST-OBC de haute qualité.Recueilli à partir de 3 sources différentes, notamment des livres, des sites Web et des ensembles de données existants. Cet ensemble de données contient deux types d’images d’échantillons d’os d’oracle. L'une est constituée des images d'os d'oracle obtenues à partir des numérisations traitées des frottages d'os d'oracle originaux, et l'autre est constituée des images d'os d'oracle manuscrites basées sur les os d'oracle originaux, qui sont ensuite subdivisées en images basées sur des frottages et en images manuscrites basées sur des glyphes.

La recherche, intitulée « Un ensemble de données ouvert pour la reconnaissance et le déchiffrement des scripts osseux d'oracle », a été acceptée par Scientific Data.
Adresse du document :
https://arxiv.org/abs/2401.15365
Téléchargez directement le jeu de données :
Le projet open source « awesome-ai4s » rassemble plus de 100 interprétations d'articles AI4S et fournit des ensembles de données et des outils massifs :
https://github.com/hyperai/awesome-ai4s
Collectez des données provenant de plusieurs sources et construisez une ligne de production semi-automatisée
Pour créer un ensemble de données diversifié, les chercheurs ont collecté des images d’os d’oracle à partir de trois sources différentes : des livres, des sites Web et des ensembles de données.Afin d'organiser et de fusionner les données provenant de ces différentes sources, comme le montre la figure ci-dessous, un pipeline semi-automatisé est utilisé pour effectuer quatre étapes clés : l'acquisition des données, l'annotation automatique, l'intégration des données et la vérification des données.

Acquisition de données
Les os d'oracle ont été sculptés sur des carapaces de tortues et des os d'animaux et enterrés sous terre pendant plus de 3 000 ans. Ces précieux artefacts sont dispersés dans des musées et des collections privées du monde entier et sont soigneusement préservés, il est donc assez difficile d'obtenir directement le texte sur les os d'oracle originaux.Pour surmonter cette difficulté, les chercheurs ont utilisé des images d’os d’oracle transcrites par des experts et ont obtenu des données d’os d’oracle riches et diverses en numérisant des livres faisant autorité, en parcourant des sites Web universitaires et en introduisant des ensembles de données.

Étiquetage automatique
Les données brutes collectées nécessitent un traitement supplémentaire, tel que le recadrage, l'annotation et le filtrage. Pour les données provenant de livres, il est difficile pour les outils OCR existants d’identifier avec précision les caractères chinois correspondant aux inscriptions sur os d’oracle dans les livres, car ils sont relativement rares et obscurs.Les chercheurs ont formé près de 90 000 modèles OCR de caractères chinois pour identifier automatiquement les balises de caractères chinois. Les images du site Web et de la base de données ont été prétraitées et ne nécessitent qu'un filtrage et une correspondance de code.

Intégration des données
Les normes d'annotation des différentes sources peuvent être différentes, ce qui entraîne la classification des mêmes caractères d'os d'oracle dans différentes catégories, telles que des catégories redondantes causées par l'annotation de variantes de caractères chinois.En formant le modèle d'apprentissage de contraste visuel non supervisé MOCO, des échantillons similaires sont fusionnés dans la même catégorie pour réduire les catégories redondantes.

Validation des données
Il peut y avoir des erreurs dans le processus automatique d’acquisition et d’annotation des données.Les chercheurs ont invité des spécialistes de l'oracle à effectuer un examen manuel et des conseils pour garantir l'exactitude des données, et ont finalement formé l'ensemble de données HUST-OBC.
L'ensemble de données HUST-OBC que les chercheurs ont finalement construit contient 77 064 images de 1 588 caractères déchiffrés et 62 989 images non déchiffrées, pour un total de 140 053 images.Ce qui suit est un affichage de certaines des données qui ont été déchiffrées et non déchiffrées.

Pour évaluer la qualité de l'ensemble de données,Le modèle d'IA a été formé à l'aide de cet ensemble de données et la partie déchiffrée a été divisée en ensemble de formation, ensemble de validation et ensemble de test selon 8:1:1. ResNet a été utilisé pour les tâches de classification d'images. La précision de classification finale était de 94,6% et le score macro-moyen F1 était de 0,914. Voici quelques-uns des résultats obtenus :

L'équipe a travaillé dur sur Oracle et a remporté le prix du meilleur article de l'ACL
L'Université des sciences et technologies de Huazhong a toujours été à l'avant-garde de la recherche sur les scripts d'os d'oracle et est l'une des premières universités en Chine à créer une base de données indépendante de scripts d'os d'oracle. Alors que la vague de l'IA remodèle la recherche scientifique traditionnelle, les chercheurs représentés par le professeur Bai Xiang sont redevenus des pionniers et des éclaireurs dans la recherche sur les os oracles basée sur l'IA.
Le professeur Bai Xiang est actuellement un jeune scientifique exceptionnel au niveau national et membre de l'IAPR. Il est actuellement doyen de l'École de logiciels de l'Université des sciences et technologies de Huazhong et directeur du Centre de recherche en ingénierie du Hubei pour la vision artificielle et les systèmes intelligents.Récemment, « Deciphering Oracle Bone Language with Diffusion Models » publié par le professeur Bai Xiang et son équipe a remporté le prix du meilleur article de l'ACL 2024.
Sur la base de l'ensemble de données HUST-OBS et de l'ensemble de données EVOBC, cette étude a utilisé un modèle génératif basé sur l'image pour former un modèle de diffusion conditionnelle, Oracle Bone Script Decipher (OBSD), qui est optimisé pour le déchiffrement de scripts Oracle Bone. Ce modèle utilise les catégories invisibles du script osseux d'oracle comme entrée conditionnelle pour générer des images de caractères chinois modernes correspondantes, fournissant une nouvelle méthode pour la tâche de reconnaissance de caractères anciens qui est difficile à résoudre dans le traitement du langage naturel.

Les résultats de l'expérience d'évaluation montrent que les inscriptions sur os d'oracle saisies via la méthode OBSD peuvent produire le déchiffrement de caractères chinois modernes le plus précis et peuvent discerner les détails complexes des inscriptions sur os d'oracle. Ces résultats soulignent non seulement l’efficacité de l’OSBD, mais également son potentiel en tant qu’outil expert pour le déchiffrement du langage des os d’oracle.
Tirage au sort du livre

HyperAI et la maison d'édition de l'industrie électronique vous ont conjointement proposé des livres gratuits ! Nous avons préparé 5 livres de vulgarisation scientifique super utiles « AI pour la science : l'intelligence artificielle stimule l'innovation scientifique », venez participer au tirage au sort~
Comment participer
Suivez le compte officiel HyperAI WeChat, répondez « Livre gratuit AI4S » en arrière-plan et cliquez sur la page du tirage au sort pour participer au tirage au sort. Nous avons préparé pour vous 5 livres qui vous seront livrés par livraison express. Venez participer !
Présentation du livre
De la prédiction de la structure des protéines à la déduction de la pathogénicité des mutations génétiques, le nouveau paradigme porté par l’IA nous a permis de voir de nouvelles opportunités dans divers domaines scientifiques, y compris les sciences de la vie.
Le livre « AI for Science: Artificial Intelligence Drives Scientific Innovation » se concentre sur l'intégration croisée de l'intelligence artificielle avec cinq domaines majeurs : la science des matériaux, les sciences de la vie, la science électronique, la science de l'énergie et la science de l'environnement. Il utilise un langage facile à comprendre pour présenter de manière exhaustive les concepts de base, les principes techniques et les scénarios d'application, permettant aux lecteurs de maîtriser rapidement les connaissances de base de l'IA pour la science. En outre, pour chaque domaine transversal, le livre fournit une introduction détaillée à travers des cas, trie la carte du secteur et donne des informations politiques pertinentes.