Enthält 140.000 Bilder! Die Huazhong University of Science and Technology Veröffentlicht Einen Hochwertigen Datensatz Zu Orakelknocheninschriften Und Verhalf Dem Team Damit Zum Gewinn Des ACL Best Paper Award

Betrachtet man die Gegenwart aus der Perspektive der Geschichte, hat man nie aufgehört, historische Fakten zu erforschen. Die Schrift ist zweifellos das beste Zeugnis für das Fortbestehen von Zivilisationen im Laufe der Jahrhunderte und auch eine Möglichkeit, ihren Entwicklungsprozess zu verstehen. Die Orakelknochenschrift (OBS) ist eine der ältesten bekannten systematischen Schriftformen meines Landes. Sie ist etwa 3.000 Jahre alt und trägt die Kultur der chinesischen Nation in sich.
In den letzten Jahren wurden nach und nach Orakelknocheninschriften ausgegraben, die reichhaltige Inhalte aus den Bereichen Astronomie, Meteorologie, Tierhaltung, Religion und Rituale enthalten. Ähnlich wie bei anderen antiken Schriften ist die Bedeutung vieler Orakelknocheninschriften im Laufe der Zeit verloren gegangen. Unter den 160.000 ausgegrabenen Orakelknochenstücken wurden mehr als 4.600 verschiedene Orakelknocheninschriften entdeckt, aber die Bedeutung von nur etwa 1.500 Orakelknocheninschriften und den entsprechenden modernen chinesischen Schriftzeichen konnte bestätigt werden.
Die Aufgabe, Orakelknochenzeichen zu entziffern, wird durch eine Reihe von Faktoren erschwert. Aufgrund unzureichender Konservierungs- und Ausgrabungsmethoden wurden in der Vergangenheit viele Orakelknochen beschädigt. Durch diese Beschädigungen werden Teile der Inschriften oft unscharf oder unleserlich, was es den Forschern erschwert, sie zu entziffern. Daher handelt es sich bei den meisten Bildern, die derzeit in der Orakelknochenforschung verwendet werden, um entrauschte und bearbeitete gescannte Bilder oder manuell transkribierte Bilder. Darüber hinaus hat die Orakelknochenschrift als frühes Schriftsystem eine erhebliche Entwicklung durchlaufen und weist große Unterschiede in der Form der Zeichen auf. Obwohl viele Zeichen unterschiedlich aussehen, entsprechen sie demselben chinesischen Schriftzeichen. Diese Variabilität erhöht die Komplexität des Entschlüsselungsprozesses.
Es ist nicht schwer festzustellen, dass es viele Faktoren gibt, die das vollständige Verständnis von Orakelknocheninschriften erschweren, doch selbst die Entzifferung eines einzigen Zeichens wird für die historische Forschung von großer Bedeutung sein.Der vor uns liegende Weg ist lang und beschwerlich, was auch bei Wissenschaftlern und Historikern auf dem Gebiet der Altchinesischen Studien großes Interesse geweckt hat.

Das Aufkommen künstlicher Intelligenz hat Forschern neue Ideen zum Verständnis dieser alten Sprache geliefert und es ermöglicht, Orakelknochen mit Hilfe der KI zu entziffern. Doch wie bei der Anwendung von KI in anderen Branchen sind umfassende und qualitativ hochwertige Datensätze unabdingbar. Derzeit gibt es im Oracle-Bereich hochwertige Datensätze wie OBI-100, OBI-125, Oracle-20k und HWOBC. Es gibt jedoch noch einige Einschränkungen, wie z. B. eine einzige Datenquelle, begrenzte Kategorien und Stichproben; enthält nur entzifferte Orakelknochen, kann keine Entzifferungsaufgaben ausführen; schlechte Datenqualität, starkes Rauschen oder einzelnes Formular.
Als Reaktion darauf schlugen Wang Pengjie und andere Mitglieder des Forschungsteams von Professor Bai Xiang an der Huazhong University of Science and Technology einen hochwertigen HUST-OBC-Datensatz vor.Aus 3 verschiedenen Quellen gesammelt, darunter Bücher, Websites und vorhandene Datensätze. Dieser Datensatz enthält zwei Arten von Oracle-Bone-Beispielbildern. Bei einem handelt es sich um die Orakelknochenbilder, die aus den verarbeiteten Scans der originalen Orakelknochenabreibungen gewonnen wurden, und bei dem anderen um die handschriftlichen Orakelknochenbilder, die auf den originalen Orakelknochen basieren, die weiter unterteilt sind in Bilder, die auf Abreibungen basieren, und handschriftliche Bilder, die auf Glyphen basieren.

Die Forschung mit dem Titel „Ein offener Datensatz zur Erkennung und Entschlüsselung von Orakelknochenschriften“ wurde von Scientific Data angenommen.
Papieradresse:
https://arxiv.org/abs/2401.15365
Laden Sie den Datensatz direkt herunter:
Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 100 AI4S-Papierinterpretationen und stellt umfangreiche Datensätze und Tools bereit:
https://github.com/hyperai/awesome-ai4s
Sammeln Sie Daten aus mehreren Quellen und bauen Sie eine halbautomatische Produktionslinie
Um einen vielfältigen Datensatz aufzubauen, sammelten die Forscher Bilder von Orakelknochen aus drei verschiedenen Quellen: Büchern, Websites und Datensätzen.Um Daten aus diesen verschiedenen Quellen zu organisieren und zusammenzuführen, wird, wie in der folgenden Abbildung dargestellt, eine halbautomatische Pipeline verwendet, die vier wichtige Schritte ausführt: Datenerfassung, automatische Annotation, Datenintegration und Datenüberprüfung.

Datenerfassung
Die Orakelknochen wurden in Schildkrötenpanzer und Tierknochen geschnitzt und über 3.000 Jahre lang unter der Erde vergraben. Diese wertvollen Artefakte sind in Museen und Privatsammlungen auf der ganzen Welt verstreut und werden sorgfältig aufbewahrt, daher ist es ziemlich schwierig, den Text auf den Original-Orakelknochen direkt zu erhalten.Um diese Schwierigkeit zu überwinden, nutzten die Forscher von Experten transkribierte Orakelknochenbilder und erlangten umfangreiche und vielfältige Orakelknochendaten, indem sie maßgebliche Bücher scannten, wissenschaftliche Websites durchsuchten und Datensätze einführten.

Automatische Beschriftung
Die gesammelten Rohdaten müssen weiter verarbeitet werden, beispielsweise durch Zuschneiden, Kommentieren und Filtern. Bei Daten aus Büchern ist es für vorhandene OCR-Tools schwierig, die chinesischen Schriftzeichen, die den Orakelknocheninschriften in den Büchern entsprechen, genau zu identifizieren, da sie relativ selten und undurchsichtig sind.Die Forscher trainierten fast 90.000 OCR-Modelle für chinesische Schriftzeichen, um Tags für chinesische Schriftzeichen automatisch zu erkennen. Die Bilder von der Website und aus der Datenbank wurden vorverarbeitet und müssen nur gefiltert und mit dem Code abgeglichen werden.

Datenintegration
Die Annotationsstandards verschiedener Quellen können unterschiedlich sein, was dazu führen kann, dass dieselben Orakelknochenzeichen in verschiedene Kategorien eingeteilt werden, beispielsweise redundante Kategorien, die durch die Annotation chinesischer Zeichenvarianten entstehen.Durch das Trainieren des unüberwachten visuellen Kontrastlernmodells MOCO werden ähnliche Beispiele in derselben Kategorie zusammengeführt, um redundante Kategorien zu reduzieren.

Datenvalidierung
Bei der automatischen Datenerfassung und Annotation können Fehler auftreten.Die Forscher luden Orakelwissenschaftler ein, eine manuelle Überprüfung und Anleitung durchzuführen, um die Genauigkeit der Daten sicherzustellen, und erstellten schließlich den HUST-OBC-Datensatz.
Der HUST-OBC-Datensatz, den die Forscher schließlich erstellten, enthält 77.064 Bilder mit 1.588 entzifferten Zeichen und 62.989 nicht entzifferten Bildern, also insgesamt 140.053 Bilder.Nachfolgend werden einige der entschlüsselten und nicht entschlüsselten Daten angezeigt.

Um die Qualität des Datensatzes zu bewerten,Das KI-Modell wurde mit diesem Datensatz trainiert und der entschlüsselte Teil gemäß 8:1:1 in Trainingssatz, Validierungssatz und Testsatz aufgeteilt. ResNet wurde für Bildklassifizierungsaufgaben verwendet. Die endgültige Klassifizierungsgenauigkeit betrug 94,61 TP3T und der makrodurchschnittliche F1-Score lag bei 0,914. Einige der Ergebnisse sind wie folgt:

Das Team arbeitete hart an Oracle und gewann den ACL Best Paper Award
Die Huazhong University of Science and Technology war schon immer führend in der Forschung zu Orakelknochenschriften und war eine der ersten Universitäten in China, die eine unabhängige Datenbank zu Orakelknochenschriften erstellt hat. Während die KI-Welle die traditionelle wissenschaftliche Forschung umgestaltet, sind die von Professor Bai Xiang vertretenen Forscher erneut zu Pionieren und Wegbereitern der KI-gestützten Orakelknochenforschung geworden.
Professor Bai Xiang ist derzeit ein national herausragender Nachwuchswissenschaftler und IAPR-Stipendiat. Derzeit ist er Dekan der School of Software an der Huazhong University of Science and Technology und Direktor des Hubei Engineering Research Center for Machine Vision and Intelligent Systems.Kürzlich gewann die von Professor Bai Xiang und seinem Team veröffentlichte Publikation „Deciphering Oracle Bone Language with Diffusion Models“ den ACL 2024 Best Paper Award.
Basierend auf dem HUST-OBS-Datensatz und dem EVOBC-Datensatz verwendete diese Studie ein bildbasiertes generatives Modell, um ein bedingtes Diffusionsmodell, Oracle Bone Script Decipher (OBSD), zu trainieren, das für die Entschlüsselung von Oracle Bone-Skripten optimiert ist. Dieses Modell verwendet die unsichtbaren Kategorien der Orakelknochenschrift als bedingte Eingabe, um entsprechende Bilder moderner chinesischer Schriftzeichen zu generieren, und bietet damit eine neuartige Methode für die Aufgabe der Erkennung alter Schriftzeichen, die in der natürlichen Sprachverarbeitung nur schwer zu lösen ist.

Die Ergebnisse des Auswertungsexperiments zeigen, dass die mit der OBSD-Methode eingegebenen Orakelknocheninschriften die genaueste Entzifferung moderner chinesischer Schriftzeichen ermöglichen und die komplexen Details der Orakelknocheninschriften erkennen lassen. Diese Ergebnisse unterstreichen nicht nur die Wirksamkeit von OSBD, sondern auch sein Potenzial als Expertentool zur Entschlüsselung der Orakelknochensprache.
Buchverlosung

HyperAI und der Verlag der Elektronikindustrie haben Ihnen gemeinsam kostenlose Bücher gebracht! Wir haben 5 äußerst nützliche populärwissenschaftliche Bücher „KI für die Wissenschaft: Künstliche Intelligenz treibt wissenschaftliche Innovation voran“ vorbereitet. Kommen Sie und nehmen Sie an der Verlosung teil~
So können Sie teilnehmen
Folgen Sie dem offiziellen WeChat-Konto von HyperAI, antworten Sie im Hintergrund mit „AI4S-Gratisbuch“ und klicken Sie auf die Verlosungsseite, um an der Verlosung teilzunehmen. Wir haben 5 Bücher für Sie vorbereitet, die Ihnen per Expressversand zugestellt werden. Komm und mach mit!
Bucheinführung
Von der Vorhersage der Proteinstruktur bis hin zur Ableitung der Pathogenität von Genmutationen hat uns das neue, von der KI geprägte Paradigma neue Möglichkeiten in zahlreichen wissenschaftlichen Bereichen, einschließlich der Biowissenschaften, eröffnet.
Das Buch „KI für die Wissenschaft: Künstliche Intelligenz fördert wissenschaftliche Innovationen“ konzentriert sich auf die bereichsübergreifende Integration künstlicher Intelligenz in fünf große Bereiche: Materialwissenschaften, Biowissenschaften, Elektronik, Energiewissenschaften und Umweltwissenschaften. Es verwendet eine leicht verständliche Sprache, um grundlegende Konzepte, technische Prinzipien und Anwendungsszenarien umfassend vorzustellen und ermöglicht es den Lesern, sich schnell die Grundkenntnisse der KI für die Wissenschaft anzueignen. Darüber hinaus bietet das Buch für jeden bereichsübergreifenden Bereich eine detaillierte Einführung anhand von Fallbeispielen, gliedert die Branchenübersicht und vermittelt relevante politische Erkenntnisse.