HyperAI超神経

140,000枚の画像を収録!華中科技大学は高品質の Oracle データセットをリリースし、チームが ACL 最優秀論文賞を受賞するのに貢献しました

特色图像

歴史の観点から現在を見ると、人々は歴史的事実の探求を決してやめません。間違いなく、文字を書くことは過去の文明の存続を示す最良の痕跡であり、その発展過程を理解する方法でもあります。 Oracle Bone Script (OBS) は、我が国で知られている最も初期の体系的な文字形式の 1 つで、その起源は約 3,000 年前に遡り、中華民族の文化を伝えています。

近年、甲骨碑文が次々と発掘され、天文学、気象学、畜産、宗教、祭祀など豊富な内容が記録されている。他の古代文書と同様に、多くの甲骨文書の意味は時間の経過とともに失われています。出土した甲骨16万点のうち、4,600種以上の甲骨文字が発見されているが、その意味と現代の漢字との対応が確認されている甲骨文字は約1,500点のみである。

オラクル文字レベルを解読する作業は、多くの要因によって複雑になります。過去の不適切な保存方法と発掘方法により、多くの甲骨が損傷し、その損傷によって碑文の一部がぼやけたり判読できなくなったりすることが多く、研究者による解読がさらに困難になっています。その結果、現在オラクルの研究で使用されている画像のほとんどは、ノイズ除去および処理されたスキャン画像または手動で転写された画像です。さらに、甲骨文字は初期の文字体系として大幅な進化を遂げており、多くの文字は異なる形状を持っていますが、この多様性により解読プロセスの複雑さが増しています。

甲骨文字を完全に理解することは多くの要因で困難であることは容易にわかりますが、たとえ 1 文字でも解読することは歴史研究にとって大きな意味を持ちます。この道は険しく困難であり、それが古代中国研究の分野の学者や歴史家の間でも強い関心を呼んでいます。

3,000年前の甲羅の骨、考古学者が発見

人工知能の出現により、研究者はこの古代言語を理解する新たな方法を提供され、AI を利用した甲骨の解読が可能になりました。ただし、他の業界の AI アプリケーションと同様に、包括的で高品質のデータセットが不可欠です。現在、甲骨の分野ではOBI-100、OBI-125、Oracle-20k、HWOBCなどの高品質なデータセットが登場していますが、単一のデータソース、限定されたカテゴリ、およびデータセットなどのいくつかの制限がまだあります。サンプル; 解読されたオラクルボーンのみが含まれています。解読タスクを実行できません。データセットの品質が低く、ノイズが多いか、単一の形式です。

これに応えて、華中科技大学のBai Xiang教授の研究チームのWang Pengjieらは、高品質のHUST-OBCデータセットを提案した。書籍、Web サイト、既存のデータセットを含む 3 つの異なるソースから収集。このデータセットには、2 種類の甲骨碑文のサンプル画像が含まれています。1 つはオリジナルの甲骨碑文を擦って処理したスキャンから得られた甲骨碑文画像、もう 1 つはオリジナルの甲骨碑文に基づく手書きの甲骨碑文画像です。これはさらに、ラビング トレース ベースの画像とグリフ ベースの手書き画像に細分されます。

HUST-OBC と他のデータセットの比較

この研究は「甲骨文字の認識と解読のためのオープンデータセット」というタイトルで、Scientific Data に受理されました。

用紙のアドレス:

https://arxiv.org/abs/2401.15365

データセットを直接ダウンロードします。

https://go.hyper.ai/46AiA

オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。

https://github.com/hyperai/awesome-ai4s

複数のソースからデータを収集し、半自動パイプラインを構築する

多様なデータセットを構築するために、研究者らは 3 つの異なるソース、つまり書籍、Web サイト、データセットからオラクル画像を収集しました。これらの異なるソースからのデータを整理して結合するために、以下の図に示すように、データ取得、自動アノテーション、データ統合、データ検証の 4 つの主要なステップが半自動パイプラインを通じて実行されます。

HUST-OBC データセットを構築するためのフローチャート

データ取得

亀の甲羅や動物の骨に刻まれた甲骨文字は、3,000年以上にわたって地中に埋蔵されており、世界中の博物館や個人コレクションに点在し、大切に保存されているため、その文字を直接入手することができます。甲骨の碑文はかなり難しいです。この困難を克服するために、研究者らは専門家によって転写されたオラクル画像を使用して、権威ある書籍をスキャンし、学術ウェブサイトをクローリングし、データセットを導入することにより、豊富で多様なオラクルデータを取得しました。

データの取得と処理

自動ラベル付け

収集された生データには、トリミング、注釈、フィルタリングなどのさらなる処理が必要です。書籍由来のデータの場合、書籍に記載されている甲骨文に相当する漢字は比較的希少かつ希少であるため、既存のOCRツールでは正確に識別することが困難です。研究者らは、Web サイトやデータベースからの漢字タグを自動的に認識できるように約 90,000 個の漢字 OCR モデルをトレーニングしました。必要なのはフィルタリングとコード照合だけです。

漢字自動採点OCR方式

データ統合

ソースごとにアノテーション標準が異なる場合があり、その結果、同じ Oracle 文字が異なるカテゴリに分類されることがあります (漢字異体字のアノテーションによって生じる重複カテゴリなど)。教師なし視覚コントラスト学習モデル MOCO をトレーニングすることにより、類似したサンプルが同じカテゴリにマージされ、冗長なカテゴリが削減されます。

データ統合における比較学習

データの検証

自動データ取得と注釈のプロセスでエラーが発生する可能性があります。研究者らは、Oracle の研究者に手動によるレビューと指導を実施してデータの正確性を確保するよう依頼し、最終的に HUST-OBC データセットを形成しました。

研究者らによって最終的に構築された HUST-OBC データセットには、1,588 個の解読された文字を含む 77,064 個の画像と 62,989 個の未解読画像、合計 140,053 個の画像が含まれています。以下は、解読されたデータと解読されていないデータの部分的な表示です。

oracle の解読された部分と解読されていない部分のサンプル画像

データセットの品質を評価するには、このデータセットを使用して AI モデルをトレーニングし、解読された部分を 8:1:1 に従ってトレーニング セット、検証セット、テスト セットに分割し、画像分類タスクに ResNet を使用します。最終的な分類精度は 94.6% で、マクロ平均 F1 スコアは 0.914 です。いくつかの結果は次のとおりです。

Oracle の例の分類メトリック

チームは Oracle に深く関与しており、ACL で最優秀論文を獲得するために協力しています。

華中科技大学は、甲骨碑文の研究において常に時代の最前線に立っており、中国で初めて独立した甲骨碑文図書館を設立した大学の一つです。 AI の波が従来の科学研究を再構築する中、Bai Xiang 教授に代表される研究者は再び AI 対応の Oracle 研究の先駆者および道筋を探る者となっています。

Bai Xiang 教授は現在、国家優秀若手研究者、IAPR フェロー、華中科技大学ソフトウェア学部長、湖北省マシンビジョンおよびインテリジェントシステム工学研究センター所長を務めています。最近、Bai Xiang教授と彼のチームが発表した「拡散モデルによるOracle Bone Languageの解読」がACL 2024 Best Paper Awardを受賞しました。

この研究は、HUST-OBS データ セットと EVOBC データ セットに基づいており、画像ベースの生成モデルを使用して、Oracle の解読用に最適化された条件付き拡散モデル Oracle Bone Script Decipher (OBSD) をトレーニングします。このモデルは、Oracle の非表示のカテゴリ (目に見えないカテゴリ) を条件入力として使用して、対応する現代漢字画像を生成し、自然言語処理では解決するのが難しい古代文字認識タスクに新しい方法を提供します。

Oracle デコードの条件付き拡散モデル

評価実験の結果、OBSD方式で甲骨を入力することで現代漢字の最も正確な解読が可能となり、甲骨の複雑な細部まで識別できることがわかりました。この結果は、OSBDの有効性を示すだけでなく、専門家としての可能性を浮き彫りにします。甲骨言語を解読するためのツール。

宝くじとギフトブック

HyperAI と Electronic Industry Press が書籍の特典を提供しました。超有益な人気科学書「AI for Science: Artificial Intelligence Drives Scientific Innovation」を5冊ご用意しましたので、ぜひ抽選にご参加ください~

参加方法

HyperAI公式アカウントをフォローし、裏にある「AI4S書籍プレゼント」にリプライして抽選ページをクリックすると抽選に参加できます 計5冊をご用意し、速達でお届けいたします。ぜひご参加ください!

本の紹介

タンパク質構造の予測から遺伝子変異の病原性の推測に至るまで、AI が主導する新しいパラダイムにより、生命科学を含むさまざまな科学分野で新たな機会が見られるようになりました。

『科学のための AI: 人工知能が科学イノベーションを推進する』 では、人工知能と材料科学、生命科学、電子科学、エネルギー科学、環境科学の 5 つの主要分野の交差点と統合に焦点を当て、わかりやすく解説しています。基本概念、技術原理、応用シナリオが包括的に紹介されており、読者は科学向け AI の基礎知識をすぐに習得できます。さらに本書では、横断的な分野ごとに事例を交えて詳しく紹介し、業界地図を整理し、関連する政策のインスピレーションを与えてくれる。