HyperAIHyperAI

Command Palette

Search for a command to run...

SIMARA:フルページからのキー値情報抽出を目的としたデータベース

Solène Tarride Mélodie Boillet Jean-François Moufflet Christopher Kermorvant

概要

我々は、歴史的手書き文書からの情報抽出を目的とした新しいデータベースを提案する。このコーパスは、18世紀から20世紀にかけて作成された6つの異なるシリーズからなる合計5,393件の「検索案内書(finding aids)」を含んでいる。検索案内書とは、古文書アーカイブの内容を記述するメタデータを含む手書き文書であり、フランス国立公文書館(Archives nationales de France)に保管されており、アーカイブ担当者が古文書を特定・検索する際に用いられる。各文書はページ単位でアノテーションが施されており、抽出対象となる7つのフィールドを含んでいる。ただし、各フィールドの位置情報(ローカライゼーション)は提供されていないため、このデータセットは情報抽出におけるセグメンテーション不要(segmentation-free)なシステムの研究を促進することを目的としている。本研究では、Transformerアーキテクチャに基づくエンド・ツー・エンド情報抽出モデルを提案し、今後の研究との公平な比較を可能にするために、学習用、検証用、テスト用の3つのデータセットを提供する。このデータベースは、https://zenodo.org/record/7868059 にて無料で公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています