7日前
SIMARA:フルページからのキー値情報抽出を目的としたデータベース
Solène Tarride, Mélodie Boillet, Jean-François Moufflet, Christopher Kermorvant

要約
我々は、歴史的手書き文書からの情報抽出を目的とした新しいデータベースを提案する。このコーパスは、18世紀から20世紀にかけて作成された6つの異なるシリーズからなる合計5,393件の「検索案内書(finding aids)」を含んでいる。検索案内書とは、古文書アーカイブの内容を記述するメタデータを含む手書き文書であり、フランス国立公文書館(Archives nationales de France)に保管されており、アーカイブ担当者が古文書を特定・検索する際に用いられる。各文書はページ単位でアノテーションが施されており、抽出対象となる7つのフィールドを含んでいる。ただし、各フィールドの位置情報(ローカライゼーション)は提供されていないため、このデータセットは情報抽出におけるセグメンテーション不要(segmentation-free)なシステムの研究を促進することを目的としている。本研究では、Transformerアーキテクチャに基づくエンド・ツー・エンド情報抽出モデルを提案し、今後の研究との公平な比較を可能にするために、学習用、検証用、テスト用の3つのデータセットを提供する。このデータベースは、https://zenodo.org/record/7868059 にて無料で公開されている。