HyperAIHyperAI

Command Palette

Search for a command to run...

CED: 文書からのカタログ抽出

Tong Zhu Guoliang Zhang Zechang Li Zijian Yu Junfei Ren Mengsong Wu Zhefeng Wang Baoxing Huai Pingfu Chao Wenliang Chen

概要

長い文書から文単位で情報を抽出することは、疲れるだけでなく誤りが生じやすい作業である。目次は文書の骨格を示す指標として、自然に文書をセグメントに分割し、情報豊富な階層的な意味論を提供するため、検索範囲を縮小するのに役立つ。しかし、外部知識の支援なしでは目次の抽出は困難である。特定のテンプレートに従う文書の場合、正規表現を使用して目次を抽出することが実用的である。しかし、手作業で作成されたヒューリスティックは、異なるソースや多様な形式の文書を処理する際には適用できない。この問題に対処するために、私たちは大規模な手動アノテーションコーパスを作成した。これは、文書からの目次抽出(Catalog Extraction from Documents: CED)タスク向けの最初のデータセットである。このコーパスに基づいて、私たちは文書を目次ツリーに解析する遷移ベースのフレームワークを提案している。実験結果は、提案手法が基準システムよりも優れており、良好な転移能力を持っていることを示している。私たちはCEDタスクが非常に長い文書における情報抽出タスクと原始的なテキストセグメントとの間のギャップを埋めると考えている。データとコードは \url{https://github.com/Spico197/CatalogExtraction} で利用可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています