8ヶ月前

ドキュメント理解

自然言語処理

データセット

AIインフラストラクチャ

自然言語処理

Tong Zhu Guoliang Zhang Zechang Li Zijian Yu Junfei Ren Mengsong Wu Zhefeng Wang Baoxing Huai Pingfu Chao Wenliang Chen

概要

長い文書から文単位で情報を抽出することは、疲れるだけでなく誤りが生じやすい作業である。目次は文書の骨格を示す指標として、自然に文書をセグメントに分割し、情報豊富な階層的な意味論を提供するため、検索範囲を縮小するのに役立つ。しかし、外部知識の支援なしでは目次の抽出は困難である。特定のテンプレートに従う文書の場合、正規表現を使用して目次を抽出することが実用的である。しかし、手作業で作成されたヒューリスティックは、異なるソースや多様な形式の文書を処理する際には適用できない。この問題に対処するために、私たちは大規模な手動アノテーションコーパスを作成した。これは、文書からの目次抽出（Catalog Extraction from Documents: CED）タスク向けの最初のデータセットである。このコーパスに基づいて、私たちは文書を目次ツリーに解析する遷移ベースのフレームワークを提案している。実験結果は、提案手法が基準システムよりも優れており、良好な転移能力を持っていることを示している。私たちはCEDタスクが非常に長い文書における情報抽出タスクと原始的なテキストセグメントとの間のギャップを埋めると考えている。データとコードは \url{https://github.com/Spico197/CatalogExtraction} で利用可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ドキュメント理解

自然言語処理

データセット

AIインフラストラクチャ

自然言語処理

Tong Zhu Guoliang Zhang Zechang Li Zijian Yu Junfei Ren Mengsong Wu Zhefeng Wang Baoxing Huai Pingfu Chao Wenliang Chen

概要

長い文書から文単位で情報を抽出することは、疲れるだけでなく誤りが生じやすい作業である。目次は文書の骨格を示す指標として、自然に文書をセグメントに分割し、情報豊富な階層的な意味論を提供するため、検索範囲を縮小するのに役立つ。しかし、外部知識の支援なしでは目次の抽出は困難である。特定のテンプレートに従う文書の場合、正規表現を使用して目次を抽出することが実用的である。しかし、手作業で作成されたヒューリスティックは、異なるソースや多様な形式の文書を処理する際には適用できない。この問題に対処するために、私たちは大規模な手動アノテーションコーパスを作成した。これは、文書からの目次抽出（Catalog Extraction from Documents: CED）タスク向けの最初のデータセットである。このコーパスに基づいて、私たちは文書を目次ツリーに解析する遷移ベースのフレームワークを提案している。実験結果は、提案手法が基準システムよりも優れており、良好な転移能力を持っていることを示している。私たちはCEDタスクが非常に長い文書における情報抽出タスクと原始的なテキストセグメントとの間のギャップを埋めると考えている。データとコードは \url{https://github.com/Spico197/CatalogExtraction} で利用可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

CED: 文書からのカタログ抽出 | 記事 | HyperAI超神経