11日前

テキスト分割と長文要約を統合するための取り組み

Sangwoo Cho, Kaiqiang Song, Xiaoyang Wang, Fei Liu, Dong Yu
テキスト分割と長文要約を統合するための取り組み
要約

文書のセグメンテーションは、ドキュメントの構造を明示する上で重要である。長文ドキュメントを主題的に一貫したセクションに分割しなければ、読者が本文を理解することは困難であり、重要情報を検出するのもさらに困難になる。特に音声・動画録画のトランスクリプトにおいてセグメンテーションが欠如している場合、この問題は顕著に悪化する。本論文では、書面および口語ドキュメントにおける抽出要約(extractive summarization)におけるセクションセグメンテーションの役割を検討する。我々のアプローチは、要約とセグメンテーションを同時に学習することで、堅牢な文表現を獲得するものであり、さらに多様な要約文の選択を促進する最適化に基づく正則化項を導入することで性能を向上させている。科学論文から口語トランスクリプトまで多様なデータセットを用いた実験を通じて、モデルの性能を評価した。その結果、公開ベンチマークにおいて最先端の性能を達成するだけでなく、テキストセグメンテーションを導入することで、ジャンル間の汎化性能(cross-genre transferability)が顕著に向上することが明らかになった。さらに、長さと複雑さが著しい書面および口語ドキュメントの要約におけるセクションセグメンテーションの影響を定量的に評価するための一連の分析を行った。

テキスト分割と長文要約を統合するための取り組み | 最新論文 | HyperAI超神経