17日前

BROS:ドキュメントからのキーメッセージ抽出をより良くするためのテキストとレイアウトに焦点を当てた事前学習言語モデル

Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, Sungrae Park
BROS:ドキュメントからのキーメッセージ抽出をより良くするためのテキストとレイアウトに焦点を当てた事前学習言語モデル
要約

ドキュメント画像からのキーワード情報抽出(Key Information Extraction: KIE)は、2次元(2D)空間におけるテキストの文脈的・空間的意味を理解する必要がある。近年の多くの研究では、ドキュメント画像の視覚的特徴とテキスト、およびレイアウトを統合する点に注目し、事前学習された言語モデルの開発によりこのタスクを解決しようとしている。一方、本研究は根本的なアプローチに立ち返り、テキストとレイアウトの有効な統合に着目する。具体的には、2D空間におけるテキスト間の相対的位置情報を符号化し、領域マスキング(area-masking)戦略を用いてラベルなしドキュメントから学習する、事前学習言語モデル「BROS(BERT Relying On Spatiality)」を提案する。この2D空間におけるテキスト理解に最適化された学習スキームにより、BROSは視覚的特徴に依存せずに、4つのKIEベンチマーク(FUNSD、SROIE*、CORD、SciTSR)において従来手法と同等あるいは優れた性能を達成した。さらに本研究では、KIEタスクにおける2つの現実世界の課題——(1)誤ったテキスト順序による誤差の最小化、(2)少数の下流サンプルからの効率的学習——を明らかにし、BROSが従来手法に比べて優位性を示すことを実証した。コードは以下のURLで公開されている:https://github.com/clovaai/bros。