11日前
Text-Image-Layout Transformerを用いたドキュメント理解におけるフルTILTブギの実現
Rafał Powalski, Łukasz Borchmann, Dawid Jurkiewicz, Tomasz Dwojak, Michał Pietruszka, Gabriela Pałka

要約
本文では、単なるテキスト文書にとどまらず、レイアウト情報や視覚的特徴を含む多様な文書形式における自然言語理解という困難な課題に取り組む。そのために、レイアウト情報、視覚的特徴、およびテキスト意味を同時に学習可能なTILTニューラルネットワークアーキテクチャを提案する。従来の手法とは異なり、自然言語を含む多様な問題を統一的に処理できるデコーダーに依拠している。レイアウトはアテンションバイアスとして表現され、文脈に基づいた視覚的情報と補完される。本モデルの中心には、事前学習済みのエンコーダ-デコーダーTransformerが配置されている。提案手法は、レイアウト理解を要する情報抽出および質問応答タスク(DocVQA、CORD、SROIE)において、最先端の性能を達成している。同時に、エンドツーエンドモデルを採用することで、従来の複雑なプロセスを簡素化している。