7日前

LAPDoc:ドキュメント向けのレイアウト認識型プロンプト技法

Marcel Lamott, Yves-Noel Weweler, Adrian Ulges, Faisal Shafait, Dirk Krechel, Darko Obradovic
LAPDoc:ドキュメント向けのレイアウト認識型プロンプト技法
要約

大規模なテキストデータのみを用いた大規模言語モデル(LLM)のトレーニング技術の最近の進展により、多くの分野およびタスク、特にドキュメント固有のタスクにおいて優れた汎化性能が達成されている。これに対し、ドキュメントのレイアウト情報をテキスト入力と融合できるように設計されたマルチモーダル変換器アーキテクチャの開発が進んでおり、ドキュメント理解に特化したモデルとして注目されている。しかしながら、このようなアーキテクチャはレイアウト情報を効果的に活用するため、追加のトレーニングデータを必要とする別途のファインチューニングステップを要する。現状では、LLMと同等の汎化性能を持つドキュメント用変換器は存在しない。これにより、ドキュメント理解タスクにおいて、テキストベースのLLMとマルチモーダルドキュメント変換器のどちらを優先すべきかという問いが生じる。本研究では、レイアウト情報の付加(レイアウトエンリッチメント)を活用して、純粋にテキストベースのLLMをドキュメント固有のタスクに適用する可能性を検討する。具体的には、プロンプトにレイアウト情報を組み込むための即時適用型の修正手法およびルールベースのアプローチを検証する。実験では、商用のChatGPTとオープンソースのLLMであるSolarの両モデルを対象とし、標準的なドキュメントベンチマーク上でその効果を評価した。その結果、提案するアプローチを用いることで、両モデルともさまざまなドキュメント理解タスクにおいて性能が向上することが示された。さらに、OCRによるノイズやレイアウト情報の誤りがモデル性能に与える影響、およびLLMがドキュメントのレイアウト情報を適切に活用する際の限界についても検討した。得られた結果から、純粋なテキストのみを入力とするLLMに対してレイアウト情報を付加することにより、ドキュメント理解タスクにおける性能が、単に平文ドキュメントテキストを使用する場合に比べて最大15%向上することが明らかになった。結論として、本研究のアプローチは、テキストベースのLLMとマルチモーダルドキュメント変換器のどちらを採用すべきかという選択において、極めて有効な検討材料となるべきである。