ゼロショットドキュメント画像質問応答のためのレイアウトおよびタスク認識型インストラクションプロンプト

レイアウトを意識した事前学習モデルは、ドキュメント画像質問応答(Document Image Question Answering)において顕著な進展を遂げている。これらのモデルは、OCRツールによって得られたテキストバウンディングボックスの座標からドキュメント画像内のレイアウト情報を捉えるために、既存の言語モデルに追加の学習可能なモジュールを導入している。しかし、こうした追加モジュールは、広範なドキュメント画像データを用いた事前学習を必要とするため、最近ゼロショット学習において有望な成果を示している汎用的な指示チューニング言語基盤モデル(instruction-tuning language foundation models)を直接利用することが困難である。本研究では、ClaudeやChatGPTといった指示チューニング言語モデルが、空白や行区切りを介してレイアウト情報を理解できることに着目した。この観察に基づき、本論文では「レイアウトとタスクを意識した指示プロンプト(LAyout and Task aware Instruction Prompt, LATIN-Prompt)」を提案する。LATIN-Promptは、レイアウトを意識したドキュメントコンテンツと、タスクを意識した指示(instruction)から構成される。具体的には、前者はOCRツールで抽出されたテキストセグメント間のレイアウト情報を、適切な空白や行区切りを用いて再構成する。後者により、生成される回答がフォーマット要件に従うことが保証される。さらに、Alpacaのような小規模な指示チューニングモデルの性能を向上させるため、「レイアウトとタスクを意識した指示チューニング(LAyout and Task aware Instruction Tuning, LATIN-Tuning)」も提案する。実験結果によると、LATIN-Promptにより、ClaudeおよびChatGPTのゼロショット性能が、従来の最先端モデル(SOTAs)のファインチューニング性能と同等にまで向上し、LATIN-TuningはAlpacaのゼロショット性能を顕著に改善した。例えば、DocVQAタスクにおいて、LATIN-PromptはClaudeの性能を263%、ChatGPTの性能を20%向上させた。また、LATIN-TuningはAlpacaの性能を87.7%向上させた。定量的および定性的な分析により、LATIN-PromptおよびLATIN-Tuningの有効性が確認された。本研究では補足資料としてコードを公開し、今後の研究を促進するため、公開を予定している。