17日前

少量ショット・ピクセル単位のドキュメントレイアウトセグメンテーション:動的インスタンス生成と局所しきい値処理を活用した手法

{Gian Luca Foresti, Emanuela Colombi, Claudio Piciarelli, Silvia Zottin, Axel De Nardin}
要約

近年、人文科学分野では、文化遺産の研究を支援するための人工知能(AI)フレームワークの構築がますます求められている。特に、ドキュメントページの構造的要素を識別することを目的とする「ドキュメントレイアウトセグメンテーション」は、このトレンドと密接に関連する注目すべきタスクであり、手書きテキストの解析において特に重要である。既存の多くの有効なアプローチが存在するものの、それらはすべて、背後にあるモデルの学習に大量のデータを必要としている。しかし、現実の現場では、ピクセル単位の精度を要する正解セグメンテーションデータを生成するプロセスは非常に時間がかかり、また文書の性質に関する一定の専門知識を要するため、大規模なデータ収集は現実的ではない。この課題に応じて、本論文では、二つの新規モジュール、すなわち「動的インスタンス生成」と「セグメンテーション精細化モジュール」を活用した効果的な少サンプル学習(few-shot learning)フレームワークを提案する。本手法は、一般的なDiv-HisDBデータセットにおいて、現在の最先端技術と同等の性能を達成しつつ、利用可能なデータ量の僅か一部に依拠している。