2ヶ月前

ラベリング、カッティング、グルーピング:中世の手稿書の効率的なテキスト行分割方法

Michele Alberti; Lars Vögtlin; Vinaychandran Pondenkandath; Mathias Seuret; Rolf Ingold; Marcus Liwicki
ラベリング、カッティング、グルーピング:中世の手稿書の効率的なテキスト行分割方法
要約

本論文では、深層学習に基づく事前分類と最先端のセグメンテーション手法を統合した新しいテキスト行抽出方法を紹介します。複雑な手書き文書におけるテキスト行抽出は、現代のコンピュータビジョンアルゴリズムにとっても大きな課題となっています。特に歴史的な原稿は、劣化、透かし(bleed-through)、間線注釈(interlinear glosses)、装飾的な文字など、様々なノイズが存在するため、非常に難しいクラスの文書と言えます。本研究では、画素レベルでの意味セグメンテーションを中間タスクとして使用し、その後にテキスト行抽出ステップを行う新しい手法を提案しています。我々はこの手法の性能を最近公開された挑戦的な中世原稿のデータセットで測定し、最新の結果を超える80.7%の誤差削減を達成しました。さらに、異なるスクリプトで記述された他の様々なデータセットにおいても当手法の有効性を示しています。したがって、我々の貢献は二つあります。第一に、意味画素セグメンテーションがテキスト行抽出前の強力なノイズ除去前処理ステップとして利用できることを示しています。第二に、高品質な意味セグメンテーションを利用して99.42%のラインIU(Line Intersection over Union)という高いパフォーマンスを達成する新しい、単純かつ堅牢なアルゴリズムを導入しています。

ラベリング、カッティング、グルーピング:中世の手稿書の効率的なテキスト行分割方法 | 最新論文 | HyperAI超神経