2ヶ月前

Hi-SAM: ヒエラルキー型テキストセグメンテーションのためのSegment Anythingモデルとの統合

Ye, Maoyuan ; Zhang, Jing ; Liu, Juhua ; Liu, Chenyu ; Yin, Baocai ; Liu, Cong ; Du, Bo ; Tao, Dacheng

要約

Segment Anything Model (SAM)は、大規模データセットで事前学習された深い視覚基盤モデルであり、一般的なセグメンテーションの境界を打破し、さまざまな下流アプリケーションを促進しています。本論文では、階層的なテキストセグメンテーションにSAMを活用した統合モデルHi-SAMを紹介します。Hi-SAMは、ピクセルレベルのテキスト、単語、テキスト行、段落の4つの階層にわたるセグメンテーションにおいて優れた性能を発揮し、レイアウト分析も実現しています。具体的には、まずパラメータ効率の高い微調整手法を通じてSAMを高品質なピクセルレベルのテキストセグメンテーション（TS）モデルに変換します。このTSモデルを使用して、HierTextデータセットにおける4つのテキスト階層間で一貫性のあるピクセルレベルのテキストラベルを半自動的に生成します。その後、これらの完全なラベルに基づいて、TSアーキテクチャとカスタマイズされた階層マスクデコーダーを使用してエンドツーエンド学習可能なHi-SAMを開発します。推論時には、Hi-SAMは自動マスク生成（AMG）モードとプロンプタブルセグメンテーション（PS）モードの両方を提供します。AMGモードでは、Hi-SAMが最初にピクセルレベルのテキスト前景マスクをセグメンテーションし、次に前景点をサンプリングして階層的なテキストマスク生成を行い、その過程でレイアウト分析も達成します。PSモードでは、Hi-SAMは単一ポイントクリックにより単語、テキスト行、段落のマスクを提供します。実験結果は我々のTSモデルが最先端の性能を持っていることを示しており、Total-Textでのピクセルレベルのテキストセグメンテーションにおいて84.86% fgIOU（Foreground Intersection over Union）、TextSegでは88.96% fgIOUを達成しています。さらに、HierTextでの共同階層検出とレイアウト分析に関する以前の専門家と比較すると、Hi-SAMは大幅な改善を達成しており、テキスト行レベルでは4.73% PQ（Panoptic Quality）および5.39% F1スコアの向上が見られました。段落レベルでのレイアウト分析では5.49% PQおよび7.39% F1スコアの向上が見られました。これらは$20\times$少ない訓練エポック数で達成されています。コードは https://github.com/ymy-k/Hi-SAM から利用可能です。