HyperAIHyperAI

Command Palette

Search for a command to run...

Hi-SAM: ヒエラルキー型テキストセグメンテーションのためのSegment Anythingモデルとの統合

Maoyuan Ye Jing Zhang, Senior Member, IEEE Juhua Liu, Member, IEEE Chenyu Liu Baocai Yin Cong Liu Bo Du, Senior Member, IEEE Dacheng Tao, Fellow, IEEE

概要

Segment Anything Model (SAM)は、大規模データセットで事前学習された深い視覚基盤モデルであり、一般的なセグメンテーションの境界を打破し、さまざまな下流アプリケーションを促進しています。本論文では、階層的なテキストセグメンテーションにSAMを活用した統合モデルHi-SAMを紹介します。Hi-SAMは、ピクセルレベルのテキスト、単語、テキスト行、段落の4つの階層にわたるセグメンテーションにおいて優れた性能を発揮し、レイアウト分析も実現しています。具体的には、まずパラメータ効率の高い微調整手法を通じてSAMを高品質なピクセルレベルのテキストセグメンテーション(TS)モデルに変換します。このTSモデルを使用して、HierTextデータセットにおける4つのテキスト階層間で一貫性のあるピクセルレベルのテキストラベルを半自動的に生成します。その後、これらの完全なラベルに基づいて、TSアーキテクチャとカスタマイズされた階層マスクデコーダーを使用してエンドツーエンド学習可能なHi-SAMを開発します。推論時には、Hi-SAMは自動マスク生成(AMG)モードとプロンプタブルセグメンテーション(PS)モードの両方を提供します。AMGモードでは、Hi-SAMが最初にピクセルレベルのテキスト前景マスクをセグメンテーションし、次に前景点をサンプリングして階層的なテキストマスク生成を行い、その過程でレイアウト分析も達成します。PSモードでは、Hi-SAMは単一ポイントクリックにより単語、テキスト行、段落のマスクを提供します。実験結果は我々のTSモデルが最先端の性能を持っていることを示しており、Total-Textでのピクセルレベルのテキストセグメンテーションにおいて84.86% fgIOU(Foreground Intersection over Union)、TextSegでは88.96% fgIOUを達成しています。さらに、HierTextでの共同階層検出とレイアウト分析に関する以前の専門家と比較すると、Hi-SAMは大幅な改善を達成しており、テキスト行レベルでは4.73% PQ(Panoptic Quality)および5.39% F1スコアの向上が見られました。段落レベルでのレイアウト分析では5.49% PQおよび7.39% F1スコアの向上が見られました。これらは20×20\times20×少ない訓練エポック数で達成されています。コードは https://github.com/ymy-k/Hi-SAM から利用可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています