HyperAIHyperAI
il y a 2 mois

Hi-SAM : Mariage du Modèle Segment Anything pour la Segmentation Hiérarchique du Texte

Ye, Maoyuan ; Zhang, Jing ; Liu, Juhua ; Liu, Chenyu ; Yin, Baocai ; Liu, Cong ; Du, Bo ; Tao, Dacheng
Hi-SAM : Mariage du Modèle Segment Anything pour la Segmentation Hiérarchique du Texte
Résumé

Le modèle Segment Anything Model (SAM), une profonde modèle de fondement visuel préformé sur un ensemble de données à grande échelle, franchit les limites du segmentateur général et stimule diverses applications en aval. Cet article présente Hi-SAM, un modèle unifié qui exploite SAM pour la segmentation hiérarchique du texte. Hi-SAM se distingue par sa capacité à segmenter le texte à quatre niveaux hiérarchiques, incluant le niveau pixel, le mot, la ligne de texte et le paragraphe, tout en réalisant l'analyse de mise en page.Plus précisément, nous transformons d'abord SAM en un modèle de segmentation textuelle au niveau pixel (TS) de haute qualité grâce à une approche d'affinage paramétrique efficace. Nous utilisons ce modèle TS pour générer itérativement des étiquettes textuelles au niveau pixel de manière semi-automatique, unifiant ainsi les étiquettes sur les quatre niveaux hiérarchiques du jeu de données HierText. Ensuite, avec ces étiquettes complètes, nous mettons en œuvre Hi-SAM entièrement formable par apprentissage basé sur l'architecture TS avec un décodeur masque hiérarchique personnalisé.Lors de l'inférence, Hi-SAM offre deux modes : le mode de génération automatique de masques (AMG) et le mode de segmentation guidée par des prompts (PS). Dans le mode AMG, Hi-SAM segmente initialement les masques textuels au premier plan au niveau pixel, puis échantillonne des points du premier plan pour la génération de masques textuels hiérarchiques et réalise l'analyse de mise en page en passant. Quant au mode PS, Hi-SAM fournit des masques pour les mots, les lignes de texte et les paragraphes avec un simple clic sur un point.Les résultats expérimentaux montrent les performances exceptionnelles de notre modèle TS : 84,86 % fgIOU sur Total-Text et 88,96 % fgIOU sur TextSeg pour la segmentation textuelle au niveau pixel. De plus, comparé aux précédents spécialistes combinant la détection hiérarchique et l'analyse de mise en page sur HierText, Hi-SAM réalise des améliorations significatives : 4,73 % PQ et 5,39 % F1 au niveau ligne de texte, 5,49 % PQ et 7,39 % F1 au niveau analyse de mise en page des paragraphes, nécessitant $20 \times$ moins d'époques d'apprentissage. Le code est disponible à l'adresse https://github.com/ymy-k/Hi-SAM.

Hi-SAM : Mariage du Modèle Segment Anything pour la Segmentation Hiérarchique du Texte | Articles de recherche récents | HyperAI