HyperAIHyperAI
vor 2 Monaten

Hi-SAM: Die Kombination des Segment-Anything-Modells für hierarchische Textsegmentierung

Ye, Maoyuan ; Zhang, Jing ; Liu, Juhua ; Liu, Chenyu ; Yin, Baocai ; Liu, Cong ; Du, Bo ; Tao, Dacheng
Hi-SAM: Die Kombination des Segment-Anything-Modells für hierarchische Textsegmentierung
Abstract

Das Segment Anything Modell (SAM), ein tiefgründiges visuelles Grundmodell, das auf einem umfangreichen Datensatz vortrainiert wurde, hebt die Grenzen der allgemeinen Segmentierung auf und regt verschiedene nachgelagerte Anwendungen an. Dieses Papier stellt Hi-SAM vor, ein vereintes Modell, das SAM für hierarchische Textsegmentierung nutzt. Hi-SAM zeichnet sich durch eine hervorragende Segmentierung auf vier Hierarchieebenen aus, einschließlich Pixel-Level-Text, Wörter, Textzeilen und Absätzen, während es gleichzeitig Layoutanalyse ermöglicht.Speziell führen wir zunächst eine parameter-effiziente Feinabstimmung durch, um SAM zu einem hochwertigen Pixel-Level-Textsegmentierungsmodell (TS) zu machen. Mit diesem TS-Modell erzeugen wir die Pixel-Level-Textlabels in einer semi-automatischen Weise iterativ und vereinheitlichen sie über die vier Texthierarchieebenen im HierText-Datensatz. Anschließend nutzen wir diese vollständigen Labels, um das end-to-end trainierbare Hi-SAM basierend auf der TS-Architektur mit einem angepassten hierarchischen Maskendekoder zu initiieren.Während der Inferenz bietet Hi-SAM sowohl den Automatischen Maskenerzeugungsmodus (AMG) als auch den anweisbaren Segmentierungsmodus (PS). Im AMG-Modus segmentiert Hi-SAM zunächst die Vordergrundmasken des Pixel-Level-Texts, wählt dann Vordergrundpunkte zur generativen Segmentierung von hierarchischem Text aus und erreicht dabei die Layoutanalyse. Was den PS-Modus betrifft, so liefert Hi-SAM Worts-, Textzeilen- und Absatzmasken mit einem einzelnen Klick.Experimentelle Ergebnisse zeigen die Spitzenleistung unseres TS-Modells: 84,86 % fgIOU auf Total-Text und 88,96 % fgIOU auf TextSeg für die Segmentierung von Pixel-Level-Text. Darüber hinaus erreicht Hi-SAM im Vergleich zum bisherigen Spezialisten für gemeinsame hierarchische Erkennung und Layoutanalyse im HierText-Datensatz erhebliche Verbesserungen: 4,73 % PQ und 5,39 % F1 auf der Textzeilenebene sowie 5,49 % PQ und 7,39 % F1 auf der Absatzebenen-Layoutanalyse, wobei es nur $20\times$ weniger Trainings-Epochen benötigt. Der Code ist unter https://github.com/ymy-k/Hi-SAM verfügbar.

Hi-SAM: Die Kombination des Segment-Anything-Modells für hierarchische Textsegmentierung | Neueste Forschungsarbeiten | HyperAI