HyperAIHyperAI

Command Palette

Search for a command to run...

Hi-SAM: Die Kombination des Segment-Anything-Modells für hierarchische Textsegmentierung

Maoyuan Ye Jing Zhang, Senior Member, IEEE Juhua Liu, Member, IEEE Chenyu Liu Baocai Yin Cong Liu Bo Du, Senior Member, IEEE Dacheng Tao, Fellow, IEEE

Zusammenfassung

Das Segment Anything Modell (SAM), ein tiefgründiges visuelles Grundmodell, das auf einem umfangreichen Datensatz vortrainiert wurde, hebt die Grenzen der allgemeinen Segmentierung auf und regt verschiedene nachgelagerte Anwendungen an. Dieses Papier stellt Hi-SAM vor, ein vereintes Modell, das SAM für hierarchische Textsegmentierung nutzt. Hi-SAM zeichnet sich durch eine hervorragende Segmentierung auf vier Hierarchieebenen aus, einschließlich Pixel-Level-Text, Wörter, Textzeilen und Absätzen, während es gleichzeitig Layoutanalyse ermöglicht.Speziell führen wir zunächst eine parameter-effiziente Feinabstimmung durch, um SAM zu einem hochwertigen Pixel-Level-Textsegmentierungsmodell (TS) zu machen. Mit diesem TS-Modell erzeugen wir die Pixel-Level-Textlabels in einer semi-automatischen Weise iterativ und vereinheitlichen sie über die vier Texthierarchieebenen im HierText-Datensatz. Anschließend nutzen wir diese vollständigen Labels, um das end-to-end trainierbare Hi-SAM basierend auf der TS-Architektur mit einem angepassten hierarchischen Maskendekoder zu initiieren.Während der Inferenz bietet Hi-SAM sowohl den Automatischen Maskenerzeugungsmodus (AMG) als auch den anweisbaren Segmentierungsmodus (PS). Im AMG-Modus segmentiert Hi-SAM zunächst die Vordergrundmasken des Pixel-Level-Texts, wählt dann Vordergrundpunkte zur generativen Segmentierung von hierarchischem Text aus und erreicht dabei die Layoutanalyse. Was den PS-Modus betrifft, so liefert Hi-SAM Worts-, Textzeilen- und Absatzmasken mit einem einzelnen Klick.Experimentelle Ergebnisse zeigen die Spitzenleistung unseres TS-Modells: 84,86 % fgIOU auf Total-Text und 88,96 % fgIOU auf TextSeg für die Segmentierung von Pixel-Level-Text. Darüber hinaus erreicht Hi-SAM im Vergleich zum bisherigen Spezialisten für gemeinsame hierarchische Erkennung und Layoutanalyse im HierText-Datensatz erhebliche Verbesserungen: 4,73 % PQ und 5,39 % F1 auf der Textzeilenebene sowie 5,49 % PQ und 7,39 % F1 auf der Absatzebenen-Layoutanalyse, wobei es nur 20×20\times20× weniger Trainings-Epochen benötigt. Der Code ist unter https://github.com/ymy-k/Hi-SAM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp