vor 6 Monaten

Zusammenfassung

Kürzlich entwickelte end-to-end trainierbare Methoden für die Erkennung von Szenentext, die Detektion und Erkennung integrieren, haben erhebliche Fortschritte gezeigt. Allerdings verwenden die meisten derzeitigen Spotter für beliebig geformten Szenentext Region Proposal Networks (RPN), um Vorschläge zu generieren. Die RPN beruht stark auf manuell entworfenen Anchors, und ihre Vorschläge werden durch achsenparallele Rechtecke repräsentiert. Letzteres führt zu Schwierigkeiten bei der Behandlung von Textinstanzen mit extremen Aspektverhältnissen oder unregelmäßigen Formen, während ersteres häufig mehrere benachbarte Textinstanzen in einer einzigen Vorschlag zusammenfasst, insbesondere bei dicht angeordneten, orientierten Texten. Um diese Probleme zu lösen, stellen wir Mask TextSpotter v3 vor – einen end-to-end trainierbaren Szenentext-Spotter, der anstelle einer RPN eine Segmentation Proposal Network (SPN) verwendet. Unsere SPN ist anchor-free und ermöglicht eine präzise Darstellung beliebig geformter Vorschläge. Dadurch übertrifft sie die RPN bei der Erkennung von Textinstanzen mit extremen Aspektverhältnissen oder unregelmäßigen Formen. Darüber hinaus ermöglichen die präzisen Vorschläge der SPN die Nutzung maskierter RoI-Features zur Entkopplung benachbarter Textinstanzen. Folglich kann unser Mask TextSpotter v3 Textinstanzen mit extremen Aspektverhältnissen oder unregelmäßigen Formen effektiv verarbeiten, ohne dass die Erkennungsgenauigkeit durch benachbarte Texte oder Hintergrundrauschen beeinträchtigt wird. Konkret erreichen wir eine Verbesserung gegenüber den aktuellen State-of-the-Art-Methoden um 21,9 Prozent auf dem Rotated ICDAR 2013-Datensatz (Rotationsrobustheit), um 5,9 Prozent auf dem Total-Text-Datensatz (Formrobustheit) und erzielen eine state-of-the-art-Leistung auf dem MSRA-TD500-Datensatz (Aspektverhältnisrobustheit). Der Quellcode ist unter folgender URL verfügbar: https://github.com/MhLiao/MaskTextSpotterV3

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Objekterkennung

Semantische Segmentierung

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Objekterkennung

Semantische Segmentierung

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Mask TextSpotter v3: Segmentation Proposal Network für robuste Szenentexterkennung | Paper | HyperAI

Command Palette

Mask TextSpotter v3: Segmentation Proposal Network für robuste Szenentexterkennung

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mask TextSpotter v3: Segmentation Proposal Network für robuste Szenentexterkennung

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Mask TextSpotter v3: Segmentation Proposal Network für robuste Szenentexterkennung

Minghui Liao Guan Pang Jing Huang Tal Hassner Xiang Bai

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters