HyperAIHyperAI

Command Palette

Search for a command to run...

SRFormer: Text Detection Transformer mit integrierter Segmentierung und Regression

Qingwen Bu Sungrae Park Minsoo Khang Yichuan Cheng

Zusammenfassung

Bestehende Techniken zur Textdetektion lassen sich grob in zwei Hauptgruppen einteilen: segmentationsbasierte und regressionsbasierte Methoden. Segmentationsmodelle bieten eine erhöhte Robustheit gegenüber Schriftartvariationen, erfordern jedoch komplexe Nachverarbeitungsschritte, was zu hohem Rechenaufwand führt. Regressionsbasierte Ansätze führen eine instanzbewusste Vorhersage durch, stoßen jedoch auf Einschränkungen hinsichtlich Robustheit und Dateneffizienz, da sie auf hochwertigen Repräsentationen basieren. In unserer akademischen Arbeit präsentieren wir SRFormer, ein einheitliches, auf DETR basierendes Modell, das Segmentation und Regression integriert, um die inhärente Robustheit der Segmentationsrepräsentationen sowie die einfache Nachverarbeitung instanzbasierter Regression synergistisch zu nutzen. Unsere empirische Analyse zeigt, dass bereits in den frühen Dekodierschichten gute Segmentierungsvorhersagen erzielt werden können. Aus diesem Grund beschränken wir die Einbindung von Segmentationszweigen auf die ersten few Dekodierschichten und setzen in nachfolgenden Schichten eine schrittweise Verbesserung der Regression ein, wodurch eine Leistungssteigerung erreicht wird, ohne den Rechenaufwand durch Masken zu erhöhen. Darüber hinaus schlagen wir ein Maskeninformiertes Query-Enhancement-Modul vor. Hierbei nutzen wir das Segmentierungsergebnis als natürlichen soft-ROI, um robuste Pixelrepräsentationen zu extrahieren, die anschließend zur Verbesserung und Diversifizierung der Instanz-Queries eingesetzt werden. Umfangreiche Experimente an mehreren Benchmark-Datenbanken erbrachten überzeugende Ergebnisse, die die herausragende Robustheit, die überlegene Trainings- und Dateneffizienz sowie die state-of-the-art-Leistung unserer Methode unterstreichen. Der Quellcode ist unter https://github.com/retsuh-bqw/SRFormer-Text-Det verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SRFormer: Text Detection Transformer mit integrierter Segmentierung und Regression | Paper | HyperAI