SRFormer: Text Detection Transformer mit integrierter Segmentierung und Regression

Bestehende Techniken zur Textdetektion lassen sich grob in zwei Hauptgruppen einteilen: segmentationsbasierte und regressionsbasierte Methoden. Segmentationsmodelle bieten eine erhöhte Robustheit gegenüber Schriftartvariationen, erfordern jedoch komplexe Nachverarbeitungsschritte, was zu hohem Rechenaufwand führt. Regressionsbasierte Ansätze führen eine instanzbewusste Vorhersage durch, stoßen jedoch auf Einschränkungen hinsichtlich Robustheit und Dateneffizienz, da sie auf hochwertigen Repräsentationen basieren. In unserer akademischen Arbeit präsentieren wir SRFormer, ein einheitliches, auf DETR basierendes Modell, das Segmentation und Regression integriert, um die inhärente Robustheit der Segmentationsrepräsentationen sowie die einfache Nachverarbeitung instanzbasierter Regression synergistisch zu nutzen. Unsere empirische Analyse zeigt, dass bereits in den frühen Dekodierschichten gute Segmentierungsvorhersagen erzielt werden können. Aus diesem Grund beschränken wir die Einbindung von Segmentationszweigen auf die ersten few Dekodierschichten und setzen in nachfolgenden Schichten eine schrittweise Verbesserung der Regression ein, wodurch eine Leistungssteigerung erreicht wird, ohne den Rechenaufwand durch Masken zu erhöhen. Darüber hinaus schlagen wir ein Maskeninformiertes Query-Enhancement-Modul vor. Hierbei nutzen wir das Segmentierungsergebnis als natürlichen soft-ROI, um robuste Pixelrepräsentationen zu extrahieren, die anschließend zur Verbesserung und Diversifizierung der Instanz-Queries eingesetzt werden. Umfangreiche Experimente an mehreren Benchmark-Datenbanken erbrachten überzeugende Ergebnisse, die die herausragende Robustheit, die überlegene Trainings- und Dateneffizienz sowie die state-of-the-art-Leistung unserer Methode unterstreichen. Der Quellcode ist unter https://github.com/retsuh-bqw/SRFormer-Text-Det verfügbar.