PixelLink: Die Erkennung von Szene-Text durch Instanzsegmentierung

Die meisten modernsten Algorithmen zur Erkennung von Szentexten basieren auf tiefem Lernen und hängen von der Regressionsbestimmung von Begrenzungsboxen ab. Sie führen mindestens zwei Arten von Vorhersagen durch: die Klassifikation von Text/Nicht-Text und die Lokalisationsregression. Die Regression spielt bei der Gewinnung von Begrenzungsboxen in diesen Methoden eine Schlüsselrolle, ist aber nicht unerlässlich, da die Text/Nicht-Text-Vorhersage auch als eine Art semantische Segmentierung betrachtet werden kann, die vollständige Lokalisationsinformationen in sich trägt. Allerdings liegen Textinstanzen in Szenebildern oft sehr dicht beieinander, was es sehr schwierig macht, sie durch semantische Segmentierung zu trennen. Daher ist eine Instanzsegmentierung erforderlich, um dieses Problem zu lösen. In dieser Arbeit wird PixelLink vorgestellt, ein neuer Algorithmus zur Erkennung von Szentexten auf Basis der Instanzsegmentierung. Textinstanzen werden zunächst durch das Verknüpfen von Pixeln innerhalb derselben Instanz segmentiert. Die Textbegrenzungsboxen werden dann direkt aus dem Segmentierungsresultat extrahiert, ohne dass eine Lokalisationsregression erforderlich ist. Experimente zeigen, dass PixelLink im Vergleich zu regressionsbasierten Methoden auf mehreren Benchmarks bessere oder vergleichbare Leistungen erzielen kann, während er deutlich weniger Trainingsiterationen und weniger Trainingsdaten benötigt.