Rotationsempfindliche Regression für die Erkennung von orientiertem Szene-Text

Text in natürlichen Bildern kann beliebige Orientierungen aufweisen, was eine Detektion mittels orientierter Begrenzungsrahmen erforderlich macht. Normalerweise umfasst ein mehrorientierter Textdetektor zwei wesentliche Aufgaben: 1) die Erkennung der Anwesenheit von Text, die sich um ein Klassifikationsproblem handelt, bei dem die Textorientierung nicht berücksichtigt wird; 2) die Regressionsanalyse für orientierte Begrenzungsrahmen, die sich mit der Textorientierung beschäftigt. Frühere Methoden stützen sich auf gemeinsame Merkmale für beide Aufgaben, was zu einer Leistungsverschlechterung führt, da die beiden Aufgaben nicht zueinander passen. Um dieses Problem zu lösen, schlagen wir vor, Klassifikation und Regression auf Merkmalen unterschiedlicher Eigenschaften durchzuführen, die durch zwei Netzwerkzweige unterschiedlicher Gestaltung extrahiert werden. Konkret extrahiert der Regressionszweig rotationsabhängige Merkmale durch aktives Drehen der Faltungsfilter, während der Klassifikationszweig rotationsunabhängige Merkmale durch Pooling der rotationsabhängigen Merkmale extrahiert. Die vorgeschlagene Methode, der rotationsempfindliche Regressionsdetektor (RRD), erzielt den aktuellen Stand der Technik in drei Benchmark-Datensätzen für orientierten Text in Szenen, einschließlich ICDAR 2015, MSRA-TD500, RCTW-17 und COCO-Text. Darüber hinaus zeigt RRD eine erhebliche Verbesserung in einem Datensatz von Schiffssammlungen und demonstriert so ihre Allgemeingültigkeit bei der Detektion orientierter Objekte.