Was stimmt nicht mit Vergleichen von Scene-Text-Erkennungsmodellen? Datensatz- und Modellanálýse

In den letzten Jahren wurden zahlreiche neue Vorschläge für Modelle zur Szene-Text-Erkennung (STR) vorgestellt. Obwohl jeder Ansatz behauptet, die Grenzen der Technologie weitergeschoben zu haben, fehlt es im Bereich weitgehend an einer umfassenden und fairen Vergleichsdarstellung aufgrund inkonsistenter Auswahl von Trainings- und Evaluierungsdatensätzen. Dieses Papier befasst sich mit dieser Schwierigkeit durch drei wesentliche Beiträge. Erstens untersuchen wir die Inkonsistenzen der Trainings- und Evaluierungsdatensätze sowie die daraus resultierenden Leistungsdifferenzen. Zweitens führen wir ein einheitliches vierstufiges STR-Framework ein, in das die meisten bestehenden STR-Modelle passen. Die Verwendung dieses Frameworks ermöglicht eine umfangreiche Bewertung bereits vorgeschlagener STR-Module und die Entdeckung bisher nicht untersuchter Modulkombinationen. Drittens analysieren wir die modulbezogenen Beiträge zur Leistung hinsichtlich Genauigkeit, Geschwindigkeit und Speicherbedarf unter einem konsistenten Satz von Trainings- und Evaluierungsdatensätzen. Solche Analysen beseitigen Hindernisse bei aktuellen Vergleichen, um das Leistungsplus der existierenden Module besser zu verstehen.