HyperAIHyperAI
vor 8 Tagen

TPSNet: Rückwärtiges Denken bei dünnen Platten-Splines zur Darstellung von beliebigen Formen von Szenentexten

Wei Wang, Yu Zhou, Jiahao Lv, Dayan Wu, Guoqing Zhao, Ning Jiang, Weiping Wang
TPSNet: Rückwärtiges Denken bei dünnen Platten-Splines zur Darstellung von beliebigen Formen von Szenentexten
Abstract

In den letzten Jahren hat sich der Forschungsschwerpunkt bei der Erkennung von Szenentexten zunehmend auf Texte beliebiger Form ausgerichtet, wobei die Darstellung der Textform eine zentrale Herausforderung darstellt. Gemäß unserer Auffassung sollte eine ideale Darstellung kompakt, vollständig, effizient und wiederverwendbar für nachfolgende Erkennungsaufgaben sein. Bisherige Darstellungsansätze weisen jedoch Mängel in einem oder mehreren dieser Aspekte auf. Die Thin-Plate-Spline-(TPS-)Transformation hat in der Erkennung von Szenentexten erhebliche Erfolge erzielt. Ausgehend von diesem Erfolg überlegen wir nun rückwärts und nutzen die TPS-Transformation geschickt als fein abgestimmte Darstellung für Texte beliebiger Form. Die TPS-Darstellung ist kompakt, vollständig und effizient. Unter Verwendung der vorhergesagten TPS-Parameter kann der erkannte Textbereich direkt in eine nahezu horizontale Form transformiert werden, was die nachfolgende Erkennung erheblich unterstützt. Um das volle Potenzial der TPS-Darstellung weiter auszuschöpfen, wird die Border Alignment Loss vorgeschlagen. Auf Basis dieser Konzepte wird der Textdetektor TPSNet implementiert, der problemlos zu einem Text-Spotter erweitert werden kann. Umfassende Evaluationen und Ablationsstudien an mehreren öffentlichen Benchmarks belegen die Wirksamkeit und Überlegenheit des vorgeschlagenen Ansatzes für die Textdarstellung und das Spotting. Insbesondere erreicht TPSNet eine Steigerung der Detektions-F-Maßnahme um 4,4 % (78,4 % gegenüber 74,0 %) auf dem Art-Datensatz und eine Verbesserung der end-to-end-Spotting-F-Maßnahme um 5,0 % (78,5 % gegenüber 73,5 %) auf Total-Text – erhebliche Fortschritte, die ohne zusätzliche Heuristiken oder „Bells and Whistles“ erzielt wurden.

TPSNet: Rückwärtiges Denken bei dünnen Platten-Splines zur Darstellung von beliebigen Formen von Szenentexten | Neueste Forschungsarbeiten | HyperAI