HyperAIHyperAI
vor 11 Tagen

DiffusionSTR: Diffusion-Modell für die Szenentexterkennung

Masato Fujitake
DiffusionSTR: Diffusion-Modell für die Szenentexterkennung
Abstract

Diese Arbeit präsentiert DiffusionSTR, einen end-to-end-Texterkennungsansatz, der Diffusionsmodelle zur Erkennung von Text in natürlichen Szenen einsetzt. Während bestehende Studien die Aufgabe der Szenentexterkennung als eine Bild-zu-Text-Transformation betrachteten, sehen wir sie nun erstmals innerhalb eines Diffusionsmodells als eine Text-zu-Text-Transformation unter Berücksichtigung von Bildern an. Erstmals zeigen wir, dass Diffusionsmodelle für die Texterkennung geeignet sind. Zudem belegen experimentelle Ergebnisse auf öffentlich verfügbaren Datensätzen, dass die vorgeschlagene Methode eine konkurrenzfähige Genauigkeit im Vergleich zu aktuellen State-of-the-Art-Verfahren erreicht.

DiffusionSTR: Diffusion-Modell für die Szenentexterkennung | Neueste Forschungsarbeiten | HyperAI