Command Palette
Search for a command to run...
DiffusionSTR: Diffusion-Modell für die Szenentexterkennung
DiffusionSTR: Diffusion-Modell für die Szenentexterkennung
Masato Fujitake
Zusammenfassung
Diese Arbeit präsentiert DiffusionSTR, einen end-to-end-Texterkennungsansatz, der Diffusionsmodelle zur Erkennung von Text in natürlichen Szenen einsetzt. Während bestehende Studien die Aufgabe der Szenentexterkennung als eine Bild-zu-Text-Transformation betrachteten, sehen wir sie nun erstmals innerhalb eines Diffusionsmodells als eine Text-zu-Text-Transformation unter Berücksichtigung von Bildern an. Erstmals zeigen wir, dass Diffusionsmodelle für die Texterkennung geeignet sind. Zudem belegen experimentelle Ergebnisse auf öffentlich verfügbaren Datensätzen, dass die vorgeschlagene Methode eine konkurrenzfähige Genauigkeit im Vergleich zu aktuellen State-of-the-Art-Verfahren erreicht.