SAFL: Ein Selbst-Attention-Szenentexterkennungsmodell mit Focal Loss

In den letzten Jahrzehnten hat die Erkennung von Szenentext weltweit sowohl in der akademischen Forschung als auch bei praktischen Anwendern großes Interesse geweckt, da er für eine Vielzahl von Anwendungen von zentraler Bedeutung ist. Trotz Fortschritten im Bereich der optischen Zeichenerkennung bleibt die Erkennung von Szenentext herausfordernd, hauptsächlich aufgrund inhärenter Probleme wie Verzerrungen oder unregelmäßiger Layouts. Die meisten bestehenden Ansätze stützen sich hauptsächlich auf rekurrente oder convolutionale neuronale Netzwerke. Allerdings leiden rekurrente neuronale Netzwerke (RNNs) aufgrund der sequenziellen Berechnung häufig an einer langsamen Trainingsgeschwindigkeit und stoßen auf Probleme wie das Verschwinden des Gradienten oder Engpässe, während CNNs ein Kompromiss zwischen Komplexität und Leistungsfähigkeit eingehen müssen. In diesem Artikel stellen wir SAFL vor, ein auf Selbst-Attention basierendes neuronales Netzwerkmodell mit Focal Loss für die Szenentexterkennung, um die Grenzen bestehender Ansätze zu überwinden. Die Verwendung der Focal Loss anstelle der negativen Log-Likelihood ermöglicht es dem Modell, sich stärker auf die selteneren, schwieriger zu erkennenden Trainingsbeispiele zu konzentrieren. Darüber hinaus setzen wir zur Bewältigung von Verzerrungen und unregelmäßigen Texten das Spatial Transformer Network (STN) ein, um den Text vor der Verarbeitung durch das Erkennungsnetzwerk zu korrigieren. Wir führen Experimente durch, um die Leistung des vorgeschlagenen Modells mit sieben Benchmarks zu vergleichen. Die numerischen Ergebnisse zeigen, dass unser Modell die beste Leistung erzielt.