HyperAIHyperAI

Command Palette

Search for a command to run...

SAFL: Ein Selbst-Attention-Szenentexterkennungsmodell mit Focal Loss

Bao Hieu Tran Thanh Le-Cong Huu Manh Nguyen Duc Anh Le Thanh Hung Nguyen Phi Le Nguyen

Zusammenfassung

In den letzten Jahrzehnten hat die Erkennung von Szenentext weltweit sowohl in der akademischen Forschung als auch bei praktischen Anwendern großes Interesse geweckt, da er für eine Vielzahl von Anwendungen von zentraler Bedeutung ist. Trotz Fortschritten im Bereich der optischen Zeichenerkennung bleibt die Erkennung von Szenentext herausfordernd, hauptsächlich aufgrund inhärenter Probleme wie Verzerrungen oder unregelmäßiger Layouts. Die meisten bestehenden Ansätze stützen sich hauptsächlich auf rekurrente oder convolutionale neuronale Netzwerke. Allerdings leiden rekurrente neuronale Netzwerke (RNNs) aufgrund der sequenziellen Berechnung häufig an einer langsamen Trainingsgeschwindigkeit und stoßen auf Probleme wie das Verschwinden des Gradienten oder Engpässe, während CNNs ein Kompromiss zwischen Komplexität und Leistungsfähigkeit eingehen müssen. In diesem Artikel stellen wir SAFL vor, ein auf Selbst-Attention basierendes neuronales Netzwerkmodell mit Focal Loss für die Szenentexterkennung, um die Grenzen bestehender Ansätze zu überwinden. Die Verwendung der Focal Loss anstelle der negativen Log-Likelihood ermöglicht es dem Modell, sich stärker auf die selteneren, schwieriger zu erkennenden Trainingsbeispiele zu konzentrieren. Darüber hinaus setzen wir zur Bewältigung von Verzerrungen und unregelmäßigen Texten das Spatial Transformer Network (STN) ein, um den Text vor der Verarbeitung durch das Erkennungsnetzwerk zu korrigieren. Wir führen Experimente durch, um die Leistung des vorgeschlagenen Modells mit sieben Benchmarks zu vergleichen. Die numerischen Ergebnisse zeigen, dass unser Modell die beste Leistung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp