HyperAIHyperAI
vor 13 Tagen

Szenentexterkennung mit permutierten autoregressiven Sequenzmodellen

Darwin Bautista, Rowel Atienza
Szenentexterkennung mit permutierten autoregressiven Sequenzmodellen
Abstract

Context-aware STR-Verfahren verwenden typischerweise interne autoregressive (AR) Sprachmodelle (LM). Aufgrund inhärenter Einschränkungen von AR-Modellen wurden zweistufige Ansätze entwickelt, die externe Sprachmodelle einsetzen. Die bedingte Unabhängigkeit des externen Modells von dem Eingabebild kann dazu führen, dass korrekte Vorhersagen fälschlicherweise korrigiert werden, was zu erheblichen Effizienzverlusten führt. Unser Verfahren, PARSeq, lernt eine Ensemble-Verteilung interner AR-LMs mit geteilten Gewichten mittels Permutation Language Modeling. Es vereint kontextfreie nicht-autoregressive und kontextbewusste autoregressive Inferenz sowie eine iterative Verbesserung mithilfe bidirektionaler Kontextinformation. Unter Verwendung synthetischer Trainingsdaten erreicht PARSeq state-of-the-art (SOTA)-Ergebnisse in STR-Benchmarks (91,9 % Genauigkeit) und auf anspruchsvolleren Datensätzen. Bei der Ausbildung auf realen Daten etabliert es neue SOTA-Ergebnisse (96,0 % Genauigkeit). PARSeq ist optimal hinsichtlich Genauigkeit im Verhältnis zu Parameteranzahl, FLOPS und Latenz, dank seiner einfachen, einheitlichen Architektur und der parallelen Token-Verarbeitung. Aufgrund der intensiven Nutzung von Attention ist es robust gegenüber beliebig ausgerichteten Texten, wie sie in realen Bildern häufig vorkommen. Der Quellcode, vortrainierte Gewichte und die Datensätze sind verfügbar unter: https://github.com/baudm/parseq.

Szenentexterkennung mit permutierten autoregressiven Sequenzmodellen | Neueste Forschungsarbeiten | HyperAI