HyperAIHyperAI

Command Palette

Search for a command to run...

Szenentexterkennung mit permutierten autoregressiven Sequenzmodellen

Darwin Bautista Rowel Atienza

Zusammenfassung

Context-aware STR-Verfahren verwenden typischerweise interne autoregressive (AR) Sprachmodelle (LM). Aufgrund inhärenter Einschränkungen von AR-Modellen wurden zweistufige Ansätze entwickelt, die externe Sprachmodelle einsetzen. Die bedingte Unabhängigkeit des externen Modells von dem Eingabebild kann dazu führen, dass korrekte Vorhersagen fälschlicherweise korrigiert werden, was zu erheblichen Effizienzverlusten führt. Unser Verfahren, PARSeq, lernt eine Ensemble-Verteilung interner AR-LMs mit geteilten Gewichten mittels Permutation Language Modeling. Es vereint kontextfreie nicht-autoregressive und kontextbewusste autoregressive Inferenz sowie eine iterative Verbesserung mithilfe bidirektionaler Kontextinformation. Unter Verwendung synthetischer Trainingsdaten erreicht PARSeq state-of-the-art (SOTA)-Ergebnisse in STR-Benchmarks (91,9 % Genauigkeit) und auf anspruchsvolleren Datensätzen. Bei der Ausbildung auf realen Daten etabliert es neue SOTA-Ergebnisse (96,0 % Genauigkeit). PARSeq ist optimal hinsichtlich Genauigkeit im Verhältnis zu Parameteranzahl, FLOPS und Latenz, dank seiner einfachen, einheitlichen Architektur und der parallelen Token-Verarbeitung. Aufgrund der intensiven Nutzung von Attention ist es robust gegenüber beliebig ausgerichteten Texten, wie sie in realen Bildern häufig vorkommen. Der Quellcode, vortrainierte Gewichte und die Datensätze sind verfügbar unter: https://github.com/baudm/parseq.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Szenentexterkennung mit permutierten autoregressiven Sequenzmodellen | Paper | HyperAI