HyperAIHyperAI

Command Palette

Search for a command to run...

Star-net: Ein räumliches Aufmerksamkeits-Residuennetzwerk für die Erkennung von Szenentexten.

and J. Han. K.-Y. K. Wong W. Liu Z. Su C. Chen

Zusammenfassung

In diesem Artikel präsentieren wir ein neuartiges SpaTial Attention Residue Network (STAR-Net) zur Erkennung von Szenentexten. Unser STAR-Net ist mit einem räumlichen Aufmerksamkeitsmechanismus ausgestattet, der einen räumlichen Transformer nutzt, um Verzerrungen von Texten in natürlichen Bildern zu beseitigen. Dadurch kann der nachfolgende Merkmalsextraktor sich auf den korrigierten Textbereich konzentrieren, ohne durch Verzerrungen abgelenkt zu werden. Zudem nutzt unser STAR-Net residuelle Faltungsblöcke, um einen sehr tiefen Merkmalsextraktor zu konstruieren, was für die erfolgreiche Extraktion diskriminativer Textmerkmale bei dieser feinkörnigen Erkennungsaufgabe entscheidend ist. Durch die Kombination des räumlichen Aufmerksamkeitsmechanismus mit den residuellen Faltungsblöcken stellt unser STAR-Net das tiefste end-to-end trainierbare neuronale Netzwerk für die Erkennung von Szenentexten dar. Experimente wurden auf fünf öffentlichen Benchmark-Datensätzen durchgeführt. Die experimentellen Ergebnisse zeigen, dass unser STAR-Net eine Leistung erzielt, die mit den Stand der Technik vergleichbar ist, insbesondere bei Szenentexten mit geringen Verzerrungen, und diese Methoden bei Szenentexten mit erheblichen Verzerrungen übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp