Star-net: Ein räumliches Aufmerksamkeits-Residuennetzwerk für die Erkennung von Szenentexten.
In diesem Artikel präsentieren wir ein neuartiges SpaTial Attention Residue Network (STAR-Net) zur Erkennung von Szenentexten. Unser STAR-Net ist mit einem räumlichen Aufmerksamkeitsmechanismus ausgestattet, der einen räumlichen Transformer nutzt, um Verzerrungen von Texten in natürlichen Bildern zu beseitigen. Dadurch kann der nachfolgende Merkmalsextraktor sich auf den korrigierten Textbereich konzentrieren, ohne durch Verzerrungen abgelenkt zu werden. Zudem nutzt unser STAR-Net residuelle Faltungsblöcke, um einen sehr tiefen Merkmalsextraktor zu konstruieren, was für die erfolgreiche Extraktion diskriminativer Textmerkmale bei dieser feinkörnigen Erkennungsaufgabe entscheidend ist. Durch die Kombination des räumlichen Aufmerksamkeitsmechanismus mit den residuellen Faltungsblöcken stellt unser STAR-Net das tiefste end-to-end trainierbare neuronale Netzwerk für die Erkennung von Szenentexten dar. Experimente wurden auf fünf öffentlichen Benchmark-Datensätzen durchgeführt. Die experimentellen Ergebnisse zeigen, dass unser STAR-Net eine Leistung erzielt, die mit den Stand der Technik vergleichbar ist, insbesondere bei Szenentexten mit geringen Verzerrungen, und diese Methoden bei Szenentexten mit erheblichen Verzerrungen übertrifft.