Home News Latest Papers Tutorials Datasets Wiki SOTA LLM Models GPU Leaderboard Events

English

Scene Text Recognition On Iiit5K

Metrics

Accuracy

Results

Performance results of various models on this benchmark

Model Name	Accuracy	Paper Title	Repository
DPAN	96.2	Look Back Again: Dual Parallel Attention Network for Accurate and Robust Scene Text Recognition
CLIP4STR-B (DataComp-1B)	99.5	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	-
SIGA_S	96.9	Self-supervised Implicit Glyph Attention for Text Recognition	-
MATRN	96.6	Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features	-
DTrOCR 105M	99.6	DTrOCR: Decoder-only Transformer for Optical Character Recognition	-
CLIP4STR-L	99.5	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	-
MGP-STR	98.8	Multi-Granularity Prediction for Scene Text Recognition	-
PARSeq	99.1±0.1	Scene Text Recognition with Permuted Autoregressive Sequence Models	-
CCD-ViT-Small(ARD_2.8M)	98.0	Self-supervised Character-to-Character Distillation for Text Recognition	-
CDistNet (Ours)	96.57	CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition	-
CCD-ViT-Tiny(ARD_2.8M)	97.1	Self-supervised Character-to-Character Distillation for Text Recognition	-
CLIP4STR-B	99.2	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	-
CLIP4STR-L (DataComp-1B)	99.6	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model	-
CCD-ViT-Base(ARD_2.8M)	98.0	Self-supervised Character-to-Character Distillation for Text Recognition	-
S-GTR	97.5	Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition	-
DiffusionSTR	97.3	DiffusionSTR: Diffusion Model for Scene Text Recognition	-
CPPD	99.3	Context Perception Parallel Decoder for Scene Text Recognition	-

0 of 17 row(s) selected.

Scene Text Recognition On Iiit5K | SOTA | HyperAI