HyperAI

Chinesischer Text in Der Wildnis – Datensatz Chinesischer Zeichen

Datum

vor 3 Jahren

Organisation

Veröffentlichungs-URL

ctwdataset.github.io

Lizenz

其他

Kategorien

Download-Hilfe
特色图像

„Chinese Text in the Wild“ ist ein großer Datensatz, der aus Texten in natürlichen Bildern erstellt wurde. Dieser Datensatz enthält 32.285 Bilder mit 1.018.402 chinesischen Schriftzeichen und übertrifft damit frühere Datensätze bei weitem. Diese Bilder stammen von Tencent Street View und wurden ohne besonderen Zweck aus Dutzenden verschiedener Städte in China bezogen.

Dieser Datensatz stellt aufgrund seiner Vielfalt und Komplexität eine große Herausforderung dar. Es enthält flachen Text, erhabenen Text, städtischen Text, ländlichen Text, Text mit geringer Helligkeit, entfernten Text, teilweise verdeckten Text usw.

Zu jedem Bild sind alle chinesischen Schriftzeichen von Experten kommentiert. Für jedes chinesische Schriftzeichen versieht der Datensatz das zugrunde liegende Zeichen, den Begrenzungsrahmen und 6 Attribute mit Anmerkungen, um anzugeben, ob es verdeckt ist, einen komplexen Hintergrund hat, verzerrt ist, ein 3D-Text ist, künstlerisch ist oder handgeschrieben ist.