Pipeline zur Unterstützung von Zero-shot-Klassifikation für bangladeschisch handschriftliche Grapheme

Diese Forschung untersucht das Zero-Shot Learning (ZSL) und schlägt eine auf CycleGAN basierende Bildsynthese sowie eine präzise Label-Zuordnung vor, um eine starke Verbindung zwischen Labels und Graphemen herzustellen. Ziel ist es, die Erkennungsgenauigkeit von Modellen bei bisher nicht gesehenen Klassen durch die Anwendung fortschrittlicher Schriftbild-Kategorisierung und eines auf CycleGAN basierenden Generators zu verbessern. Die resultierenden Darstellungen abstrakter Zeichenstrukturen zeigen eine signifikante Verbesserung der Erkennung, die sowohl gesehene als auch nicht gesehene Klassen berücksichtigt. Diese Untersuchung greift ein komplexes Problem im Bereich der optischen Zeichenerkennung (OCR) im spezifischen Kontext der bangladeschischen Sprache auf. Die bangladeschische Schrift ist durch ihre Komplexität bekannt und besteht insgesamt aus 49 Buchstaben, darunter 11 Vokale, 38 Konsonanten und 18 Diakritika. Die Kombination dieser Buchstaben in dieser komplexen Anordnung ermöglicht die Erzeugung von fast 13.000 einzigartigen Graphemen-Varianten, was die Anzahl der graphematischen Einheiten der englischen Sprache übertrifft. Unsere Untersuchung präsentiert eine neue Strategie für ZSL im Kontext der bangladeschischen OCR. Dieser Ansatz kombiniert generative Modelle mit sorgfältigen Labeling-Techniken, um den Fortschritt der bangladeschischen OCR, insbesondere in Bezug auf die Graphem-Kategorisierung, zu fördern. Unser Ziel ist es, einen wesentlichen Beitrag zur Digitalisierung von Bildungsressourcen in der indischen Subkontinent zu leisten.