Zu Machinenlesbaren Flussdiagramm-Bildern

Computersprachliche Lehrbücher und Software-Dokumentationen enthalten häufig Flussdiagramme, um den Ablauf eines Algorithmus oder einer Prozedur zu veranschaulichen. Moderne OCR-Engines klassifizieren diese Flussdiagramme oft als Grafiken und ignorieren sie in der weiteren Verarbeitung. In dieser Arbeit streben wir an, Flussdiagrammbilder maschinell interpretierbar zu machen, indem wir sie in ausführbaren Python-Code konvertieren. Dazu präsentieren wir ein neues transformer-basiertes Framework, nämlich FloCo-T5. Unser Modell ist für diese Aufgabe gut geeignet, da es die Semantik, Struktur und Muster von Programmiersprachen effektiv erlernen kann, was es nutzt, um syntaktisch korrekten Code zu generieren. Wir haben zudem ein aufgabenbezogenes Vortrainingsziel verwendet, um FloCo-T5 mit einer großen Anzahl von logikbewahrenden augmentierten Codesamples vorzutrainieren. Um eine gründliche Untersuchung dieses Problems durchzuführen, führen wir den FloCo-Datensatz ein, der 11.884 Flussdiagrammbilder und deren entsprechenden Python-Code enthält. Unsere Experimente zeigen vielversprechende Ergebnisse, und FloCo-T5 übertrifft offensichtlich verwandte wettbewerbsfähige Baseline-Modelle in Bezug auf Codegenerierungsmetriken. Wir stellen unseren Datensatz und unsere Implementierung öffentlich zur Verfügung.