Französischer biomedizinischer Textvereinfachung: Wenn Kleinstform und Präzision helfen

Wir präsentieren Experimente zur Vereinfachung medizinischer Texte im Französischen. Hierzu verwenden wir zwei Arten von Korpora – parallele Sätze, die aus bestehenden gesundheitsvergleichbaren Korpora im Französischen extrahiert wurden, sowie das WikiLarge-Korpus, das aus dem Englischen ins Französische übersetzt wurde – sowie ein Lexikon, das medizinische Begriffe mit Paraphrasen verknüpft. Anschließend trainieren wir neuronale Modelle auf diesen parallelen Korpora mit unterschiedlichen Verhältnissen zwischen allgemeinen und fachspezifischen Sätzen. Die Ergebnisse werden mit den Metriken BLEU, SARI und Kandel bewertet. Die Ergebnisse zeigen, dass bereits geringe Mengen an fachspezifischem Datenmaterial die Vereinfachung erheblich verbessern.