HyperAIHyperAI
vor 17 Tagen

Die Integration von Curation in die wissenschaftliche Publikation zur Schulung von AI-Modellen

Jorge Abreu-Vicente, Hannah Sonntag, Thomas Eidens, Cassie S. Mitchell, Thomas Lemberger
Die Integration von Curation in die wissenschaftliche Publikation zur Schulung von AI-Modellen
Abstract

Die hochdurchsatzfähige Extraktion und strukturierte Kennzeichnung von Daten aus wissenschaftlichen Artikeln ist entscheidend, um nachgeschaltete Anwendungen im Bereich des maschinellen Lernens und sekundäre Analysen zu ermöglichen. Wir haben die multimodale Datenaufbereitung in den wissenschaftlichen Publikationsprozess integriert, um segmentierte Abbildungsplatten und deren Beschriftungen zu kennzeichnen. Die Natural Language Processing (NLP)-Technologie wurde mit menschlichem Feedback der ursprünglichen Autoren kombiniert, um die Genauigkeit der Annotationen zu erhöhen. Die Annotation umfasste acht Klassen biologischer Entitäten (kleine Moleküle, Genprodukte, subzelluläre Komponenten, Zelllinien, Zelltypen, Gewebe, Organismen und Krankheiten) sowie zusätzliche Klassen zur Kennzeichnung der Rolle der Entitäten in Experimentdesigns und Methodologien. Das resultierende Datenset, SourceData-NLP, enthält mehr als 620.000 annotierte biomedizinische Entitäten, die aus 18.689 Abbildungen in 3.223 Artikeln der Molekular- und Zellbiologie kuratiert wurden. Wir evaluieren die Nutzbarkeit des Datensets zur Schulung von KI-Modellen anhand von Named-Entity-Recognition, der Segmentierung von Abbildungsbeschriftungen in ihre einzelnen Platten sowie einer neuartigen, kontextabhängigen semantischen Aufgabe, die prüft, ob eine Entität ein kontrollierter Eingriffsfaktor oder ein Messobjekt darstellt. Zudem zeigen wir die Anwendung unseres Datensets bei einer multimodalen Aufgabe zur Segmentierung von Abbildungen in Plattenbilder und ihre entsprechenden Beschriftungen.