HyperAIHyperAI

Command Palette

Search for a command to run...

Die Integration von Curation in die wissenschaftliche Publikation zur Schulung von AI-Modellen

Jorge Abreu-Vicente Hannah Sonntag Thomas Eidens Cassie S. Mitchell Thomas Lemberger

Zusammenfassung

Die hochdurchsatzfähige Extraktion und strukturierte Kennzeichnung von Daten aus wissenschaftlichen Artikeln ist entscheidend, um nachgeschaltete Anwendungen im Bereich des maschinellen Lernens und sekundäre Analysen zu ermöglichen. Wir haben die multimodale Datenaufbereitung in den wissenschaftlichen Publikationsprozess integriert, um segmentierte Abbildungsplatten und deren Beschriftungen zu kennzeichnen. Die Natural Language Processing (NLP)-Technologie wurde mit menschlichem Feedback der ursprünglichen Autoren kombiniert, um die Genauigkeit der Annotationen zu erhöhen. Die Annotation umfasste acht Klassen biologischer Entitäten (kleine Moleküle, Genprodukte, subzelluläre Komponenten, Zelllinien, Zelltypen, Gewebe, Organismen und Krankheiten) sowie zusätzliche Klassen zur Kennzeichnung der Rolle der Entitäten in Experimentdesigns und Methodologien. Das resultierende Datenset, SourceData-NLP, enthält mehr als 620.000 annotierte biomedizinische Entitäten, die aus 18.689 Abbildungen in 3.223 Artikeln der Molekular- und Zellbiologie kuratiert wurden. Wir evaluieren die Nutzbarkeit des Datensets zur Schulung von KI-Modellen anhand von Named-Entity-Recognition, der Segmentierung von Abbildungsbeschriftungen in ihre einzelnen Platten sowie einer neuartigen, kontextabhängigen semantischen Aufgabe, die prüft, ob eine Entität ein kontrollierter Eingriffsfaktor oder ein Messobjekt darstellt. Zudem zeigen wir die Anwendung unseres Datensets bei einer multimodalen Aufgabe zur Segmentierung von Abbildungen in Plattenbilder und ihre entsprechenden Beschriftungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp