HyperAIHyperAI
منذ 17 أيام

دمج التصفية في النشر العلمي لتدريب نماذج الذكاء الاصطناعي

Jorge Abreu-Vicente, Hannah Sonntag, Thomas Eidens, Cassie S. Mitchell, Thomas Lemberger
دمج التصفية في النشر العلمي لتدريب نماذج الذكاء الاصطناعي
الملخص

إن استخلاص كميات كبيرة من البيانات من المقالات الأكاديمية ووضع تسميات منظمة عليها يُعد أمرًا بالغ الأهمية لتمكين التطبيقات التالية للذكاء الاصطناعي والتحليلات الثانوية. وقد قمنا بدمج عملية تنظيم البيانات متعددة الوسائط في عملية النشر الأكاديمي، بهدف تسمية لوحات الرسوم البيانية المُقسَّمة وعناوينها. وتم دمج معالجة اللغة الطبيعية (NLP) مع ملاحظات التغذية الراجعة البشرية من المؤلفين الأصليين لزيادة دقة التسمية. شملت التسمية ثمانية أنواع من الكيانات البيولوجية (المركبات الصغيرة، المنتجات الجينية، المكونات تحت الخلوية، خطوط الخلايا، أنواع الخلايا، الأنسجة، الكائنات الحية، والأمراض)، بالإضافة إلى فئات إضافية تُحدِّد أدوار هذه الكيانات في تصميم التجارب والأساليب المستخدمة. يحتوي المجموعة الناتجة، المسمّاة SourceData-NLP، على أكثر من 620,000 كيان بيولوجي تم تسميتها بدقة، تم جمعها من 18,689 رسمًا توضيحيًا في 3,223 مقالًا في مجالات البيولوجيا الجزيئية والخلوية. وقد قمنا بتقييم فائدة هذه المجموعة في تدريب نماذج الذكاء الاصطناعي من خلال ثلاث مهام: التعرف على الكيانات المحددة (Named-Entity Recognition)، وتقسيم عناوين الرسوم البيانية إلى لوحات مكوناتها، ومهام جديدة تعتمد على السياق لتقييم ما إذا كان الكيان هدفًا مُتحكمًا فيه أو كائنًا يُقاس عليه. كما أوضحنا استخدام هذه المجموعة في أداء مهمة متعددة الوسائط، تتمثل في تقسيم الرسوم البيانية إلى صور اللوحات وعناوينها المرتبطة بها.