HyperAIHyperAI

Command Palette

Search for a command to run...

دمج التصفية في النشر العلمي لتدريب نماذج الذكاء الاصطناعي

Jorge Abreu-Vicente Hannah Sonntag Thomas Eidens Cassie S. Mitchell Thomas Lemberger

الملخص

إن استخلاص كميات كبيرة من البيانات من المقالات الأكاديمية ووضع تسميات منظمة عليها يُعد أمرًا بالغ الأهمية لتمكين التطبيقات التالية للذكاء الاصطناعي والتحليلات الثانوية. وقد قمنا بدمج عملية تنظيم البيانات متعددة الوسائط في عملية النشر الأكاديمي، بهدف تسمية لوحات الرسوم البيانية المُقسَّمة وعناوينها. وتم دمج معالجة اللغة الطبيعية (NLP) مع ملاحظات التغذية الراجعة البشرية من المؤلفين الأصليين لزيادة دقة التسمية. شملت التسمية ثمانية أنواع من الكيانات البيولوجية (المركبات الصغيرة، المنتجات الجينية، المكونات تحت الخلوية، خطوط الخلايا، أنواع الخلايا، الأنسجة، الكائنات الحية، والأمراض)، بالإضافة إلى فئات إضافية تُحدِّد أدوار هذه الكيانات في تصميم التجارب والأساليب المستخدمة. يحتوي المجموعة الناتجة، المسمّاة SourceData-NLP، على أكثر من 620,000 كيان بيولوجي تم تسميتها بدقة، تم جمعها من 18,689 رسمًا توضيحيًا في 3,223 مقالًا في مجالات البيولوجيا الجزيئية والخلوية. وقد قمنا بتقييم فائدة هذه المجموعة في تدريب نماذج الذكاء الاصطناعي من خلال ثلاث مهام: التعرف على الكيانات المحددة (Named-Entity Recognition)، وتقسيم عناوين الرسوم البيانية إلى لوحات مكوناتها، ومهام جديدة تعتمد على السياق لتقييم ما إذا كان الكيان هدفًا مُتحكمًا فيه أو كائنًا يُقاس عليه. كما أوضحنا استخدام هذه المجموعة في أداء مهمة متعددة الوسائط، تتمثل في تقسيم الرسوم البيانية إلى صور اللوحات وعناوينها المرتبطة بها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp