MIMIC-Extract: خط أنابيب لاستخراج البيانات ومعالجتها السابقة وتمثيلها لمجموعة بيانات MIMIC-III

التعلم الآلي القوي يعتمد على الوصول إلى بيانات يمكن استخدامها مع الإطارات القياسية في المهام الهامة، وعلى القدرة على تطوير نماذج يمكن إعادة إنتاج أدائها بشكل معقول. وفي مجال التعلم الآلي للرعاية الصحية، تواجه المجتمع صعوبات في إعادة الإنتاج بسبب نقص البيانات المتاحة للجمهور ونقص الإطارات القياسية لمعالجة البيانات. نقدم MIMIC-Extract، وهو أنبوب مفتوح المصدر لتحويل بيانات السجلات الصحية الإلكترونية (EHR) الخام للمرضى الذين يحتاجون إلى الرعاية الحرجة، والموجودة في قاعدة البيانات MIMIC-III المتاحة للجمهور، إلى جداول بيانات可以直接在常见的机器学习管道中使用的(dataframes).MIMIC-Extract 解决了将复杂的健康记录数据提供给更广泛的机器学习社区所面临的三个主要挑战。首先,它提供了标准化的数据处理功能,包括单位转换、异常值检测和聚合语义等效特征,从而解决了重复问题并减少了缺失值。其次,它保留了临床数据的时间序列特性,并可以轻松集成到医疗保健领域的机器学习中的临床可操作预测任务中。最后,它的扩展性很高,因此其他有相关问题的研究人员可以轻松使用相同的管道。我们通过展示几个基准任务和基线结果来证明该管道的实用性。注:在最后一段中有一句未能完全转换为阿拉伯语,现重新翻译如下:نوضح فائدة هذا الأنبوب من خلال عرض عدة مهام معيارية ونتائج أساسية.