数据分析与疾病预测（类MIMIC数据库）

VincentWei

天地间，浩然正气长存，为天地立心，为生民立命，为往圣继绝学，为万世开太平！

免责声明：网站内容仅供个人学习记录，禁做商业用途，转载请注明出处。

版权所有 © 2017-2020 NEUSNCP个人学习笔记辽ICP备17017855号-2

数据分析与疾病预测（类MIMIC数据库）

VincentWei 2023年5月10日 22:22:39

#目的
通过分析ICU入院患者的数据（MIMIC II），我们试图建立一个机器学习模型，该模型可以根据患者的生命体征、年龄和性别，甚至在患者到达医院之前，有效而正确地对患者的疾病类别进行分类。因此，由于这种疾病的早期诊断，可以很容易地安排他的治疗，从而挽救生命。
#方法论
##数据收集：
通过分析ICU入院患者的数据，我们试图建立一个机器学习模型，该模型可以根据患者的生命体征、年龄和性别，甚至在患者到达医院之前，有效而正确地对患者的疾病进行分类。因此，由于这种疾病的早期诊断，可以很容易地安排他的治疗，从而挽救生命。
##数据理解：
用户指南也与MIMIC II数据集一起提供。它有助于理解数据的收集、常用术语、数据库结构，以及如何查询数据的演示。
##预处理：
我们必须将患者的生命体征、性别、年龄和疾病放在一张桌子上。我们使用pandas、numpy、os和其他库来过滤、合并和保存数据。
##探索性数据分析：
数据探索在很大程度上是为了确定患者的人口统计数据以及记录的患者生命体征。由于我们主要有分类数据，我们创建了一些可视化，如条形图和饼图，以快速掌握和理解什么样的参数是重要的，哪些是最常见和最领先的参数等。
##功能工程：
在从众多表格中汇编患者的生命体征、性别、年龄和疾病后，我们不得不处理零值、数据缺失和疾病类别不平衡的问题。首先，我们筛选出了患者入院的前10种疾病。然后将生命体征的零值和缺失值与相应类型的平均值进行估算。由于数据的类别存在巨大的不平衡。我们使用scikit-learn的不平衡库对这些类进行Up采样，所有这些类都具有相同数量的观测值。
##模型培训和测试：
首先，数据集被分为训练集和测试集。列车组进一步分为列车组和验证组。在训练集上验证了各种分类算法，包括Logistic回归、决策树、K-最近邻、支持向量机、随机森林等。
随机森林给出了最好的结果，因此在保持（测试集）上进行了测试。
##模型评估：
在对随机森林进行测试后，根据某些分类指标对其进行了评估，包括准确性、精确度、召回率、F1分数和混淆矩阵。
##ML结果：
随机森林在其他分类算法中表现最好。我们能够将随机森林的过度拟合减少24%（与原始数据集相比）。该模型的测试准确率为81%，之前为64%。
#后续
尝试model ensembling和CNN-based Deep Neural Network以及Deep Forest等
进一步，通过统计学p-value等类似方法，进行数据特征选择，寻找环境不变特征，以及特征之间的因果建模，消除cofounder。