基于高斯混合模型糖尿病检测与糖尿病早期无创检测诊断方法
基于高斯混合模型糖尿病检测与糖尿病早期无创检测诊断方法
摘要:目前我国已经进入老龄化社会,慢性病患者人数居世界之首。根据2015年中国卫生部门提供的数据,中国的糖尿 病病人有1.14亿,而2010年是9200万。除了不断增加的糖尿病病人外,还有1.5亿人属于糖尿病前期,说明中国一共血 糖不正常的人有2.64亿。此外,还有存在糖尿病高危人群,他们是诸如有糖尿病家族史的人、老年人、肥胖人士、功能代谢 紊乱者等。可以说,直接受到糖尿病威胁的人有6.64亿。这一事实表明在糖尿病检测方面,现有的方法还是有很多不 足。然而,随着大数据的发展,数据挖掘的方法已经被应用到其他科学领域,并取得了不错的效果。同时有一些研究者已 经将神经网络,支持向量机这些常用的数据挖掘的方法应用到医疗数据中,来帮助医生检测病人。因此,本文尝试用数据 挖掘中的混合高斯模型来帮助医生检测糖尿病患者。糖尿病或简单的糖尿病是由于血糖升高引起的疾病。虽然基于物 理和化学测试的各种传统方法可用于诊断糖尿病,但是诊断过程繁琐,化验成本高,诊断周期长。在本文中,我们采用混 合高斯模型来完成糖尿病的早期预测。该模型在我们的训练集上达到了 98%的准确率,测试集上达到了 83%的准确率,验 证了该方法的可行性。
1概述
生命需要能量来持续,人体需要能量来运行。然而人体细 胞的重要能量来源是葡萄糖,这些葡萄糖主要是由碳水化合物 分解而成的。当碳水化合物完成分解时,需要胰岛素来将这些 葡萄糖输送到人体细胞中。血糖的供给由胰腺产生的胰岛素 和胰髙血糖素激素来完成的。一般情况,当血糖升髙时,会刺 激p细胞产生胰岛素。胰岛素能够使血糖进人细胞,这时葡萄 糖来提供能量。所以血糖保持在一个正常的范围。如果血糖 升髙时,胰岛素没有正常产生,此时,就是导致血糖升髙,如果 情况严重,就会导致糖尿病。糖尿病是一种慢性疾病,如果长 期发展下去,可能会导致很严重的后果。据国际糖尿病联合 会,全球共有3.82亿人患有糖尿病。到2035年,这将增加一 倍,达到5.92亿[1]。然而,由于各种复杂因素相互依赖,糖尿病 的早期预测对于医生来说是非常具有挑战性的任务。糖尿病 会影响人体器官如肾脏,眼睛,心脏,神经,脚部等,除此之外, 还会对患者的心理施加压力[2]。
数据挖掘[3]是借助人工智能,机器学习[4],统计学和大数据 等方法,来挖掘隐藏在数据中的一些规律。它是计算机科学的 跨学科子领域。数据挖掘过程的总体目标是从数据集中提取 信息并将其转换为可理解的结构以供进一步使用。除了原始 分析步骤之外,还涉及数据库和数据管理方面,数据预处理,兴 趣度量,复杂性考虑,发现结构后的处理,可视化和在线更新。 实际的数据挖掘任务是对大量数据的自动或半自动分析,以提 取以前未知的特征,例如数据记录(聚类分析),异常记录(异常 检测)和依赖关系(关联规则挖掘,顺序模式挖掘)。这通常涉 及使用数据库技术,如空间索引。这些模式然后可以被看做输
人数据的一种总结,并且可以用于进一步的分析,或者在机器 学习和预测分析中。数据挖掘现在已经被广泛地应用,包括分 类,估计,预测,相关性分组,聚类,复杂数据类型挖掘。
在本文中,我们将数据挖掘中的髙斯混合模型,应用到医 学领域。目前,数据挖掘中的很多方法可以被应用到医学领域 中。例如,我们可以将关联规则应用在医疗数据中,来挖掘出 隐藏在其中的规则,如果规则数量相当大,我们可以引人搜索 约束,只发现在医学上有意义的关联规则,来帮助医学和专家 寻找有用的信息。通过对医学大数据的挖掘、分析,并应用神 经网络,支持向量机,逻辑回归,对常见疾病如心绞痛、心肌梗 死、脑血管疾病、髙血压病、肿瘤、哮喘病等疾病来预测或对疾 病的风险进行评估[5,6]。运用数据挖掘知识对疾病进行预测可 以大幅度地降低医疗费用,并且在基于大量医学数据分析的基 础上进行科学的,健康的管理。
综上所述,把数据挖掘的方法应用在医学领域很有前景。 本文讨论将混合髙斯模型应用在糖尿病患者的检测上面,来指 导医生检测糖尿病患者,同时也帮助患者提前预防糖尿病,减 轻患者的医疗负担和心理压力。论文的剩余部分安排如下:第 2部分我们将讨论混合髙斯模型,包括他的数学原理,数学推 导。第3部分我们将会对实验结果进行分析,最后,我们对论 文进行总结。
2高斯混合模型(GMM)
在统计学中,混合模型是一个概率模型。形式上,混合模 型对应于混合分布,其表示总体群体中观测的概率分布。髙斯 混合模型(GMM)[S]分类器是一种有用和基本的监督学习分类 器算法,尤其适合分类大量的,具有多维特征的数据集。
Compt/terKnow/edgeandTec/^o/opy 电脑知识与技术
第13卷第11期(2017年4月)
高斯混合模型[7],是在单高斯模型的基础上发展而来的,单 高斯模型就是指单个高斯分布模型或者正态分布模型,这一分 布表示了自然界普遍存在的有关变量的一种统计规律,例如人 的身高,商品的销量,考试的成绩,商品的质量,公司的收益 等。这一分布具有很好的数学性质,具有各阶导数,整个分布 由0完全决定:
^ (y i e )= 1 exp (-(y~^2)1) ⑴
2n ^ \ 2a- !
其中e =(从,ct2);
高斯混合模型是由k个单高斯分布混合而成的,每个高斯 分布称为混合高斯模型的一个组件,也就是分成K个类,和k- means算法一样,K的取值需要提前指定具体的形式定义如下:
P (y1 e )= ai^(y1 ek) (2)
如果把混合高斯模型应用到实际问题中,通常包含两个步 骤。在训练阶段经过训练,每个类别的高斯分布所对应的参数 被佔计出来,然后每个类别所对应的高斯分布确定下来。最 后,在测试阶段,把测试数据分别输人到每个类别所对应的高 斯分布中,然后计算出所对应的概率,概率最大值所在的类别, 为最终类别。
混合高斯模型的应用很广泛,在金融领域,它可以预测房子 的价格。在文木方面,它可以进行文木的分类。还可以把它应 用在手写数字识别。在语音方面,可以应用在说话人识别[9],语 音识别[101。尤其在图像处理和计算机视觉方面。他的应用更为 广泛,采用高斯混合模型可以进行图像分割[111,目标跟踪[121。
在我们的实验中,混合高斯模型被用于检测糖尿病。因为 只是用来检测病人是否患有糖尿病,在模式识别中,属于2分 类问题。因此,我们建立两个高斯混合模型:一个模型的分布 用来表示患者的概率分布,另一个模型用来表示未患病者的分 布。因为,高斯混合模型的初始化对实验的结果有很重要的影 响,所以我们将K均值的方法和高斯混合模型相结合,来完成 高斯混合模型参数的初始化。
在高斯混合模型中,每个模型中所包含的单高斯的个数, 对实验结果的影响很重要。为了找到最好的模型,因此我们将 高斯个数设置为1,2,3和4分别进行实验,实验结果如下表:
单高斯个数 |
1 |
2 |
3 |
4 |
最后准确率 |
0.64 |
0.83 |
0.75 |
0.45 |
3实验结果分析
以上表中数据表明最好的结果83%。当单高斯的数量为 1,模型拟合性能非常差,因为单高斯模型结构太简单,是不能 够刻画复杂数据。如果高斯个数是3或大于3,模型的性能也 很差,其中主要原因有可能是,当高斯个数越多时,模型越复 杂,一般来讲,模型越复杂;要求训练集越多。在我们的实验 中,我们的训练集只有4000条。所以训练不足,导致准确率比 较低。因此,当高斯个数为2时,我们取得了最好的实验效果。
为了更好的验证实验方案的可行性,我们也用其他方法做了 对比实验,我们选取了神经网络(ANN),支持向量机(SVM),极 限学习机(ELM)和逻辑回归作为对比的方法,实验结果如下表:
方法 |
GMM |
SVM |
ANN |
逻辑回归 |
ELM |
准确率 |
0.83 |
0.74 |
0.83 |
064 |
0.71 |
以上表表明,混合高斯模型和神经网络具有相同的效果, 但是,实验表明,在测试阶段高斯混合模型的计算速度远远快 于神经网络。在训练阶段,和神经网络相比较,高斯混合模型 需要更少的迭代次数来完成收敛。在我们的实验中,当单高斯 个数为2时,只需要迭代20次就可以完成收敛。而神经网络至 少需要1000次。充分验证了我们模型的可行性。
4总结和展望
木文主要是选用高斯混合模型和K均值算法相结合,来完 成糖尿病的预测。来辅助医生检测病人。在测试集上,我们的 准确率达到了 98%,在测试集上,我们的准确率达到了 83%。 但是,由于我们数据集的不足,所以我们模型的泛华能力不是 很强,并且83%的准确率在实际中还是很低。很难将它投人到 实际中。除此之外,我们只选取了 7个会导致疾病的因素,在 实际中,还有很多其他会导致疾病的因素需要我们去研究。
在以后的工作中,我们将会采集大量的数据集,将高斯混 合模型和统计特征相结合,来进行我们的实验。或者,我们也 考虑将深度神经网络运用到我们的问题中。
成都华西华科研究所研发生产多种糖尿病及并发症早期无创检测诊断系统
网址:http:// www.qctqct.cn
手机 : 13072875151 13398187118传真 :028-65830598
市场部电话 :028-65830598 028-67708638 83190122
在线 QQ:110480527 联系人 : 王先生
邮箱:samwangcn@126.com
地址 : 成都市静康路536号
- 上一篇:检测血清microRNA对糖尿病诊断潜在价值与糖尿病早期无创 2022/6/15
- 下一篇:基于反向离子电渗透原理的无创血糖检测 研究进展与糖尿病早期无 2022/6/15