公务员期刊网 论文中心 正文

数据挖掘算法及在医院内感染的应用

前言:想要写出一篇引人入胜的文章?我们特意为您整理了数据挖掘算法及在医院内感染的应用范文,希望能给你带来灵感和参考,敬请阅读。

数据挖掘算法及在医院内感染的应用

1常见数据挖掘算法及其在医院内感染中的应用

1.1神经网络

人工神经网络是一种模拟人脑神经传递的智能算法,一般由输入、隐含和输出三部分构成,包括前馈式网络、反馈式网络、自组织网络3种模型。BP神经网络为多层前馈式人工神经网络,是医学领域最常用的一种,基于误差逆传播算法训练而成。神经网络对资料类型没有任何要求,非线性数据处理能力强,容错性能良好,分类精确度高。但构建神经网络模型时缺乏相应的理论指导,主要靠专业经验设置网络隐藏层的层数和单元数,且无法明确输入变量是保护因素还是危险因素,对结果的解释性能较低。重症监护病房(ICU)住院患者自身基础疾病多,侵袭性治疗操作多,是医院内感染的高危人群。谢多双等[6]将ICU患者作为研究对象,构建ICU患者医院内感染的多层感知器神经网络预测模型,模型结构为25-4-1,结果显示,ICU患者医院内感染的影响因素依次为ICU入住时间、抗菌药物使用情况、基础疾病诊断、年龄、使用插管等,模型训练集与测试集的准确率分别达81.60%、84.20%,受试者工作特征曲线下面积为0.861,模型预测效果良好。许林勇等[7]使用SAS/EnterpriseMiner软件对患者医院内感染数据进行清洗和编码后使用16-6-1结构的BP神经网络模型进行医院内感染的危险度评估,建立了针对患者个体的预测模型,正确率达98.91%,受试者工作特征曲线下面积为0.986。但该研究纳入研究因素较少,且未对各科室情况进行分析。牛淼[8]根据住院患者种类将医院分为内科病区、外科病区、干部病区和其他病区,运用多层感知器神经网络模型对各病区医院内感染情况进行分析,结果显示,各病区中最重要的影响因素均为住院时间,无论在哪个病区,随着住院时间增加,医院内感染的风险显著升高。

1.2决策树

决策树的经典算法是由Quinlan提出的ID3算法,C4.5算法在此基础上增加了连续变量的处理方法,随着boosting技术的应用,C5.0算法应运而生。决策树的传递方式为自上而下,通过逻辑分支关系,形成一种具有分类规则的树状结构。决策树根据信息增益、GINI系数等模型参数选择对测试数据区分度最大的属性变量作为决策树的根节点,然后根据根节点变量的属性向下进行分割,形成分支;每个分支节点重新测试变量属性,继续向下分支,直到该分支节点的类别同质化或达到预先设定的阈值[9]。决策树生成过程若不加以限制,将会发生过拟合的现象,需对树进行剪枝。剪枝方式有2种,前剪枝和后剪枝,前剪枝是限制决策树的生长,减少决策分支;后剪枝是在决策树分割完成后对树进行修剪,防止过度拟合的发生。决策树模型生成的树状图简单、直观,易于理解,建模过程省时、高效、速度快,对多种类型属性等复杂数据处理能力强,具有高度精准的预测和分类的能力。王力红等[10]研究了1897例入住ICU的患者,分析其发生医院内感染的危险因素,通过建立评价指标体系将危险因素进行分类,并建立了决策树预测模型,对ICU患者住院期间发生医院内感染的风险进行早期预测。LOPES等[11]对巴西儿科医院的急诊患者进行前瞻性队列研究,监测患者医院内感染情况,并将决策树算法用于医院内感染相关病死率的预测,并找出高病死率相关的预测因素,结果显示,医院内感染相关高病死率与侵入性操作、多种抗生素联合应用有关,通过改变决策路径里的这些因素可降低医院内感染相关病死率。邓小红等[12]将CART决策树算法用于ICU住院患者医院获得性压疮的风险预测,最终生成4层11个节点的决策树模型,共提取6条分类规则,筛选出3类高危人群,且决策树模型的灵敏度、特异性及受试者工作特征曲线下面积均高于Braden评分。

1.3支持向量机(SVM)

SVM由Vapnik提出,在统计学习理论基础上发展而来[13]。SVM融合了结构风险最小原理和VC维理论等统计学习理论,成为其最大的技术特色,具有更良好的执行推广能力[14]。SVM旨在小样本数据的有限空间内寻找具有最大间隔的决策面,使决策风险达到最小,模型泛化能力达到最优[15]。SVM可很好地解决数据非线性问题及高维问题,解决了神经网络模型的局部极小点问题,提高了泛化性能[16]。EHRENTRAUT等[17]采用SVM和梯度树增强构建医院内感染监测模型。梯度树增强具有良好的分类能力,且能测量每个功能的重要程度,评估分类器所使用的特征是否为医院内感染的合理指标。该研究将重点研究有关预处理方法或参数调整是否有助于提高模型性能的问题,尽可能高地使回忆精度接近于100%,而具有高召回率的算法尤其适用于对感染的筛查。SILVA等[18]采用跨行业数据挖掘标准流程方法将SVM和朴素贝叶斯分类技术用于波尔图市中心医院的医院内感染数据分析,根据不同场景创建预测模型,以发现新知识并获得解决问题的最佳模型(灵敏度高于91.90%)。该研究通过对现有临床数据进行分析,提供了以临床问题为导向的科研思路,旨在减少患者发生并发症的风险,改善其安全和健康,从而预防和减少医疗机构的医院内感染的发生。医院内感染数据存在严重的不均衡性,阳性患者所占比重较小,针对这一现象,COHEN等[19]提出了非对称SVM,提高了SVM模型对罕见阳性病例的识别能力,以极低的成本实现了92.00%的召回率,且与之前研究通过新颖的重采样策略获得的最高灵敏度(87.00%)又有所提升。

1.4粗糙集

粗糙集理论是由PWLAK[20]教授于1982年提出的一种研究不完整、不确定知识和数据的学习归纳法,在处理大数据库和消除冗杂信息方面具有明显优势,现在已成为数据挖掘/知识发现研究中强有力的工具。粗糙集的基本思想是对决策表(数据集)进行属性约简和值约简后得出决策规则,然后采用判别规则进行分类。粗糙集理论的特点是不用预先给定特征或属性的数量描述,而直接从给定问题出发,通过不可分辨关系(类)找出问题的近似域,从而发现其内在规律[21-22]。王向阳等[23]首次将粗糙集算法用于医院内感染数据挖掘研究,通过对患者信息数据进行预处理,将病情信息看作条件属性,将是否发生医院内感染看作决策属性,对数据集进行属性约简和值约简,通过约简后的数据集得出决策规则,再使用得到的决策规则进行判别分类,得到的决策规则少而精,非常直观。洪晶等[24]将粗糙集与经典ID3决策树算法结合起来,建立了基于粗糙集的决策树算法,通过粗糙集属性约简后数据再使用决策树进行分类,2种算法优势互补,为诊断医院内感染提供了新的思路与方法。

1.5时间序列

时间序列数据具有高维性、海量性、噪声性、幅度上的拉伸和平移、时间轴上的伸缩性、线性漂移和不连续点等特征。传统的数据挖掘算法无法对时间序列数据进行有效的处理分析,因此,时间序列数据挖掘应运而生[25]。典型的时间序列模型包括自回归滑动平均模型、Markov模型和人工神经网络模型等[26]。耐甲氧西林金黄色葡萄球菌(MRSA)造成的医院内感染或社区感染不断攀升,对环境物表清洁消毒的要求也不断提高。单欢等[27]考虑到MRSA流行的时间趋势及周期变化,使用求和自回归滑动平均模型(ARIMA)对2010-2014年浙江医院MRSA监测数据进行拟合分析,建立了MRSA的ARIMA预测模型,对MRSA的流行趋势进行预测,得出模型的平均相对误差为20.19%,预测出的MR-SA动态趋势与实际检出情况基本符合,可为MRSA的防控提供参考依据。NGO等[28]将指数平滑法用于加利福尼亚州旧金山退伍军人医学中心在1991-1992年铜绿假单胞菌细菌感染疑似庆大霉素耐药情况分析,研究了庆大霉素抗性铜绿假单胞菌年累计发病率与流行发生的关系。由于儿童各器官系统发育尚未成熟,免疫机制尚不健全,对病原体尤其是呼吸道病原体抵抗力较弱,是医院内感染的易感人群。刘海鹏等[29]收集汇总了2011-2015年安徽省儿童医院住院患儿医院内感染数据,使用ARIMA时间序列分析方法进行模型的构建,并对数据进行一阶差分来平稳序列的方差,根据信息量准则选择最优模型,预测效果良好,对住院患儿医院内感染的发生率具有一定的预测价值。监测抗生素耐药性导致的医院内感染暴发是医院内感染控制不可或缺的重要部分。

1.6关联规则

对事务数据库进行关联规则挖掘,就是通过用户指定的最小支持度(Support)和最小置信度(Confidence)寻找强关联规则的过程[30]。关联规则挖掘问题包括寻找所有频繁项目集和在频繁项目集中寻找关联规则两部分。关联模式中最著名的就是AGRAWAL等提出来的Apriori算法[31],其算法思想是首先找出频繁性至少和预定义的最小支持度一样的所有频集,然后由频集产生强关联规则。通过减少对数据库的扫描次数和不必要的频繁项目集的生成方法可提高Apriori算法的效率。由于Apriori算法在寻找频繁项目集时产生大量的候选项,占用了大量的内存,不适用于大规模数据集,由此衍生出CLOSE算法和FP-GROWTH算法[32]。FP-GROWTH算法对原始数据库进行2次扫描,将原始库映射成一棵频繁模式树,并保留关联信息,然后再将频繁模式树分化成条件库,再对条件库进行挖掘,在内存中即可完成频繁项目集的发现工作。对医院内感染数据进行关联分析可发现数据属性间的关系,为医院内感染的防治提供参考依据。BROSSETTE等[33]利用阿拉巴马大学伯明翰分校医院的铜绿假单胞菌感染控制数据探索了一个基于关联规则的数据挖掘流程,期望用于医院内感染事件的自动识别与监测,模型实现结果良好。目前,医疗数据分析主要采用Apriori算法进行关联规则的数据分析,但Apriori算法候选频繁集较多,生成许多无趣的规则。有研究采用FP-GROWTH算法对解放军总医院第一附属医院的400例患者进行了关联分析,提取患者性别、年龄、抗生素使用情况等7个属性建立了13条关联规则,揭示了年龄、介入性操作、抗生素使用、住院时间等因素与医院内感染间的关联性[34]。医院内感染的影响因素多且彼此间及与医院内感染发生的联系尚未明确,具有灰色特性。刘姣英[35]运用灰色关联分析理论将医院内感染的数据资料进行量化分析,研究各因素间的关联程度及优势程度,结果显示,外科是医院内感染控制的重点科室,外科感染以泌尿系统感染最为突出,下呼吸道感染是医院内感染监控的重要部位,是造成其他部位感染的重要潜在因素。

2小结与展望

医院内感染因素复杂,种类庞多,对不同类型、不同部位的医院内感染进行预测,没有哪一种模型是绝对最优的,因此,需进一步进行大量的针对不同类型、途径、人群等具体属性的医院内感染数据挖掘研究。随着医院内感染数据挖掘研究的越来越深入,单一模型已无法满足研究需求,组合模型研究成为新的研究方向。模型的优劣取决于现有数据的拟合程度及对新数据的预测准确程度及实用性。模型预测的结果可集成到智能平台中,用于医院内感染发生的监测及预警,为医疗卫生决策提供重要参考依据。

作者:杨文伟 蒋良芝 李春燕 汪可可 单位:上海市杨浦区中心医院 同济大学附属杨浦医院医院感染管理科