公务员期刊网 论文中心 正文

冠心病中医证候数据挖掘研究

前言:想要写出一篇引人入胜的文章?我们特意为您整理了冠心病中医证候数据挖掘研究范文,希望能给你带来灵感和参考,敬请阅读。

冠心病中医证候数据挖掘研究

[摘要]综述因子分析、聚类分析、贝叶斯网络、多因子降维、决策树、人工神经网络、支持向量机、文献挖掘、系统评价9种数据挖掘算法及方法相关内容,认识各自优势与不足。概括9种方法在冠心病中医证候挖掘中的应用,阐释冠心病中医证候分布特征及演变规律,为冠心病中医辨证论治提供客观化依据。参考文献30篇。

[关键词]冠心病;证候;因子分析;聚类分析;贝叶斯网络;多因子降维;决策树;人工神经网络;支持向量机;文献挖掘;系统评价

1因子分析

因子分析是简化、分析高维数据的一种统计方法,最早由英国心理学家C.E.斯皮尔曼提出。作为一种非线性多元统计分析方法,通过寻找支配多个原始指标相关关系的有限个潜在变量,对原始指标之间的相关性或协方差关系进行阐释。简化变量信息,挖掘隐性变量,来让数据“自己说话”[3]。近年来,因子分析法在系统综合评价中显示出优势,分析全面,可排除各指标之间的相关重叠,能有效提取目标因子,对各因子权重具有较好的客观评定。张琳婷[4]利用因子分析法研究冠心病患者发病早期证候要素及证候特征,从频率>20%的88个指标变量中提取出29个发病早期指标变量,并对冠心病中医症状、体征进行探索性因子分析,提取出综合因子、胸闷因子、呕吐因子等12个公因子,为早期冠心病中医证候要素与证候特征奠定数据理论基础。吴旸等[5]研究348例行冠脉造影病例信息,应用因子分析对四诊信息降维处理,得出虚证是冠心病主要证型,并获取痰湿、血瘀、脾肾气虚、气阴两虚等16个公因子,为冠心病发病提前预警提供依据。因子分析法在冠心病证候综合系统评价中彰显优势,分析全面,但局限在于仅适用于综合性评价,且易受数据样本量及成分的影响。

2聚类分析

聚类分析也称点群分析、集群分析,是理想的多变量统计技术,主要有分层聚类法和迭聚类分析法两种。同时聚类分析将搜集到的对象信息借助于数理统计方法进行归类,是将现象分类的一种统计学方法,分指标聚类(R型聚类)和样品聚类(Q型聚类)两种。在中医证候研究中,聚类分析可对疾病的一般特征、分类、分级、证型分布及症状组成等进行统计学分析,客观的将信息结果进行分类,近年来被广泛应用。王阶等[6]对25l例稳定型心绞痛患者进行证候分类,采用证素组合规律研究,将症状总结成心气亏虚、脾气虚弱、气阴两虚、痰瘀互阻4类,发现气虚+血瘀、血瘀+痰浊、心气虚+痰浊+血瘀为其主要证素组合形式,特别指出运用聚类分析和对应分析方法对证候要素组合规律研究较佳。张明雪等[7]通过聚类统计发现,冠心病在发生发展中证候呈现一定规律,发展早期以气滞心胸、气阴两虚证为主;发作期以气滞痰阻、寒凝心脉、心阳不振、瘀血阳微证为主;缓解期主要以肝脾失调、心肾阳虚、心肺气虚证为主;而恢复期则以心气虚、气阴两虚、阳虚气滞证占据多数。邹演梅等[8]也通过聚类分析将冠心病心绞痛中医证候归纳成6类,即气虚血瘀、气阴两虚、阴虚痰瘀、寒凝血瘀、痰浊内阻、气滞痰热,并总结出基于特征加权的聚类分析得出的冠心病心绞痛证候分型与临床符合度较高的结论,在疾病证候分型研究领域中值得进一步推广。聚类分析模型简便、直观,适用于冠心病中医证型、证素的分类及比较。局限在于适用样本量小,难于有效处理大样本数据。

3贝叶斯网络

贝叶斯网络又称信念网络、因果网络,是一种基于概率推理的图形化网络[9]。通过将概率推理和网络结构相结合,用概率测度的权重表达变量间的相互关系。贝叶斯网络能将不完整、不确定的信息进行学习和推理,以条件概率加以表达。通过辨识中医诊断证候,对中医诊断学的发展及应用有重要意义[10]。在处理中医临床症状分类方面,准确度可达98%以上[11],近年来被应用于冠心病中医证候研究中。吴荣等[12]利用贝叶斯网络挖掘名老中医诊疗辨证信息,建立起冠心病名老中医诊疗数据库,总结出阳虚血瘀、血瘀痰阻等冠心病心绞痛常见证候,提取到冠心病心绞痛8个证候要素,其中血瘀占到92.17%,成为冠心病心绞痛的主要病理因素,并提出气虚痰浊血瘀证是冠心病的最常见证候。徐璡等[13]收集835例冠心病患者中医四诊信息,运用贝叶斯网络建立融合模型进行分类识别研究,得出血瘀、痰浊、心气虚、心阴虚、心阳虚5个证型识别率,其中阳虚、血瘀识别率最高,为冠心病中医证候分类诊断提供依据,证实了贝叶斯网络是中医证候客观化、规范化研究中的有效方法,并显示出其良好的应用前景。贝叶斯网络具有量化评价的优势,评价结果更为科学、客观。庞大的数据体系也加大了其分析处理难度,在解决复杂问题上有所局限。

4多因子降维

多因子降维是近年来流行的一种新的统计分析方法。其中,“因子”作为交互作用研究变量[14],“维”特指多因子组合个数。目前多因子降维主要被应用于卫生统计学、遗传学以及流行病学中。近年来在心血管疾病及恶性肿瘤等复杂疾病中得到广泛应用。李四维[15]运用多因子降维探究冠心病稳定期患者中医证候演变规律,指出冠心病稳定期的主要证侯包括血瘀、痰浊、气虚、毒证,强调毒证、气虚证为发生心血管事件的证候特点。宋庆桥[16]应用MDR方法构建相关数据模型,分析冠心病稳定型心绞痛临床表现与证候要素、常见证候之间以及与相关血清蛋白表达的关系,发现痰、瘀为冠心病稳定型心绞痛的主要证候要素,而气虚血瘀证、痰瘀互结证构成其主要证候,同时总结出相关血清蛋白表达规律:血清tPAI-1、sVCAM-1、sICAM-1蛋白在痰、瘀、气虚、阴虚证素中表达升高,在气虚血瘀、痰瘀互结等证候中表达升高,在气虚血瘀痰阻证、气阴两虚痰阻证等复合证候中也有表达升高趋势。多因子降维能够弥补Logistic回归在处理高阶交互作用时的局限,在分析连续变量情况下优势明显。但面对低维度数据,多因子降维发现交互作用的能力也会降低。

5决策树

决策树作为一种数据挖掘算法,主要用来解决分类问题[17]。通过将问题搜索空间分成若干,以树形结构的每个结点引出与之相关问题的可能答案,并通过叶结点呈现出对问题解决方案的预测。模型直观,描述简单,分类速度快,效率高,结果易于理解,对输入数据的高维属性和分类标识弹性及稳定性较佳,可很好地扩展到中小数据样本中,能够同时处理数据型和常规型两种属性,易于推出相应的逻辑表达式,简便快捷,特异性高,其中抽象交替决策树(ADTree)特异性为95.99%,目前在中医证候挖掘中得以广泛应用。史琦等[18]用决策树方法对89个临床指标进行分析,提取出不稳定型心绞痛痰瘀互阻证的规律特征,并形成识别模式,检验正确率为79.81%。通过将总胆红素、高敏C反应蛋白、谷氨酰转肽酶、空腹血糖、血小板和P-R间期6个指标纳入决策树模型,发现决策树模型模式识别清晰、直观,能够自动归纳识别规律,对证型-理化指标对应模式的数据挖掘具有一定优势,在处理冠心病大样本数据中发挥重要作用,但目前数据类型的非连续性是其局限。

6人工神经网络

人工神经网络具有较强的鲁棒性、容错性及自组织性,以神经元为基本运算单位,模拟生物神经网络结构与功能,完成对信息的加工与处理,近年来在冠心病中医证候数据挖掘中得以推广应用,以径向基神经网络(RBFN)方法最佳,正确率可达91.49%。孙贵香等[19]以矩阵实验室(MATLAB)为平台建立冠心病中医证候BP神经网络模型,运用回顾性及前瞻性检验方法对该模型性能进行客观检测,对496例回顾性检验和132例前瞻性检验的诊断准确率分别为90.5%、91.36%,体现出中医整体观念与辨证论治的内涵,较好地验证了人工神经网络在冠心病中医证候规律挖掘中的重要意义,表明人工神经网络对证候内在规则挖掘性能良好,显示其在中医证候规范化研究方面的应用前景广阔。神经网络对复杂数据能够达到精准预测,在处理类别及连续变量样本方面具备一定优势,但其对高维变量的处理仍有所局限。

7支持向量机

支持向量机作为一种新兴统计分类方法,以达到结构风险最小化为基本原则,通过将非线性数据赋予高维特征性,构造出最优分类超平面,可以有效弥补传统算法中维数灾难及过拟合等的缺陷,目前主要用于小样本、非线性及高维模式识别的问题解决[20]。研究指出,在冠心病的中医证候数据挖掘方法中,支持向量机是其最优选择[21],而在支持向量机中,Libsvm方法最佳。王阶等[22]运用支持向量机方法从115例冠心病典型医案中提取出血瘀、痰浊、气虚等8个主要证素,通过量化诊断,阐释相应证素应证组合规律,证素组合形以2、3证组合最为常见,3证组合占到47.83%,2证组合占到41.74%,且以虚实夹杂为主,占72.17%。许文杰等[23]记录528例冠心病患者中医脉图,运用支持向量机方法应用脉象信号非动力学特征,结合望诊、问诊信息,建立冠心病证候诊断模型,发现问诊、望诊参数联合脉象信号时域特征参数建立起的证候模型,平均识别准确率70.17%,脉象信号RQA特征参数代替其时域特征参数参与建立起的证候模型,平均识别准确率可达82.83%。从而揭示脉象信号非动力学特征参与冠心病证候诊断模型建立可以有效提高模型平均识别准确率的规律。支持向量机在小样本冠心病中医证候研究中发挥其优势,但对于大样本或复杂数据模型的处理有一定局限。

8文献挖掘

文献挖掘又称文献分析,研究对象主要是非结构化数据,是从文本中发现潜在、隐藏、归纳性知识的一种方法[24]。具体步骤主要包括对文献的搜集、鉴别、整理、分析,形成对事实科学的认识,近年来被广泛应用于冠心病的中医临床研究。田松等[25]基于现代文献对3300篇相关文献进行综合收集与整理,最终筛选出58篇合格文献,总计7680例病例,通过对近10年关于冠心病辨证与证素证型文献检索,挖掘出28种冠心病中医证型,血瘀、痰浊、气虚为其主要证素分布规律。证素组合形式以单证素和两证素为主,分别占70.75%、26.07%,揭示冠心病主要证候要素为血瘀、痰浊,主要证型以单证素为主,而心血瘀阻型、痰浊阻滞型、心气不足型分布最为广泛。李艳娟[26]通过中国生物医学文献光盘数据库分级检索1994至2013年近10年国内核心期刊文献,共检出文献489篇,筛选出合格文献25篇,病例3090例,建立计量诊断表,其敏感度、特异性、准确性均得到了较好的验证,统计分析冠心病中医证候,发现心血瘀阻证、心气亏虚证、痰阻心脉证为冠心病心绞痛主要证型,揭示将中医病、证规范化与计量化的可行性,为冠心病心绞痛临床诊断创新辨证分型模式。毛静远等[27]在参阅近40年308篇文献的基础上研究出气虚、阴虚是冠心病虚证常见证素,血瘀、痰浊、气滞为冠心病实证常见证素,且血瘀、痰浊等实证证候要素比重呈现出逐年增长态势。文献挖掘适用于大样本、信息复杂的研究对象,在冠心病中医证候研究工作中突显优势。由于样本信息庞大且缺乏明确统一标准,因而应用文献挖掘法难免存在较大误差,在准确度上存在一定局限。

9系统评价

系统评价和Meta分析是循证医学中的重要研究方法。系统评价从某一具体临床问题入手,系统、全面地搜集现有已发表或未发表的临床研究数据,以严谨为评价原则[28],筛选出合格文献,通过定性、定量合成,综述出可靠结论,同时可随临床研究的新近成果及时进行更新。系统评价具体步骤主要有:确立标题→收集文献→选择文献→评价文献→收集数据→分析数据→解释结果→更新系统评价。陈小光[29]基于系统评价方法探讨冠心病中医痰证与客观化指标的关系,通过计算机检索文献、筛选文献、纳入客观化指标的步骤,对冠脉狭窄程度、血脂、C反应蛋白、同型半胱氨酸4个指标进行定性、定量分析(Meta分析),结果得出中重度冠脉狭窄以痰证、血瘀证为主要证型,三酰甘油对痰证区分其他证型特异性较强,C反应蛋白对痰证辨识度较高,同型半胱氨酸对于冠心病痰证的判断也有较好的识别价值。系统评价方法在处理不同研究结果方面有明显优势,并具有一定的创新性。局限在于研究纳入样本量有限,无法完成对全部相关数据的提取,理论上容易发生偏性,且对于临床终点定义往往不明确。

10问题及展望

目前,冠心病中医证候数据挖掘工作仍处于探索阶段,开展过程中也存在一些问题。数据挖掘方法各有利弊,在选取上可优势互补,扬长避短。但目前方式单一,单一方法之间关联度不够,在方式选择上仍存在缺陷,且不同方法挖掘出的结论难以有效统一,结果预测性不够精确,缺乏系统、客观的评价。冠心病中医证候信息大规模数据挖掘及建立冠心病中医证候模型技术在国内尚未成熟,从医案中挖掘出的部分证候规律与实际临床间存在一定偏差,数据挖掘力度不够,仅局限于表面层次,提取出的有效信息价值不高。且中医医案文献量大繁杂,加之中医证候自身复杂、模糊以及证候信息的多重共线特点,增加了冠心病中医证候数据挖掘工作的开展难度,仍有待进一步纵深探索。进一步加大数据挖掘研究力度并充分利用各方面优势[30],是有效推动中医药防治冠心病的重要步骤。实践证明,运用数据挖掘技术可以对冠心病中医证候信息的收集、分析以及规律总结提供方法支持。建立冠心病中医临床信息采集平台,联合多元分析方法,完善系统评价体系,实现信息的有效输出与归纳,是对冠心病中医证候进行数据挖掘的四个重要环节。数据挖掘方法形式多样,其性能各有优势,做到正确认识不同数据挖掘方法的性能特征,对于准确选择恰当的数据挖掘方法以及明确不同方法所表达的含义具有重要意义。不同挖掘方法在证候信息分析时呈现不同的特点,综合多种多元统计方法联合使用,优势互补,能够提高分析结果的准确性与可靠性。随着数据挖掘技术的发展,分析方法将会更加多元,现代医学相关指标与冠心病中医证候相结合的微观辨证将成为未来研究的焦点。冠心病中医证候研究不断深入,为中医诊断冠心病奠定理论基础,通过加强中西医不同角度对于冠心病的认识,拟为冠心病中西医结合诊疗提供新思路。

[参考文献]

[1]王小龙,亓咏梅.基于数据挖掘探讨甘草在冠心病心绞痛中的配伍应用[J].中医药导报,2018,24(23):74-76.

[2]李琳,胡志希,凌智.数据挖掘在冠心病中医证治研究中的应用[J].辽宁中医杂志,2014,41(12):2727-2729.

[3]李辉.城镇居民生活水平综合评价的因子分析研究[D].昆明:云南大学,2011.

[4]张琳婷.基于因子分析的冠心病发病早期中医证候研究[D].沈阳:辽宁中医药大学,2013.

[5]吴旸,王轩,崔杰,等.348例冠心病患者中医证候特点因子分析[J].中华中医药学刊,2009,27(2):392-394.

作者:钟霞 焦华琛 李运伦 赵天恩 张磊 李焱 单位:山东中医药大学中医学院 山东中医药大学附属医院心病科 泰山医学院