前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据挖掘主题范文,仅供参考,欢迎阅读并收藏。
关键词:数据挖掘 技术 应用
中图分类号:TP311 文献标识码:A 文章编号:1674-098X(2013)04(c)-0054-01
数据挖掘是在信息的海洋中从统计学的角度分析发现有用的知识,并且能够充分利用这些信息,发挥其巨大的作用,从而创造价值,为社会生产服务。数据挖掘工具能够扫描整个数据库,并且识别潜在的以往未知的模式。
1 数据挖掘
数据挖掘是与计算机科学相关,包括人工智能、数据库知识、机器学习、神经计算和统计分析等多学科领域和方法的交叉学科,是从大量信息中提取人们还不清楚的但具有对于潜在决策过程有用的信息和知识的过程[1]。数据挖掘能够自动对数据进行分析,并归纳总结,推理,分析数据,从而帮助决策者对信息预测和决策其作用[2]。
对比数据挖掘及传统数据分析(例如查询、报表),其本质区别在于:前者在没有明确假设的前提下通过挖掘信息,提取有用的资料,并提升到知识层面,从而帮助提供决策支持。所以数据挖掘又称为知识挖掘或者知识发现。数据挖掘通过统计学、数据库、可视化技术、机器学习和模式识别等诸多方法来实现丛大量数据中自动搜索隐藏在其中的有着特殊关联性的信息[3]。
2 数据挖掘技术
数据挖掘有许多挖掘分析工具,可以在大量数据中发现模型和数据间关系,常用数据挖掘技术包括:聚类分析和分类分析,偏差分析等。
分类分析和聚类分析的主要区别在于前者是已知要处理的数据对象的类,后者不清楚处理的数据对象的类。聚类是对记录分组,把相似的记录在一个聚集里,聚集不依赖于预先定义好的类,不需要训练集。分类分析是预先假定有给定的类,并假定数据库中的每个对象归属于这个类,并把数据分配到这个给定类中。通过分析训练集中的数据,准确描述每个类别,并进行建模、挖掘分类规则,并依据该分类规则,划分其他数据库中的数据类别。聚类分析是非监督学习,不依靠预先定义的类和带类标号的训练数据集,实体对象集合依照某种相似性度量原则,归纳为若干个类似实体对象组成的多个类或簇的过程,不同类中的数据尽可能存在差异,同类中的数据之间各个数据尽可能相似。
存在大量数据的数据库中,数据中存在着偏差,而在偏差中也包括了大量的知识。偏差分析是当数据库中存在异常行为,就显示出要采取预防措施;否则,正常的变化,则需要更新数据库中的记录[4]。
3 数据挖掘方法
要的数据挖掘方法包括决策树、遗传算法、人工神经网络、近邻算法和规则推导等。通过描述和可视化来对数据挖掘结果进行表示。
决策树是以实例为基础的归纳学习算法。着决策集的树形结构代表决策树,树型结构表示分类或决策集合。决策树是采用自顶向下的递归方式,树的非终端节点表示属性,叶节点表示所属的不同类别。
遗传算法是基于种群“多样性”和“优胜劣汰”原则等进化理论,模拟生物进化过程的全局优化方法,将群体中将较劣的初始解通过复制、交叉和变异3个基本算子优化求解的技术,在求解空间随机和定向搜索特征的多次迭代过程,直到求得问题的最优解[5]。
人工神经网络对人脑神经元进行模拟,依据其非线形预测模型,通过模式识别的方式展开,获取的知识需要存储在网络各单元之间的连接权中。人工神经网络能够完成分类和聚类等挖掘[5]。
关联规则是进行数据挖掘的重要的可悲发现的知识,对于两个或多个变量的取值之间存在某种规律性,并对其进行可信度的分析,挖掘其中的关联关系。这对于发现数据中存在的各种有用的信息,发现其数据模式和特征,然后发现目标行为具有重要意义。
4 数据挖掘的应用
在医学领域,科学家从异构和分布式基因数据发现的基因序列的识别、发现基因表达谱数据中的差异表达基因,疾病不同阶段的致病基因等,运用各种数据挖掘技术了解各种疾病之间的相互关系、发展规律,总结治疗效果这对疾病的诊断、治疗和医学研究都是很有价值的。在零售业/市场营销,通过对顾客购物篮的分析,把顾客经常同时买的商品放在一起,帮助如何摆放货架上的商品,挖掘购买商品的关联关系,规划如何相互搭配进货,促销产品组合等商业活动[6]。
数据挖掘在生物信息学中有着广泛的应用。生物信息学就是通过对生物学实验产生的海量数据,进行分类、处理、分析和存储,达到深入理解生命科学中基于分子水平的生物信息的生物学意义。如差异基因表达检测的基因芯片,就是具有高通量的特点,并同时能够产生许多生物学数据,在其中蕴含着丰富的生物学意义。分析和挖掘基因芯片数据,检测差异表达基因在不同环境条件的异常表达值,能够生层次的了解生物学知识,提高对生命科学研究的科学性和效率。对癌症差异基因的分析结果分析,能够更好的检测有关疾病,并根据相关疾病的基因特性,就能有针对性的进行个体化治疗,开发个体化的新药。
进入2013年,有许多媒体都在称之为“大数据元年”。大数据也就是拥有庞大的数据信息,事务数据量大规模增长,而且大数据是要处理大量的非规范化数据,数据挖掘和分析是必不可少的。爆炸性的大数据的产生,可能会改变人们的思考方式,也重塑了人类交流的方式[7]。
5 结语
数据挖掘技术能自动分析数据,广泛应用于各个企事业单位,分析调查大量数据,分析企业经营对社会,经济和环境的综合影响,并预测企业未来的发展趋势,从数据仓库中揭示出数据之间的潜在价值的规律性,形成知识发现,为决策管理提供依据。
参考文献
[1] 孟晓明.浅谈数据挖掘技术[J].计算机应用与软件,2004(8).
[2] 丁样武,杨莹.数据挖掘在医学上的应川[J].郧阳医学院学报,1999(3):130-132.
[3] 黄晓霞,萧蕴诗.数据挖掘集成技术研究[J].计算机应用研究,2003(4):37.39.
[4] 王阳,张春华.数据挖掘技术、应用及发展趋势[J].信息化与网络建设,2003(4).
[5] 任承业.校园信息系统中数据挖掘的研究与应用[D].广州:暨南大学,2005.
数据挖掘的做法和意思如下:
1、数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。
2、数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
(来源:文章屋网 )
【 关键词 】 隐私保护;数据挖掘;数据扰动;多方安全计算
A Survey of Privacy Preserving Data Mining
Li Zhan-yu Zhu Jian-ming
(School of Information, Central University of Finance and Economics Beijing 100081)
【 Abstract 】 With the development of E-commerce and E-government, and deepening use of the data mining technology, the problem of privacy preservation becomes one of the key factors in data mining. In this dissertation, we briefly introduce the history and current situation of Privacy Preserving Data Mining (PPDM). Some basic concepts, characters, classifications and research results related to PPDM are presented. In addition, we exhibit PPDM technology in data perturbation and secure multi-party computation respectively, pointing out the research area in the future.
【 Keywords 】 privacy preservation; data mining; data perturbation; secure multi-party computation
1 引言
数据挖掘隐私保护(Privacy Preserving Data Mining,简称PPDM)是关于隐私和安全研究的热点问题之一。数据挖掘的过程,就是自动发现高层次的数据或隐藏在其中的模式。在数据挖掘中,假设所有数据都是容易获取的,并且存储在一个中心位置,或通过集中的访问机制存储在联合数据库、虚拟数据仓库中。然而,这些数据有时候分布在众多的参与者中。出于隐私保护、法律要求和商业上的考虑,参与者们可能不会直接共享某些敏感数据。敏感数据通常涉及到个人的健康信息、金融方面的隐私等。参与者怎样在保护隐私的情况下进行数据挖掘成为一个巨大的挑战。这个问题的产生并不是源于数据挖掘本身,而是进行数据挖掘的方式。本文主要介绍数据挖掘隐私保护方面的研究现状。
随着电子商务、电子政务的发展以及越来越多的个人数据在线交换,数据隐私成为全社会关注的重要问题之一。无论是国家层面,还是商业交易层面,在数据使用方面的未授权访问是隐私保护中的主要问题。在数据库中,数据挖掘和知识发现就是从大量的数据中自动的提取未知的模式。现如今,企业和政府机构都收集了大量的数据,这自然导致了隐私保护方面的问题。因此,在数据挖掘者收集到大量隐私数据之后,为了防止隐私信息的披露,这些数据必须要以不同的方式进行扰乱,但同时又要保留数据中所包含的有价值的模式。随着追踪技术的发展,隐私保护在很多领域都成为重要问题。基于上述情况,人们开始在“数据挖掘隐私保护”的框架下提出各种特殊的数据挖掘技术。数据挖掘隐私保护(Privacy Preserving Data Mining,简称PPDM)研究的目的,就是寻找在不破坏个体隐私的情况下进行数据挖掘的技术。近年来,数据挖掘隐私保护问题成为研究的热点。
隐私保护数据挖掘的研究可以分为两个方面。第一个方面是数据公布,也就是在隐私数据公布给数据挖掘者之前进行数据变换,把隐私隐藏起来。第二个方面是修改数据挖掘的算法,进行分布式数据挖掘,这样隐私的信息就不会透露给其他的参与者。
PPDM研究的目的是消除合作的数据挖掘与数据机密性之间的隔阂。这涉及到许多领域,例如统计学、计算机科学、社会科学等。这对于国家安全、现代科学和我们的社会具有根本的重要性。
隐私的暴露包括两个级别:身份信息暴露和价值信息暴露。身份信息暴露涉及到在数据库中暴露个体的身份信息,而价值信息暴露涉及到暴露个体的某些机密的属性。表1是n个顾客原始个人信息的情况,包含了各种属性。毫无疑问的是,身份信息(例如姓名Name、社会保险号SSN)应该在数据公布之前隐藏起来。然而,一些范畴属性(例如邮政编码Zip、种族Race、性别Gender)连接到某些公共数据库时,也可以用来识别个人隐私。这些属性被称为准识别码。有很多研究都是关于预防身份暴露的,例如著名的统计披露控制(SDC)方法、k-匿名方法。为了防止价值信息披露,许多基于随机化的方法被提出来。
数据挖掘中的隐私问题于20世纪90年代开始研究。在过去的几年中,越来越多的成功技术被提出来,这些技术可以在保护隐私的条件下获得有效的数据挖掘结果。
关键词:数据挖掘;应用;发展
1数据挖掘技术的概述
数据挖掘是通过对各种数据信息进行有选择的统计、归类以及分析等挖掘隐含的有用的信息,从而为实践应用提出有用的决策信息的过程。通俗的说数据挖掘就是一种借助于多种数据分析工具在海量的数据信息中挖掘模数据信息和模型之间关系的技术总裁,通过对这种模型进行认识和理解,分析它们的对应关系,以此来指导各行各业的生产和发展,提供重大决策上的支持。数据挖掘技术是对海量数据信息的统计、分析等因此数据挖掘技术呈现以下特点:一是数据挖掘技术主要是借助各种其它专业学科的知识,从而建立挖掘模型,设计相应的模型算法,从而找出其中的潜在规律等,揭示其中的内在联系性;二是数据挖掘主要是处理各行数据库中的信息,因此这些信息是经过预处理的;三是以构建数据模型的方式服务于实践应用。当然数据挖掘并不是以发现数据理论为目的,而是为了在各行各业的信息中找出有用的数据信息,满足用户的需求。
2数据挖掘的功能
结合数据挖掘技术的概述,数据挖掘主要具体以下功能:一是自动预测趋势和行为。数据挖掘主要是在复杂的数据库中寻找自己有用的信息,以往的信息搜索需要采取手工分析的方式,如今通过数据挖掘可以快速的将符合数据本身的数据找出来;二是关联分析。关联性就是事物之间存在某种的联系性,这种事物必须要在两种以上,数据关联是在复杂的数据中存在一类重要的可被发现的知识;三是概念描述。概念描述分为特征性描述和区别性描述;四是偏差检测。
3数据挖掘技术的步骤分析
3.1处理过程
数据挖掘虽然能够实现在复杂的数据库中寻求自己的数据资源,但是其需要建立人工模型,根据人工模型实现对数据的统计、分析以及利用等。
3.2关键技术
由于数据挖掘涉及到很多专业学科,因此相对来说,数据挖掘技术融合多门专业技术学科的知识,结合实践,数据挖掘技术主要应用到以下算法和模型:一是传统统计方法。采取传统的统计方法主要有抽样技术,也就是采取相应的策略对数据进行合理的抽样。多元化统计和统计预测方法;二是可视化技术,可视化技术是数据挖掘技术的热点,它是采取可视化技术与数据挖掘过程的结合,以直观的图形等使人们更好地进行数据挖掘技术;三是决策树。决策树需要对数据库进行几遍的扫描之后,才能完成,因此其在具体的处理过程中可能会包括很多的预测变量情况;四是4)聚类分析方法。聚类分析方法是一种非参数分析方法,主要用于分析样本分组中多维数据点间的差异和联系。判别分析法需要预先设定一个指针变量,假设总体为正太分布,必须严格遵守数理依据。而聚类分析则没有这些假设和原则,只需要通过搜集数据和转换成相似矩阵两个步骤,就能完成聚类分析的全过程。聚类分析主要用于获取数据的分布情况,能够简单方便的发现全局的分布模式,识别出密集和系数区域;此外,对于单个类的分析也有很强的处理能力,能深入分析每个类的特征,并找出变量和类之间的内在联系。基于距离、层次、密度和网络的方法是最常用的聚类分析方法。
4数据挖掘技术的实践应用
数据挖掘技术虽然在我国发展的时间还不长,但是其在实践中的应用已经非常的广泛,因为数据挖掘技术在实践中的应用价值是非常大的,其可以提取隐藏在数据背后的有用信息,具体来看,其主要应用在:(1)在医学上的应用。人体的奥秘是无穷无尽的,人类遗传密码的信息、人类疾病史和治疗方法等,都隐含了大量数据信息。采用数据挖掘来解决这些问题,将给相关工作者的工作带来很大方便。此外,医院内部医药器具的管理、病人档案资料的整理、医院内部结构的管理等,也是庞大的数据库。将数据挖掘技术应用于医学领域,深入分析人类疾病间的内在联系和规律,帮助医生进行诊断和治疗,能够有效提高医生诊断的准确率,对人类的健康和医疗事业的发展有十分重要的作用。(2)在电信业中的应用。随着三网融合技术的不断发展,传统的电信业务已经不能满足当前社会发展的需求,而是侧重通信、图像以及网络等业务的融合,而实现“三网融合”的关键技术是实现对数据的分析与统计,因为三网融合会带来更多的数据,这些数据都需要充分的挖掘,以此实现“三网融合”战略的实现。将数据挖掘技术与电信业务有效的结合起来,能够提高资源利用率,更深入的了解用户的行为,促进电信业务的推广,帮助各行各业获取更大的经济效益。(3)在高校贫困生管理的应用。贫困生管理分析系统主要应用了数据仓库技术以及数据挖掘技术,其主要是将高校贫困生的各种信息统一纳入到高校信息管理平台中,然后根据具体的贫困生划分标准,建立模型,进而对学生的信息进行统计与分析,实现对贫困生信息的科学管理,便于高校管理者及时了解学生的信息。
5结语
总之数据挖掘技术在实践中的广泛应用,为我国互联网+战略提供了关键技术支撑,但是由于数据挖掘技术在实践中还存在某些技术问题,比如各种模型和技术难于集成、缺少与数据库系统耦合的通用API或挖掘系统仅提供孤立的知识发现功能,难于嵌入大型应用等问题导致挖掘技术在实践中的应用还存在缺陷,因此需要我们加大对数据挖掘技术的进一步研究,以此更好地实现“互联网+”战略。
作者:陈建伟 李丽坤 单位:安阳职业技术学院
参考文献
空间数据挖掘方法在测绘实际生产领域具有良好的运用前景,特别是在“数字地球”的应用中初见成效。从数据挖掘及空间数据挖掘的定义入手,分析研究数据挖掘及空间数据挖掘现状,探讨对空间数据进行数据挖掘的方法。
关键词:
空间数据挖掘;数字城市;空间信息学
1引言
上世纪60年代,随着数据库的产生及大量原形数据库的建设,人们对数据库的研究热情不断加强,对数据库技术的研究也不断深入。上世纪70年代,研究人员已经把研究的视角从层次、网络数据库的方向转向了关系数据库,大力发展了数据库建模工具、数据库索引及其他分析工具等。进入上世纪80年代,研究者已经能够在数据模型分析方面,譬如基于对象的模型、基于演绎的模型数据库等等都得到广泛应用及深入研究。而后随着互联网的不断发展,数据库技术的更新也日新月异。但是,数据库技术的发展随之也进入一个体量越来越大了、信息获取难度不断增加的程度。特别在于,获取能够运用于决策层的关键信息却没有随着数据库本身的体量扩大而进一步增加。因而针对数据库的信息分析与数据挖掘的研究进入研究者的视野。进而,开发能够从超大体量的数据库资源中获取我们所需的关键信息的技术工具成为数据库研究人员的一个重要方向,数据挖掘技术进入了一个全新的时代,数据挖掘技术是一个针对数据库本体的研究手段,从数据库本体中发掘高效的有用信息,从而减少了数据资源的采集工作,增加了数据资源的利用效率。
2数据挖掘与空间数据挖掘的定义与研究现状
数据挖掘,又译为资料探勘、数据采矿。如图1所示,即是一个典型的数据挖掘系统的结构图。数据挖掘是数据库知识发现中的一个步骤。所谓KDD是在1989年于美国密歇根州底特律市举行的第11届国际联合人工智能学术会议上提出来的一种新型的技术手段。KDD是一个“从数据库中发现隐含的、先前不知道的、潜在有用的信息的非平凡过程”[1]。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标[2]。现阶段,数据挖掘系统已经发展了四代,第一代数据挖掘系统设计相对简单,一般运用一个或者几个算法,仅用来挖掘向量数据,而且在进行数据挖掘的工作是,一般一次性调进内存进行处理。第二代数据挖掘系统能够支持大体量的数据库和数据仓库,一般是针对数据库的接口进行设计,对数据库中的众多数据模型能够良好支持并拥有较强的高维数据、大数据集、复杂数据集的挖掘能力。第三代数据挖掘系统则能够对网络数据、高度异质的数据进行挖掘工作,这代数据挖掘系统的关键技术在于能够对异质数据进行相对复杂的预言模型构建及管理这些预言模型的元数据。第四代数据挖掘系统则是在一定程度上对移动系统、嵌入式系统、甚至普遍存在的数据进行复杂程度更高的数据挖掘工作。如图2所示,四代数据挖掘系统的特征与相关信息。从数据挖掘的定义我们可以很容易得到空间数据挖掘的定义的关键所在:即针对空间数据库的探索,发现空间数据库的中隐含的、用户感兴趣的或者是空间数据模式亦或者是非空间数据模式的一种数据挖掘技术。随着研究人员对空间数据库及数据挖掘技术的不断深入研究,空间数据挖掘技术取得了长足的进步。这里以加拿大SimonFraser大学开发的数据挖掘软件DBMiner中的空间数据挖掘扩展模块———GeoMiner为例,GeoMiner系统包含三大子模块,分别是空间数据立方体构建模块、空间联机分析处理模块及空间数据挖掘模块。GeoMiner系统采用人机交互式挖掘模式,在完成数据挖掘工作后能够即时显示挖掘结果。GeoMiner系统已经能够在一定程度上实现数据的自动挖掘工作,但其实现过程仍需要工作人员的不断干预,因而在自动化方面是研究人员未来重要的探索方向。
3空间数据挖掘常见算法空间
数据挖掘方法按功能的方式可以分为:描述、解释、预测。下面介绍几类常用的空间数据挖掘算法[3]:
1)基于概率论的方法基于概率论的方法这里主要是指通过计算不确定性属性的概率来对空间数据进行数据挖掘的方法。
2)空间分析方法空间分析方法是指采用综合属性数据分析、拓扑分析、缓冲区分析、密度分析、距离分析、叠置分析、网络分析、地形分析、趋势面分析、预测分析等在内的分析模型和方法,用以发现目标在空间上的相连、相邻和共生等关联规则,或挖掘出目标之间的最短路径、最优路径等。
3)统计分析方法统计分析方法则主要表现在通过对空间对象的信息采用统计学的方法进行评估、预测等方式进行数据挖掘。
4)归纳学习方法归纳学习方法即运用一定的知识背景的手段,分析提取空间数据库中的隐含的相关数据。
5)空间关联规则挖掘方法关联规则挖掘方法即运用空间数据库中的数据关联规律分析其一般的规则和运行模式。
6)聚类分析方法聚类分析方法即根据空间实体特征的一般性总结整个空间的分布规律及其典型运行模式的方法。
7)神经网络方法神经网络方法则是通过构建神经元网络的方法来实现适应非线性动态系统,从而构建其分布存储、联想记忆等功能,并使得系统具有自行学习、并行处理的能力。
8)决策树方法决策树方法采用的是一种基于树形表示分类结构的方法,从中发现规律,进而展示规则的数据挖掘算法方案。
9)基于模糊集合论的方法基于模糊集合论的方法主要是利用模糊集合理论中描述带有不确定性的研究对象来对实际的不确定性问题进行处理的手段与方法。
10)基于云理论的方法基于云理论的方法,主要是利用云理论中关于云模型及不确定性的研究方法对空间数据进行定性分析及定量计算结合处置的方法。
11)遗传算法遗传算法则是一种基于生物进化理论的数据挖掘算法,该算法突出的表现在对空间数据的高效并行计算及在处置过程中的自动获取知识、积累相关参数并实时适应挖掘过程从而得出最优的处理方案。除了以上算法之外,常用的还有数据可视化方法、计算几何方法、空间在线数据挖掘等等方法,均在一定程度上可以对空间数据挖掘产生有利作用。
4小结
从以上的各种方法分析,我们可以看到数据挖掘工作对空间数据利用非常重要。空间数据的体量及其大,数据结构及其复杂,通过简单的方式根本不能对空间数据的关键信息资源进行利用,只有通过空间数据挖掘的方法,才可以在更加直观的、立体的平台上对空间数据进行广泛而有效的利用。
参考文献:
[1]百度百科《KDD》
[2]百度百科《数据挖掘》
数据挖掘技术是延伸和扩展了传统分析方法,可以发现传统分析方法不能发现的内容和规律,并且它将人们从单调、枯燥的阅读专利文献的工作中解放出来,使用计算机代替了人类劳动,这样不仅提高了效率,而且提升了准确度。因此,数据挖掘作为一个专利分析的强有力工具被引入到专利分析中来,并且得到快速的发展应用。专利数据挖掘流程应考虑的问题:一是用数据挖掘解决什么样的问题;二是为进行数据挖掘所做的数据准备;三是数据挖掘的各种分析算法。故专利数据挖掘的一般过程通常按照以下步骤来完成:领会数据挖掘的目的,获取分析所用的数据集合,探索、清理和预处理数据,选择要使用的数据挖掘技术,使用算法解决问题,解释算法的结果。而其一般流程可简化为三个阶段:数据准备数据挖掘结果解释和评价。本文采用简化的流程进行实证分析。
二、石家庄地区制药企业专利数据挖掘
本文对石家庄地区制药企业的专利数据进行挖掘分析,挖掘对象是华北制药集团公司、石家庄制药集团有限公司、石家庄神威药业股份有限公司、石家庄四药股份、河北以岭药业股份有限公司、石家庄市华曙制药集团、河北医科大学制药厂、河北圣雪大成制药有限责任公司等地址在石家庄且具有一定代表性的药企,希望通过这些药企数据能够找到石家庄地区制药领域的核心组成,并能为药企更好地发展提供有力的信息支持。IPC号是目前权威的专利技术主题的标识编码之一,基本包含了各行各业的专利信息,是一个庞大的专利信息体系。目前国内外很多分析方法及技术大部分是基于专利的IPC分类号来分析专利技术主题的,此分析方法有一定的参考价值和科学性,而且对于具有大量专利信息的分析具有很好的总结概括效果。本文以专利全部IPC号为分析对象,并且构建IPC号之间的关联规则,在最大程度上揭示隐含的专利技术关联性,从而为石家庄地区制药企业专利技术的发展提供参考。
1.数据准备。数据来源的准确与否是数据分析与挖掘的基础,是数据分析与挖掘的根本。本文所使用的石家庄地区制药领域专利数据由万方数据公司提供,以制药企业地址为石家庄为检索条件,搜索出了包括从1985—2014年间石家庄地区制药领域专利644条,分别分布在A、B、C、D、E、F、G、H八个大部。对专利数据库中的644条专利进行筛选,根据“分类号”字段限制,它涉及专利信息的分类,有些IPC所涉及的范围与石家庄地区制药领域没有联系或联系很小,不宜保留。根据“申请人(专利权人)”字段的限制,剔除与石家庄地区制药不相关或制药企业地址不在石家庄地区的专利。最后筛选出590条最符合该领域特点的专利。由于IPC号在几乎所有现存数据库中均是以一个字段存储一个专利的所有IPC分类号的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每个专利一般都有好几个分类号,而每个企业又研究大量的专利,所以在进行专利分析之前,需要对专利IPC号进行数据整理。由于过于细致的IPC分类号并不利于专利主题的分析与揭示,所以本文中采用专利小类分析,就是取IPC号的前4位。并将申请人与其对应的多条IPC号进行拆分,拆分后的数据项有773条,即显示每个申请人对应的一条IPC分类号。
2.数据挖掘。本文数据挖掘过程将采用Excel和SQLsever2005软件,首先对所得到的数据导入SQLserver2005进行挖掘,利用SQLserver2005可以直接进行IPC号的关联规则挖掘,然后对专利信息进行分析。
3.数据挖掘结果与分析。基于关联规则制作依赖关系网络图,可以更加直观地看到各个IPC号之间的关联和依赖状态。
(1)以A61K、C12N、C12P、C07D、C07C为中心的核心专利技术群。这些专利的IPC分类号是关键部分药物组成的各种化合物即药物主要成分的重要聚集组。A61K(医用、牙科用等的配置品)是项集次数最多的,即支持度较高的,C12P(发酵或使用酶的方法合成目标化合物或组合物或从外消旋混合物中分离旋光异构体)、C12N(微生物或酶;其组合物)、C07D(杂环环合物,例如邻氯苄星青霉素的合成)、C07C(无环和碳环化合物)通过专利相关知识我们已经知道这些都是药物的合成成分,即土霉素、链霉素、青霉素等多种抗生素和维生素的主要成分组成,是制药领域的核心。这也是和石家庄地区制药企业的核心领域相符合的。另外这些专利主题的相互关联、依赖说明了石家庄地区制药企业在该领域具有很好的布局网络,在研发数量上也占有一定优势,所以说是石家庄地区制药企业的主要研究领域。
(2)以B65G、C12M为中心的辅助设备专利技术群。药品的生产离不开设备的支持,所以设备方面的专利也能体现制药企业的技术水平。在图1中也能体现出来,专利间有着很强的依赖性和关联性,在核心专利周边有B65G(运输或贮存装置,例如装载或倾斜用输送机、车间输送机系统、气动管道输送机)、C12M(酶学或微生物学装置),这些是制药的辅助技术手段,与中心专利是相互联系的,也是制药过程中必不可少的,在这些方面的提高有利于制药核心领域的发展。先进药品的研制离不开先进制药设备支持,所以设备水平的提高也是关键的。如图3所示,石家庄地区制药企业在这一方面的技术依赖网络也已经形成,说明在此技术领域也已经拥有较强实力。但与中心主要专利相比,辅助设备专利技术还是需要不断提高的。
三、总结
1.1数据挖掘相关技术数据挖掘相关技术介绍如下[6]:(1)决策树:在表示决策集合或分类时采用树形结构,在这一过程中发现规律并产生规则,找到数据库中有着最大信息量的字段,从而可建立起决策树的人工智能及识别技术。(2)聚类分析:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。(3)关联分析:关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、因果、关联或相关性结构。也可以说,关联分析是用来发现有关交易的数据库中不同商品(项)之间的联系。(4)神经网络方法:顾名思义,类似于生物的神经结构,由大量简单的神经元,通过非常丰富和完善的连接组成自适应的非线性动态系统,具有自适应、自组织、自学习、联想记忆、分布存储、大规模并行处理等功能。粗集方法:也就是在数据库里把行为对象列视为元素,将不同对象在某个(或多个)属性上取值相同定义为等价关系R。其等价类为满足R的对象组成的集合[5]。
1.2IBMSPSSModelerIBMSPSSModeler是一个数据挖掘工作台,用于帮助用户快速直观地构建预测模型,而无需进行编程。其精密的数据挖掘技术使用户能够对结果进行建模,了解哪些因素会对结果产生影响。它还能可提供数据挖掘相关的数据提取、转换、分析建模、评估、部署等全过程的功能[3]。通常,SPSSModeler将数据以一条条记录的形式读入,然后通过对数据进行一系列操作,最后将其发送至某个地方(可以是模型,或某种格式的数据输出)[3]。使用SPSSModeler处理数据的三个步骤:(1)将数据读入SPSSModeler;(2)通过一系列操纵运行数据;(3)将数据发送到目标位置。
2客户流失预测分析
2.1数据预处理数据预处理[6],将需要的客户投保数据按照业务预测分析的要求,将数据抽取到中间数据中,同时对数据清洗和转换,满足业务预测分析要求。每日凌晨调用存储过程将核心业务系统数据提取到中间数据库,寿险业务数据与其他数据一样,存在不安全和不一致时,数据清洗与转换可以帮助提升数据质量,进而提升数据挖掘进程的有效性和准确性。数据清洗主要包括:遗漏数据清洗,错误数据处理,垃圾数据处理[1]。
2.2数据选取数据预处理后,可以从中得到投保人的投保信息,包括投保人姓名,投保年龄(有效保单为当前年龄,无效保单为退保年龄),保费,投保年期,保单状态等。数据如图1所示。
2.3客户流失预测模型建立寿险业务按渠道来分可分为个人保险、团体保险、银行保险、网销保险、经代保险五类。由于团体保险在寿险公司发展比较缓慢,团险业务基本属于停滞阶段。结合寿险公司的营销特点,选定个人保单作为分析的对象,通过IBMSPSSModeler预测模型工具[3],使用决策树预测模型对客户流失进行预测分析。
2.4结果分析通过使用IBMSPSSModeler决策类预测模型分析某寿险公司2013年个人客户承保情况来看有以下规则:(1)投保年数在1年以内,首期保费在0~2000元或大于9997.130保费的客户比较容易流失。(2)保单终止保单中,女性客户较男性客户容易流失。(3)投保年数在2年以上,湖北及河北分支机构客户流失率比较容易流失。(4)分红寿险相对传统寿险,健康寿险的客户比较容易流失[1]。
3总结
自大数据进入了人们的视线之后,它便逐渐成为人们普遍关注的焦点。大数据讲的是PB时代的科学,本质上大数据的挑战是PB时代的对科学的挑战,更是对包括数据挖掘在内的认知科学的挑战。那么,大数据时代怎么做数据挖掘呢?
在现今时代人们通常所说的大数据主要包括三个来源:第一是自然界大数据,也就是地球上的自然环境,很大很大。第二是生命大数据。第三也是最重要的,则是人们关心的社交大数据。这些数据普遍存在于人们的手机、电脑等设备中。今天一个报告在3分钟之内就可能被全世界的人们所知道。
奥巴马就职的社交场所,这么多面孔,每一个面孔下都有一个故事,每一个人后面都有大数据的支撑。人脸是数据安全的很重要的识别器,怎么把人脸识别清楚呢?人们想了很多办法。现在北京市有80万个摄像头,我们每天都在摄像头的监督下开车、购物。我们可以利用摄像头做身份认证、年龄识别、情感计算、亲缘发现、心理识别、地区识别、民族识别。这种流媒体主要的形态是非结构化的,特征之间的关联关系、设备算法的准确率等等,都严重地制约着大数据人脸挖掘的进度。如何能从这些海量数据中利用识别算法提取出所需要的特征属性,并理清特征之间的关系都是现在所面临的问题。
技术推动计算机发展
1936年天才数学家图灵提出图灵模型,后来有计算机把图灵模型转化为物理计算机,这其中有三大块:CPU、操作系统、内存和外存,还有输入和输出。在计算机发展的头30年里,我们投入最多的是CPU、操作系统、软件、中间件以及应用软件。当时人们侧重于计算性能的提高,我们把这个时代叫做计算时代。
计算对软件付出了很大的努力,尤其是高性能计算机。我们认为计算在前20年中起到了主导作用,它的标志速度就是摩尔速度。在这样一个计算领先的时代当中,我们主要做的是结构化数据的挖掘。关系数据库之父埃德加在1970年提出一个关系模型,以关系代数为核心运算,用二维表形式表示实体和实体间的联系。三四十年来,各行各业的数据库和数据仓库技术,以及从数据库发现知识的数据挖掘成为巨大的信息产业。
关系代数是关系数据库的形式化理论和约束,先有顶层设计和数据结构,后填入清洗后的数据。数据围绕结构转,数据围绕程序转。用户无需关心数据的获取、存储、分析以及提取过程。通过数据挖掘,可以从数据库中发现分类知识、关联知识、时序知识、异常知识等等。
随着数据库产业的膨大,人们对数据库已经不太满足了,于是把Databases说成大数据,这便遇到了两个不可回避的挑战,第一个挑战是由于关系代数的形式化约束过于苛刻,无法表示现实数据;第二个挑战是随着数据量的增大,关系代数运算性能急剧下降。在这个时候,我们的存储技术得到了迅猛发展,人类进入了搜索时代。搜索因为存储便宜了,存储的速度大概每9个月翻一番,所以存储带动了技术的脚步,这种搜索时代经过了20多年的发展,带领我们进入了一个半结构化数据挖掘时代。这个时代的代表人物就是万维网之父家蒂姆・伯纳斯―李,他提出了超文本思想,开发了世界上第一个Web服务器,于是我们可以从一台服务器上检索另一台服务器的内容,服务器在软件的支持下可包括文本、表格、图片、音视频的碎片化超媒体信息。
因此,客户端服务器结构和云计算结构蓬勃产生,这时已经没有了关于代数那样严格的形式化约束,依靠的主要是规范、标准,所有媒体均以实体形式存在,甚至是软件,实体通过超链接产生联系。
形式化理论比关系代数宽松了许多,创建了灵活多样的实体,这时候数据开始围绕实体转,实体围绕链接转。在云计算背景下,数据挖掘也可以看作是云计算环境下的搜索与个性化服务,不存在固定的查询方式,也不会出现唯一、100%准确的查询结果。
网络化的大数据挖掘
随着互联网带宽6个月翻一番的速度,人类进入了交互时代,交互带动着计算和存储的发展。
移动互联网时代的大数据挖掘主要是网络化环境下的非结构化数据挖掘,这些数据形态反映的是鲜活的、碎片化的、异构的、有情感的原生态数据。
非结构化数据的特点是,它常常是低价值、强噪声、异构、冗余冰冷的数据,有很多数据放在存储器里就没再用过。数据的形式化约束越来越宽松,越来越接近互联网文化、窗口文化和社区文化。
关注的对象也发生很大改变,挖掘关注的首先是小众,只有满足小众挖掘需求,才谈得上满足更多小众组成的大众的需求,因此一个重要思想就是由下而上胜过由上而下的顶层设计,强调挖掘数据的真实性、及时性,要发现关联、发现异常、发现趋势,总之要发现价值。
当前,深度学习也是一种数据自适应简约。如果我们在百度上用深度学习搜索一个人脸象素搜索,这么多人脸谁是谁?数据量急剧增加,各种媒体形态可随意碎片化,组织结构和挖掘程序要围着数据转,程序要碎片化,并可以随时虚拟重组,挖掘常常是人机交互环境下不同社区的发现以及社区中形成的群体智能,在非结构化数据挖掘中,会自然进行数据清洗,自然形成半结构化数据和结构化数据,以提高数据使用效率。
群体智能是一个最近说得很多的词,我们曾经在计算机上做一个图灵测试,让计算机区分哪些码是人产生的,哪些是机器产生的,这是卡内基美隆大学提出来的,在网络购物、登录网站、申请网站时都会碰到适配码被使用。在此要提到第三个代表人物――路易斯,他提出用这个适配码应用方式。
如果云计算支撑大数据挖掘要发现价值,那么我们认为云计算本来就是基于互联网的大众参与计算模式,其计算资源是动态的,可收缩的,被虚拟化的,而且以服务的方式提供。 产生摆脱了传统的配置带来的系统升级,更加简洁、灵活多样、个性化,手机、游戏机、数码相机、电视机差别细微,出现了更多iCloud产品,界面人性化、个性化,都可成为大数据挖掘的终端。
挖掘员支撑各种各样的大数据应用,如果我们有数据收集中心、存储中心、计算中心、服务中心,一定要有数据挖掘中心,这样一来,就可以实现支撑大数据的及时应用和价值的及时发现。
关联技术用于发现数据库中属性之间的有趣联系。和传统的产生式规则不同,关联规则可以有一个或多个输出属性。同时,一个规则的输出属性可以是另一规则的输入属性。关联规则是用于购物篮分析的常用技术,是因为可以找寻潜在的令人感兴趣的所有的产品组合。由此,有限数目的属性可能生成上百条关联规则。
Income range($) Magazine promotion Watch promotion Life insurance promotion Credit card insurance sex age
40-50K yes no no no male 45
30-40K yes yes yes no female 40
40-50K no no no no male 42
30-40K yes yes yes yes male 43
50-60K yes no yes no female 28
20-30K no no no no female 55
30-40K yes no yes yes male 35
20-30K no yes no no male 27
30-40K yes no no no female 43
30-40K yes yes yes no female 41
40-50K no yes yes no male 43
20-30K no yes yes no female 29
50-60K no yes yes no female 39
40-50K yes yes no no male 55
20-30K no no yes yes female 19
我们将Agrawal等人描述的apriori关联规则算法应用到上表数据中。该算法检查了项目篮,并为那些包含项目最少的篮子生成规则。Apriori算法不处理数值型数据。因此,在应用该算法之前,我们将属性年龄转化为离散的分类值:超过15,超过20,超过30,超过40,和超过50。例如,age=over40是年龄在40和49岁(包含40和49)之间。我们将属性选项限制为income range,credit card insurance,sex和age。这里是通过表的数据应用apriori算法所产生的3条关联规则:
(1) IF sex=female & age=over40 & credit card insurance=NO THEN life=insurance promotion=YES
(2) IF sex=male & age=over40 & credit card insurance=NO THEN life=insurance promotion=NO
(3) IF sex=female & age=over40 THEN credit card insurance=NO & life=insurance promotion=YES
3条规则的准确度都达到100%并且正确的覆盖了所有数据实例的20%。对于规则3,20%的覆盖率告诉我们,每5个人是年龄超过40的女性,她没有信用卡保险,且她们都是通过寿险促销活动获得寿险的。注意,规则3中的信用卡保险和寿险促销都是输出属性。
关联规则存在的问题是,对于潜在有趣的规则,我们可能发现某个规则的值很小。
在关联规则系统中,规则本身是“如果条件怎么样,怎么样,怎么样,那么结果或情况就怎么样”的简单方式。可以表示为“A=>B”关联规则,它包括两2部分:左部A称为前件,又部B称为后件。前件可以包括一个或多个条件,在某个给定的正确率中,要使后件为真,前件中的所有条件必须同时为真。后件一般只包含一种情况,而不是多种情况。
例如,购买计算机有购买财务软件趋向的关联规则,以及年龄在30至40岁之间并且年收入早42000元至50000元之间的客户购买高清晰度彩电电视机趋向的关联规则可以分别表示为:
Buys(x,“computer”)=>buys(x,“financial_management_software”) (11.1)
Age(“30…60”)∧income(“42000…50000”)=>buys(x,“high_resolution_TV”)(11.2)
其中x为表示客户的变量。
关联规则在实际应用中根据值类型,数据维,层次的不同,可以分成各种类型的规则。
根据规则中所处理的值类型可以分部成布尔关联规则和量化关联规则两种。例如,上述的关联(11.1)就是布尔关联规则,而关联规则(11.2)是量化规则,其量化属性值就离散值。
如果规则中的项或属性只涉及到一个维,那就是单维规则。例如关联规则(11.1)只涉及buys维。而关联规则(11.2)涉及到三个维age,income和buys数据维,因此是多维关联。
如果规则集涉及不同的抽象层次,那么关联规则集就是多层次关联规则;反之就是单层关联规则。例如,规则(11.1)和(11.2)都是单层规则。而关联规则集
Age(“30…40”)=>buys(x,“IBM computer”) (11.3)
Age(“30…40”)=>buys(x,“computer”) (11.4)
涉及的购买商品有较低抽象层次“IBM computer”和较高抽象层次的“computer”。因此,规则集(11.3)和(11.4)是多层关联规则。
关联规则在实际应用中用SQL语言就可以很好的处理,例如对于关联规则(11.2)可以用以下的SQL查询语句完成。
Select Cust.name, p.item_name
From Purchases, P
Group by Cust.ID
Having (Cust.age>=30.and.Cust.age=42000 and Cust.income
关联规则的应用必须有应用目标,在实际应用中可以以前件为目标,以后件为目标,以准确性为目标,以覆盖率为目标或者以“兴趣度”为目标。
以前件为目标的关联规则是将前件等于某值的所有规则收集起来显示给用户。例如:一个五金店可能需要前件为钉子,螺栓或螺钉的所有规则,以了解对这些低利润的商品打折是否能够促进其他高利润商品的销售。
以后件为目标的关联规则是查找后件等于某值的所有规则,用来了解什么因素与后件有关或对后件有什么影响。例如,得到后件为“咖啡”的所有标准对于咖啡的销售就十分重要,可以从中了解哪些商品的销售会导致咖啡销售的增加。咖啡店就可以将这些商品放到咖啡附近,以同时提高两者的销售额。或者,咖啡厂商可以根据这个准则决定下次把他们的优惠卷放在哪些杂志上。
以正确率为目标的关联规则,主要是以正确率表示前件为真时,后件为真的可能性。正确率高表示规则比较可靠。正确率有时也称为置信度,对于“A=>B”关联规则,其置信度或正确率可以定义为:
置信度(A=>B)=包含A和B的元组数/包含A的元组树(11.5)
有时,对用户来说最重要的是规则的正确率。正确率达到80%或90%以上的规则,表明发现的关系是很强的。即使它们对数据库的覆盖率较低,出现的次数有限,只要抓住这些规则。成功的可能性就比较大。
以覆盖率为目标的关联规则表示数据库中适用于规则的记录数量。其覆盖率可以定义为:
覆盖率(A=>B)=包含A和B的元组数/元组总数(11.6)