公务员期刊网 论文中心 正文

计算机数据挖掘技术的开发

前言:想要写出一篇引人入胜的文章?我们特意为您整理了计算机数据挖掘技术的开发范文,希望能给你带来灵感和参考,敬请阅读。

计算机数据挖掘技术的开发

摘要:在信息化时代下,大数据的到来为社会变革提供了新的思路,从中也衍生出了数据挖掘技术,提高了数据处理效率和质量。数据挖掘技术能够从海量数据中找出用户所需数据,并保障数据挖掘的精度和利用率,是推动社会、产业发展的重要技术之一。基于此,笔者首先提出了数据挖掘的概念,然后分析了数据挖掘的相关技术,最后探究了数据挖掘的开发与应用。

关键词:数据挖掘技术;大数据;数据规约

1引言

计算机不断发展背景下,人们也正式步入了信息时代,计算机挖掘技术作为大数据时代的衍生品,在各个领域中的应用都十分广泛,很大程度上推动了社会效益增长。数据挖掘技术让数据库技术发展到了更高阶段,通过该项技术的应用不仅能够查询相关数据信息,而且能够识别数据之间潜在数据,保证数据挖掘的有效性,促进数据传播。计算机挖掘技术发展不仅能够丰富人们的生活,推动企业市场发展和调查工作,在各个领域中都发挥着极大的作用。所以,需要重点考虑如何充分利用数据挖掘技术发挥数据价值,从而推动行业、社会发展。

2数据挖掘技术

数据挖掘也被称为资料探勘、数据采矿。作为数据库知识发现的一个步骤。数据挖掘技术通常是指在大量数据中采用相关算法搜索隐藏在大数据信息的过程。数据挖掘技术通常和计算机科学有着直接关系,采用统计、在线分析、检索、机械学习以及模糊识别等技术实现信息搜索目标。数据挖掘技术的流程如下。第一步,信息收集。结合所确定的数据分析对象抽象出在数据分析中所需的特殊信息,之后采用相关信息收集方法,将自动搜索的信息存入到数据库中。在大数据当中,选择合适的数据管理和数据存储技术是极为重要的。第二步,数据集成。将不同格式、领域与性质的数据在物理层或逻辑层上集中,即可为企业或组织提供更加全面的信息数据。第三步,数据规约。采用数据挖掘相关算法,由于数据挖掘技术并未成熟,所以在数据挖掘效率上还有待提高,而商业运营数据往往较多,这就增加了数据挖掘难度。在此基础上衍生出了数据规约技术,数据集可以应用规约表示,虽然数据体积变小;但是,可以保证数据的原始性,在规约后执行数据挖掘结果和规约前执行结果大致相同。第四步,数据清理。数据库中并不一定是完整数据,也有含噪声数据、不一致数据,这些数据需要过滤掉,精准的把完整、正确、一致的数据信息存储到数据库当中。第五步,数据变换。采用科学的聚集方法、数据概化法,将数据转化成为可挖掘的数据形式。对于部分实数型的数据,可以采用概念分层、数据离散化转换数据方法实现转化。第六步,数据挖掘(过程)。结合数据库提供的数据信息,采用更加合理、适当的分析该工具,包括统计方法、决策树、事例推理、规则推理、模糊集、精神网络以及模糊算法等技术,从而得出最终的有效信息。第七步,模式评估。从商业角度发展,各个行业专家对所挖掘的数据精准性进行评估。第八步,知识表示。将所挖掘的数据信息采用可视化技术呈现给用户或者采用新型知识形式存放到数据库当中,供其他程序使用。总之,数据挖掘技术在应用中适应反复循环的过程,如果其中一个步骤没有达到预期目标,都要回到之前的步骤,重新执行并调整。并不是每个数据挖掘工具都会在这里列出每一个步骤,如某个数据源中存在着多项数据种类,第二步的数据集成即可省略掉。在以上步骤当中,第三步三到第五步统称之为数据预处理。在数据挖掘当中,主要的经费都消耗在了第一步中,大量精力都要花费在数据预处理阶段。

3数据挖掘技术开发工具分析

3.1神经网络

神经网络技术自身带有十分强的组织适应性、鲁棒性、处理能力、存储能力(分布)以及高度容错等,这些优势十分适用于数据挖掘体系。可以对大数据信息进行分类、预测、挖掘和识别,构建前馈式神经网络模型。其中,以hopfield的离散模型和连续模型为代表,可以实现优化计算、联想记忆的反馈式神经网络模型。以art模型、koholon模型为代表,主要应用在聚类自组织映射方法。但是,神经网络技术也存在弊端,就是其“黑箱”性,人们在应用神经网络时无法理解学习与决策的过程,执行起来较为困难[1]。

3.2遗传算法

该项技术作为一种基于生物自然选择、遗传机理的随机搜索算法。遗传算法决定了其“遗传性”,也就是适应性,具有隐含并行性、可以和其他模型性质结合等优势;因此,在数据挖掘技术中的应用十分广泛。Sunil成功开发了一种以遗传算法为核心的数据挖掘工具,通过利用该项技术对两个飞机失事真实数据展开了数据挖掘试验,结果证明遗传算法是有效实现数据挖掘的技术之一。遗传算法由于自身的遗传性,注定了需要和相关技术结合使用,如神经网络、粗集等技术。遗传算法的应用还能够优化神经网络结构,在能够增加容错率的前提下,将隐藏单元、多余连接删除。结合bp算法可以训练神经网络,并在网络当中提取规则。遗传算法的缺陷是自身结构十分复杂,很多较早的收敛问题尚未解决。

3.3决策树

决策树作为一种预测模型算法之一,该项技术可以将海量数据进行分类,并从数据当中找出更具价值、潜在优势的信息。决策树在使用中具有分类效率高、描述简单等优势,可以对大规模数据进行处理。最具影响、最早的决策树是由quinlan提出的基于信息熵的id3算法,其主要的问题包括:id3是一种非递增的学习方法;id3决策树作为一种单变量决策树,表达复杂概念较为困难;同性相互关系强调性能不足;缺乏抗噪性。针对这些问题,也在id3模型算法基础上进行了升级,如有人提出了id4递增式算法;有人提出了ible算法等。

3.4粗集

粗集作为一种结合理论,主要是用于研究不确定、不精准的数学工具。该项理论的优势表现在:不需要给出额外信息;简化输入信息的表达空间;算法简单、容易操作。该项技术处理对象类似二维关系信息表。粗集数学基础作为一种集合论,无法直接处理连续的信息属性。并且在现实的信息表当中连续属性普遍存在。所以,制约粗集理论实用化的因素就是连续属性离散问题[2]。

4数据挖掘技术的应用

4.1市场营销方面的应用

在市场营销方面上,用户购买货物情况可以采用信息管理系统、POS系统,特别是条形码技术在零售行业中的应用十分广泛。由于可以搜集的用户信息量越来越多,甚至无法实现人为管控,需要在市场营销中收集到各类相关数据,包括购物行为、习惯性分析,总结各类信息数据的特征,对推动市场营销能力提升有着巨大的作用,对提高企业市场竞争力有着积极的影响。在用户数据分析中,通过采用高效的数据挖掘技术可以精准地分析客户购买取向和兴趣,提高商业决策的精准性,市场营销上的数据挖掘可以分为两大类:数据库营销和货篮分析,前者主要采用了交互式查询、模型预测方法选择潜在的用户,这也是该项技术在应用中的主要任务,向潜在客户自动推向内心所需的产品[3]。还能够系统地分析客户层之间的关系,强化客户管理,分析零售行业的发展趋势,包括市场购买走向、季节性特点等因素。针对客户的购买商品行为中发觉一系列关系。例如,如何采用打折券的形式提高销售额度等。

4.2电信行业的应用

电信行业本身就与数据挂钩;因此,在数据挖掘技术应用中有着巨大的优势。从行业整体情况来看,电信行业在价格竞争方面空前激烈,语音业务增长态势放缓,急速增长的中国移动通信市场也面临着很大的发展压力。在中国电信行业改革背景下,加强了市场的竞争,电信市场竞争在未来会进一步增强,特别是在集团客户领域层面上。电信信息化、集团客户已成为了未来各大运营商的竞争对手和实现经济增长的新引擎。随着电信、移动、联通全球业务竞争以及5G拍照的发放,各大运营商给客户提供更加精准的解决方案也是大势所趋,移动信息化已成为全球信息化服务的先导力量[4]。通过数据挖掘技术对大数据信息进行挖掘,包括数据统计分析、业务数据分析、销售数据分析、网络数据分析、流量数据分析、交易数量分析、情报数据分析以及日常数据分析等,结合预测预警模型、数据试验模型等,为客户提供精准、优质的服务,从而带动新一轮的经济发展;但是,数据挖掘工具都是共享形式,运营商也需要在基础工具形式上进行创新才能够提高自身的市场竞争力。

4.3金融投资领域的应用

投资评估与股票交易市场预测作为金融业发展的重要趋势,通常采用模型预测技术展开分析,包括统计回归技术等。由于金融市场风险较大,在展开投资之前需要对各项数据进行分析,有效规避这种风险,明确最佳的投资方向。从客观角度分析,任何事物发生都有一定趋势和规律,可以进行预测,从投资评估到股票预测等诸多领域,可以通过挖掘数据信息推导出各个领域的发展情况,有效处理数据,深度挖掘数据间的关系,采用相关模式进行合理预测。鉴别金融信息中的欺诈行为。例如,商业银行领域存在诸多恶意诈骗行为、恶意透支行为,这对银行发展有着极大的威胁,通过数据挖掘和预测预警模型可以鉴别恶意行为,一旦发现会发出警报提醒决策人员,当今很多软件都是针对银行欺诈展开科学评估,探究交易风险发生的可能[5]。

5结语

数据挖掘技术作为一种十分重要的工具和手段,虽然受到技术的制约数据挖掘技术还不够成熟;但是,可以挖掘一些风险行为、风险用户、行业趋势等信息。数据挖掘技术在当今各个行业中的应用都十分广泛,可以解决一些十分棘手的问题,并且在未来发展中会发挥更大的效益。

参考文献

[1]李卓陽.计算机数据挖掘技术的开发及应用[J].电脑迷,2016(10):111-112.

[2]王洪飞.计算机数据挖掘技术的开发及其应用探究[J].中小企业管理与科技,2016(9):147-148.

[3]米娜瓦尔,努拉合买提.计算机数据挖掘技术的开发及其应用探究[J].信息与电脑,2016(20):146-147.

[4]夏天维.计算机数据挖掘技术的开发及其应用探究[J].决策与信息,2016(9):233-234.

[5]沈文渊,丁颖.计算机数据挖掘技术的开发及其应用探究[J].信息系统工程,2014(6):130-132.

作者:杨继武 单位:河北旅游职业学院