公务员期刊网 精选范文 数据分析方法范文

数据分析方法精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据分析方法主题范文,仅供参考,欢迎阅读并收藏。

数据分析方法

第1篇:数据分析方法范文

关键词:数据分析应用率;分析应用点;四个层次;数据中心;仪表盘

中图分类号:N37 文献标识码:B 文章编号:1009-9166(2009)02(c)-0063-02

现代企业的决策往往是在整合大量信息资料的基础上制定出来的,对数据的理解和应用将是企业决策的基石。与传统的操作型应用相比,数据利用的应用建设难度更大,它是随着管理水平而发展,同时又取决于业务人员的主观意识,这就决定了以数据利用为核心的应用建设不可能一蹴而就,而是一个长期迭展的建设过程。从2003年起工厂开始全面推进数据分析应用工作,经历过曲折,同时也有收获。经过多年的努力,工厂的数据分析应用工作开始进入良性发展阶段,笔者认为有必要对工厂目前数据分析应用工作作一总结和思考。

一、工厂数据分析应用工作开展现状

工厂数据分析应用工作推进至今已有四五年的时间,从最初全面调研工厂数据量和数据分析应用状况,将数据分析应用率指标作为方针目标定量指标来考核,到后来将数据分析应用工作的推进重心从量向质转移,采用以项目为载体进行管理,着重体现数据分析应用的实效性,再到目前以分析应用的需求为导向,以分析应用点为载体,分层次进行策划。经过上述三个阶段,工厂数据分析应用工作推进机制得到了逐步的完善,形成了广度深度协同发展的信息资源利用管理框架。截止到目前,工厂数据分析应用率达到96%,四个层次的分析应用点共计100多个,数据分析应用工作在生产、质量、成本、物耗、能源等条线得到广泛开展,有效推动了工厂管理数字化和精细化。2007年,工厂开始探索细化四个应用层次的推进脉络,进一步丰富工厂信息资源利用框架,形成层次清晰、脉络鲜明、职责分明的信息资源利用立体化的推进思路。

1、第一层次现场监控层。第一层次现场监控层,应用主体是一线工人和三班管理干部,应用对象是生产过程实时数据,应用目标是通过加强生产过程控制,辅助一线及时发现生产过程中的异常情况,提高生产稳定性。例如制丝车间掺配工段的生产报警,通过对生产过程中叶丝配比、膨丝配比、梗丝配比、薄片配比、加香配比等信息进行判异操作,对异常情况通过语音报警方式提醒挡车工进行异常处理;例如卷包车间通过在机台电脑上对各生产机组的工艺、设备参数、实时产量、质量、损耗数据的监控,提高对产品质量的过程控制能力。第一层次应用以上位机和机台电脑上固化的监控模型为主,制丝车间每个工序、卷包车间每种机型的应用点都有所不同,为此我们建立了制丝车间以工序为脉络,卷包车间以机种为脉络的应用点列表,围绕脉络对第一层次应用点进行梳理,形成第一层次应用的规范化模板。制丝车间第一层次应用点模板包括工序名称、应用点名称、应用模型描述、应用对象、应用平台、异常处置路径等基本要素。卷包车间应用点模板横向根据机种分,纵向按上班及交接班、上班生产过程中、下班及交接班三个时间段分,通过调研分别列出挡车工针对每个机种在三个时间段分别要查看的数据和进行的操作。随着模板的扩充和完善,一线职工的知识、经验不断充实其中,第一层次应用点模板将成为一线工人和三班管理干部日常应用监控的标准,同时可以规避人员退休或调动带来的经验、知识流失的风险。2、第二层次日常管理分析层。第二层次日常管理分析层,应用主体是一般管理干部,应用对象是产质损、设备、动能等指标,应用目标是通过加强对各类考核指标的监控和分析,提高工厂整体的关键绩效指标水平。例如制丝车间的劣质成本数据汇总和分析,通过对车间内各类废物料、劣质成本的数据进行汇总、对比和分析,寻找其中规律及薄弱环节,并寻根溯源,采取措施,降低劣质成本。例如卷包车间的产量分析,通过对产量数据、工作日安排、计划产量进行统计和汇总,结合车间定额计划、作业计划和实际产量进行分析,寻找实际生产情况与计划间的差异,并分析原因。第二层次应用以管理人员个性化的分析为主,呈现出分析方法多样化、应用工具多样化的特点。但是万变不离其中的是每个管理岗位的管理目标以及围绕管理目标开展的分析应用是相对固定的,至少在短期内不会有太大的变化。为此我们建立了一份以重点岗位为脉络的应用点列表,围绕脉络对第二层次应用点进行梳理,形成第二层次应用的规范化模板。模板包括岗位名称、管理目标、应用点名称、应用描述、涉及主要考核指标、应用平台、应用频次、分析去向等基本要素。通过构建第二层次应用点模板,明确了每个管理岗位应用信息资源支撑管理目标的内容和职责。随着新的管理目标的不断提出以及应用的逐步深入,模板每年都会有更新和扩充。3、第三层次针对性分析应用层。第三层次针对性分析应用层,应用主体是项目实施者,应用对象是各类项目的实施过程,例如QC项目、六西格玛项目、质量改进项目,或针对生产中的特定事件进行的分析和研究。应用目标是通过应用数据资源和统计方法开展现状调查、因果分析、效果验证等工作,提高各类项目实施的严密性和科学性。第三层次的应用工具在使用初级统计方法的基础上会大量应用包括方差分析、回归分析、正交试验、假设检验、流程图等在内的中级统计方法。以QC活动为例,我们可以看出其实施过程无一不与数据应用之间有密切的联系[1]。近年来,在质量改进项目和QC项目的评审工作中已逐步将“应用数据说话、运用用正确合理的统计方法,提高解决问题的科学性”作为项目质量考核标准之一。而六西格玛项目实施的核心思想更是强调“以数据和事实驱动管理”,其五个阶段[2]D(定义)、M(测量)、A(分析)、I(改善)、C(控制),每个阶段都要求结合如FMEA(失效模式后果分析),SPC(统计流程控制),MSA(测量系统分析),ANOVE(方差分析),DOE(实验设计)等统计方法和统计工具的应用。4、第四层次主题性应用层。第四层次主题性应用层,应用主体是中层管理者,应用对象是专业性或综合性的分析主题,应用目标是通过专业科室设计的专题性分析模型或综合性分析模型,为中层管理层提供决策依据。工厂在实施了业务流程“自动化”之后,产生了大量的数据和报表。如何将工厂的业务信息及时、精炼、明确地陈述给中层管理层,以此来正确地判断工厂的生产经营状况,是摆在我们眼前的一个突出问题。大家都有开车的经验,司机在驾驶车辆的时候,他所掌握的车况基本上是来自汽车的仪表盘,在车辆行使的过程中,仪表盘指针的变化,告知汽车的车速、油料、水温等的状况,驾驶员只要有效地控制这些指标在安全范围之内,车子就能正常地运行。我们不妨将仪表盘的理念移植于工厂,建立工厂关键指标及运行管理仪表盘,将工厂的关键信息直观地列在上面,及时提醒各级管理人员工厂生产运营是否正常。

⑴关键绩效指标监控系统。对分布在各处的当前及历史数据进行统一展示,以工厂关键绩效指标为中心,支持统计分析和挖掘,可为中层管理者提供工厂关键绩效指标一门式的查询服务,使各业务部门寻找、阐释问题产生的原因,以有效监控各类关键绩效指标,及时采取改进措施,提高生产经营目标完成质量。⑵系统运行状态监控系统。通过数据采集、手工录入等各种渠道收集各类系统的运行状态,及时掌握故障情况,采取措施加以闭环,将因系统故障造成对用户的影响减至最小,确保各类系统的稳定运行和有效应用。通过建立系统运行状态监控系统,中层管理人员上班一打开电脑进入系统,就能了解到当天及上一天各类系统的运转情况,发生了什么异常,哪些故障已经得到解决,哪些故障还未解决。⑶第四层次主题性分析应用。在展示关键绩效指标和系统运行状态的基础上,由各专业科室思考专业条线上的分析主题,采用先进科学的理念和方法对数据进行分析和挖掘。近两年来,工厂充分发挥专业科室的优势和力量,相继设计和开发了工艺质量条线的六西格玛测评系统,设备条线的设备效能分析系统,还有质量成本核算与分析系统。通过这些分析主题的支持,工厂管理人员可以更方便快捷地了解质量、设备、成本等条线上的关键信息,及时采取相应措施,从而提升管理效率。

二、数据分析应用工作存在的不足及思考

工厂数据分析应用工作的推进方法从最初的采用数据分析应用率单个指标进行推进发展到目前按上文所述的四个层次进行推进,每个层次的推进脉络已经逐步清晰和明朗,但事物发展到一定的阶段总会达到一个瓶颈口,目前工厂数据分析应用工作存在的问题及措施思考如下:

1、从推进手段上要突破信息条线,充分发挥专业条线的力量。信息条线作为推进工厂数据分析应用的主管条线,其作用往往局限在技术层面上的支撑。虽然信息条线每年都会规划形成工厂数据分析应用整体的工作思路和具体的实施计划,但是无论从工厂层面还是从车间层面来讲,单纯依靠信息条线从侧面加以引导和推进,使得数据分析应用工作始终在业务条线的边缘徘徊,与产量、质量、设备、消耗、成本、动能等各个条线本身工作的结合度有一定的距离。所以工厂要进一步推进数据分析应用工作,调动起业务人员的积极性和主动性,突破现有的瓶颈,应该考虑如何调动起专业条线的力量。一是可以在年初策划应用点的时候要加强专业条线对车间业务自上而下的指导,引导管理人员加强对缺少数据分析支撑的工序、岗位/管理目标的思考;二是建立平台加强各车间同性质岗位之间的沟通与交流,均衡各个车间的数据分析应用水平和能力;三是对车间提交的分析报告给出专业性的指导意见。2、要加强对数据中心的应用。数据中心的建立可以使业务系统从报表制作、数据导出等功能中解放出来,专注于事务处理,将数据应用方面的功能完全交给数据中心来解决。目前,数据中心已建立了涉及产量、质量、消耗等各个条线的Universe模型,并对全厂管理干部进行了普及性的培训。但是从目前应用情况来看,还比较局限于个别管理人员,追寻原因如下:一是业务系统开发根据用户需求定制开发报表,业务人员通常习惯于从现成的报表中获取信息。如果要求业务人员使用数据中心工具自行制作报表模板,甚至可能需要将其导出再作二次处理,那么业务人员一定更倾向于选择第一种方式。二是近几年来人员更替较多,新进管理人员不熟悉数据中心应用,导致数据中心应用面受到限制。随着今后MES的建设,业务系统中的数据、报表、台帐和分析功能将有可能由业务用户自行通过集成在MES中的数据中心前端开发工具来访问和灵活定制。因此,要尽快培养工厂业务人员数据中心的应用能力,包括数据获取以及报表定制方面的技能。笔者认为应对方法如下:一是对于岗位人员变更做好新老人员之间一传一的交接和培训;二是适时针对新进管理人员开展集中培训;三是通过采用一定的考核方法。3、提高新增应用点的质量。工厂每年都会组织各部门审视第一、第二层次应用点列表,围绕重点工序和重点管理岗位调研有哪些应用上的空白点是需要重点思考的,以新增分析应用点的方式进行申报和实施。同时针对第三层次针对性分析应用,工厂也会要求部门以新增分析应用点的方式将需要数据支撑的项目进行申报。作为一项常规性工作,工厂每年都会组织部门进行应用点的申报,并按项目管理的思想和方法实施,事先确立各个应用点的应用层次、数据获取方式、实现平台,并对其实施计划进行事先的思考和分解,确定每一个阶段的活动目标、时间节点以及负责人员,每个季度对实施情况予以总结,并动态更新下一阶段的实施计划。该项工作从2005年起已经连续开展了三年,部门可供挖掘的应用点越来越少,如何调动部门的积极性,保持并提高应用点的实效性,我们有必要对新增分析应用点的质量和实施情况进行考评,考评标准为:一是新增分析应用点是否能体现数据应用开展的进取性、开拓性和创新性;二是新增分析应用点是否能切实提高管理的精细化和科学化水平;三是新增分析应用点是否能采用项目管理的思想和方法实施,按时间节点完成各项预定计划。

三、结束语。随着近几年来技术平台的相继成熟以及管理手段的逐步推进,工厂业务人员用数据说话的意识已经越来越强,但是要真正使工厂管理达到“三分技术、七分管理、十二分数据”的水平,还有很长的路要走,这既需要我们的业务人员从自身出发提高应用数据的水平和能力,同时也需要工厂从管理手段和管理方法上不断拓宽思路、创新手段,真正实现数据分析应用成为工厂管理的重要支撑手段。

作者单位:上海卷烟厂

参考文献:

第2篇:数据分析方法范文

关键词:粗糙集理论;数据分析方法;信息系统;决策表;属性约简

中图分类号:TP18 文献标识码:A文章编号:1009-3044(2007)06-11651-01

1 引言

粗糙集(Rough Set)理论[1]是波兰数学家Z.Pawlak于1982年提出的,它建立在完善的数学基础之上,是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息,使得粗糙集理论成为研究热点之一,被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。

属性约简是粗糙集理论中核心研究内容之一[3]。在众多的属性约简算法中,大致可以分为两类:一类是基于信息熵的启发式算法[4],这类算法往往不能得到系统的所有约简.另一类是基于区分矩阵和区分函数构造的算法[5],这种算法直观,易于理解,能够计算出所有约简。但在区分矩阵中会出现大量的重复元素,造成时间和空间的浪费,从而降低了属性约简算法的效率。

本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下,逐个约去冗余的属性,直到不再有冗余的属性,此时得到的属性集是最小属性集,即为约简。该算法简单,能够求出所有约简,不会出现区分矩阵中大

量的重复元素,从而提高了属性约简的效率。

2 粗糙集概念

定义2.1设U为所讨论对象的非空有限集合,称为论域;R为建立在U上的一个等价关系族,称二元有序组S=(U,R)为近似空间。

定义2.2令R为等价关系族,设P?哿R,且P≠?I,则P中所有等价关系的交集称为P上的不可分辨关系,记作IND(P),即有:[x] IND(P)= ∩ [x]R,显然IND(P)也是等价关系。

定义2.3称4元有序组K=(U,A,V,f)为信息系统,其中U为所考虑对象的非空有限集合,称为论域;A为属性的非空有限集合;V=∪Va,Va为属性a的值域;f:U×AV是一个信息函数,?坌x∈U,a∈A,f(x,a)∈Va。对于给定对象x,f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U,A)。若A=C∪D且C∩D=?I,则S称,为决策表,其中C为条件属性集,D为决策属性集。

显然,信息系统中的属性与近似空间中的等价关系相对应。

定义2.4设K=(U,A,V,f)为信息系统,P?哿A且P≠?I,定义由属性子集P导出的二元关系如下:

IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}

则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。

定义2.5称决策表是一致的当且仅当D依赖于C,即IND(C)?哿IND(D),否则决策表是不一致的。一致决策表说明:在不同个体的条件属性值相同时,他们的决策属性值也相同。

定义2.6设K=(U,A)为一个信息系统。若P?哿A是满足IND(P)=IND(A)的极小属性子集,则称P为A的一个约简,或称为信息系统的一个约简。

定义2.7设K=(U,CUD)为一个决策表,其中C为条件属性集,D为决策属性,若P?哿C为满足POSC(D)=POSP(D)的极小属性子集,则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。

定义2.8数据分析方法对于信息系统K=(U,A),逐个移去A中的属性,每移去一个属性即刻检查新得到的属性子集的不可分辨关系,如果等于IND(A),则该属性可被约去,否则该属性不可被约去;对于决策表K=(U,CUD),逐个移去C中的属性,每移去一个属性即刻检其决策表,如果不出现新的不一致,则该属性可被约去,否则该属性不可被约去。

3 基于数据分析方法的属性简约算法

3.1 算法思路

利用函数的递归调用,逐个判定信息系K=(U,A)中属性a(a∈A),若IND(A)=ND(A-{a}),则a可以约去,A‘=A-{a},否则a不可以约去,继续检查A‘中的每个属性是否能被约去,此过程一直进行下去,直到出现某一属性子集中的每个属性都不可约去为止,此时该属性子集即为所求的属性简约。对于决策表,每次检查是否增加了不一致的决策规则,作为是否约去属性的依据。

算法如下:

输入:信息系统K=(U,A)。

输出:K的属性约简。

Match(A') // A’=A-{a}//

begin

for i=1to|U|-1 //|U|表示U的基数//

for j=i+1to|U|

begin

r=|R|//|R|表示属性个数//

if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))

then a不可被约去,return0

end

a可以被约去return1

end

Reduce (A)

begin

flag=1

for i=1 to |R|//|R|表示属性个数//

begin

a=ai

A'=A-{ai}

if match(A')thenflag =0 , reduce (A’)

if (flag且A未被输出)then

输出A中所有元素//flag≠0,说明A中所有元素不可移去,且不会被重复输出//

End

end

以上给出的函数是求解信息系统的属性约简算法;对于决策表,只要将Match(A’)函数中的if语句的条件换成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是条件属性个数,ag是决策属性。Reduce (A)函数中|R|换成|C|即可。该算法适用于一致决策表,对非一致决策表,算法类似,也就是逐个移去属性并检查决策表是否出现新的不一致,作为约去此属性的依据。

4 举例

文献[7]中决策表1,a,b,c,d,e是条件属性,g是决策属性,求出的约简是{a,b,d}

应用本算法,求得的属性约简为{a,e}和{a,b,d},得到决策简化表2和表3。

表1 决策表表2简化表表3简化表

如果将决策表表1看作一信息系统,运用本算法,求得的属性约简有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}

5 结束语

本文通过数据分析方法讨论了属性约简问题。该算法是基于不可分辨关系的,具有直观、易于理解和完备性的特点。当属性和对象都较少时,效率较高,但当属性和对象较多时,计算的复杂度较高。实例表明,该算法是有效的。

参考文献:

[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.

[2]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京:科学出版社,2001.

[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459

[4]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002(7):760―765.

[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.

[6]刘请.Rough集及Rough推理[M].北京:科学出版社,2001.

第3篇:数据分析方法范文

【关键词】驾驶行为;油耗;大数据;绿色驾驶

A Method of Automobile Driving Behavior and Data Analysis

ZHANG Zhi-de

(Guangzhou Automobile Group Co.,Ltd.,Automobile Engineering Institute,Guangzhou Guangdong 510640,China)

【Abstract】A car bus data collection and analysis methods of environment,expatiates the bus signal correlation between performance and corresponding working principle of the electronic control module,each over a period of time the data to carry on the comprehensive analysis,put forward several kinds of conditions associated with economic driving model,and through the working condition of model reflects in a period of time correlation between vehicle fuel consumption and driving behavior,for the analysis of driving behavior to provide the reference basis.

【Key words】Driving behavior;Oil consumption;Big Data;Eco-driving

0 引言

随着近几年汽车销售和保有量的急剧增加,降低能源消耗与汽车排放的要求越来越严格。节能减排政策成为对应汽车领域能源问题和治理环境污染的主要措施之一。橄煊节能减排,各个汽车制造商都在积极研究新技术以对应能源与环境需求。其中车辆动力技术、道路条件以及汽车驾驶运用是目前影响汽车燃油消耗的三大主要因素。汽车的驾驶运用水平直接反应在汽车驾驶人员对于汽车燃油经济性掌控的关键环节。驾驶人员以较少的汽车燃油消耗实现车辆空间位置安全转移的驾驶行为就是目前我们所倡导的汽车节能驾驶。通过研究驾驶行为数据并进行分析提示,辅助提高驾驶技术、研究节能驾驶辅助系统有巨大的节能潜力。

狭义上的驾驶行为数据分析一般是以考虑经济性驾驶为基础研究对象和主要前提。通过对驾驶员控制油门、挡位和制动等相关操作,在不改变车辆动力结构前提下,计算一段时间的控制数据和车辆理想驾驶模型数据进行对比,提醒驾驶人员日常驾驶行动的统计结果,包括对操作车辆油门、挡位、制动的方式。并以此为依托进行驾驶习惯改进、驾驶操作辅助、“人―车―路”多环境协调,合理匹配车辆运动与道路条件、交通状态、车辆性能之间的关系,以满足节能减排的目的。

1 驾驶行为分析模型

车辆运行过程中主要存在四种行驶状态:怠速、加速(含启动)、减速、巡航。

图1是城市工况的不同行驶状态所占能耗比。由图1可知,加速(含启动)过程占比最大,达到38% ;其次是巡航过程,约为35%。这说明城市工况中,采用经济性的加速和巡航策略对降低能耗具有积极意义。经济性加速主要指以适宜的加速度、档位、油门开度等完成加速过程,尽量避免急加速工况的出现;经济的巡航策略主要指尽量把车速维持在经济车速区间。

根据一般驾驶工况,按照与能耗关联的行为可以得出以下几种行为模式:

1)急加速

在紧急加速过程中,燃烧室中燃油多、空气少,燃烧室内呈现缺氧状态,燃油不能够充分燃烧,导致油耗增加。

2)急减速

减速过程属于动能转换为热能的过程,合理的预判行车减速过程进行适宜的制动强度有利于充分利用车辆惯性,减少油耗;频繁的急减速会消耗较多的车辆动力装置产生的动能。

3)脱档滑行

汽车带档滑行,不踩油门,发动机管理系统EMS会切断供油利用惯性来维持运转;脱档滑行则需要一个怠速油耗。因此长距离滑行时采用脱档滑行会增加油耗。

4)打开车窗高速行驶

汽车以较高车速行驶时,打开车窗会增加整车的空气阻力系数,增加空气阻力,进而导致油耗提高。

5)换挡时的转速(高转换挡)

合理的控制档位,能保证发动机在不同的车速区间里均能维持在经济转速区域,有利于减少发动机的油耗。

6)长时间怠速

长时间的怠速状态会导致发动机做过多的无用功,导致油耗上升。

7)频繁变道和曲线行车

频繁变道超车使汽车经常加速、减速、制动,发动机工作不稳定,同时使汽车处于曲线行驶状态。汽车曲线行驶时,如汽车转弯,地面对轮胎将产生侧向反作用力、滚动阻力大幅增加,导致油耗上升。

1.1 急加速模式

当车辆加速度n_vehicleActSpeed>X1*,油门踏板开度n_emsGasPedalActPst>X2*(排除下坡导致的无油门输入加速),记录为一次急加速,急加速计数器Drastic_Acc_Counter++。

X1*为设定的加速度限值,考虑到不同车速区间内车辆提供的加速能力不一致,为获得更优的评价方法,在不同速度区间能选用不同的限值。加速度限值是车速的函数,车速越低限值越大。X2*为油门踏板开度限值可以设置为定值20%。

加速度限值函数 X1:

y=a■x+b■,x?缀(0,40]a■x+b■,x?缀(40,80]a■x+b■,x?缀(80,max)

1.2 急转弯模式

对于急转弯驾驶行为,为滤去低速工况下掉头等实际状况的影响,首先判断车速,车速当车速n_vehicleSpeed>20km/h时,再进行急转弯判断,判断方法如下:

1)当某时间区间内(如1s)车辆角速度均值n_averageSteeringAngleSpeed大于预设角速度X*时,记录为一次急转弯,急转弯计数器n_turnCounter++;

2)当车辆行车速度大于50km/h且一秒内方向盘转动角度大于 Y*时,记录为一次急转弯急转弯计数器n_turnCounter++;

3)当车辆转弯角度大于31°,且车辆行驶速度大于S时,记录为一次急转弯,例如:S取值范围为51km/h至60km/h,急转弯计数器n_turnCounter++;

注:X*为动态限制量,是一个和车速有关的函数,车速越大转角速度极限值X*越小。

Y*为动态限制量,是一个和车速有关的函数,车速越大转角极限值Y*越小。

如下:

X*=k■x+l■,x?缀(0,40]k■x+l■,x?缀(40,80]k■x+l■,x?缀(80,max),Y■=r■x+t■,x?缀(0,40]r■x+t■,x?缀(40,80]r■x+t■,x?缀(80,max)

其中:k1,k2,k3,l1,l2,l3,r1,r2,r3,t1,t2,t3为常数。

2 非经济驾驶行为数据统计

根据第一章节中的描述,对行程中不利于油耗降低的驾驶行为(急驾驶、急减速、急转弯、怠速过长等)进行记录,并将每次行程的结果保存在存储区中作为历史数据。统计界面的默认界面为本次行程的驾驶行为统计(如图2左图);通过操作驾驶者可以进入历史统计界面,该界面内驾驶者可以观察本次驾驶行程中各驾驶行为发生次数与历史行程的对比(如图2右图)。

3 不同平均车速下的历史综合油耗统计

实际驾驶过程中不同路况下的油耗差异性很大,例如:高速公路驾驶中高速行驶发动机运行在经济区域占比较大,油耗较低;而城市道路驾驶过程中,车流量较大、交通灯数量多,车辆处于中低速区域比例较大,油耗较高。仅仅从平均油耗进行对比,有时不能正确反映驾驶者驾驶习惯。平均车速能较为有效的反应出道路工况,因此可以以行程的平均车速进行区间划分,历史油耗对比时仅对比同一区间内的油耗,可将平均车速划分为低速行驶区域(0~40km/h)、中速行驶区域(40~80km/h)、高速行驶区域(V≥80km/h),加入行程平均车速的考虑因素再做燃油消耗的统计。

4 方法总结

通^统计与经济驾驶关联的几种模式进行算法设计,可以将驾驶行为转化为可以具体量化的数据结果。基于数据有限分析和样本量,数据累计历史等前提下,可以通过模型进行一些可视化的输出结果。并以此作为驾驶人员辅助驾驶和行为提醒的基本数据。当然如果该模型能基于大数据后台平台,通过建立复杂的算法模型和自学习模型。可以更多的分析驾驶人员、同类车型、相似工况环境等。并以此为基础逐步影响驾驶人员的驾驶习惯,建立起良好的驾驶行为。

【参考文献】

第4篇:数据分析方法范文

【关键词】统计数据;分析方法;市场调研;判别分析

一、数据统计分析的内涵

数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。

二、数据统计分析的原则

(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。

三、推论性统计分析方法

(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。

四、多元统计分析方法

(1)相关分析。相关分析是描述两组变量间的相关程度和方向的一种常用的统计方法。值得注意的是,事物之间有相关关系,不一定是因果关系,也可能仅仅是伴随关系;但如果事物之间有因果关系,则两者必然存在相关关系。(2)主成分分析。在大部分数据统计分析中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。所谓的主成分分析就是利用降维的思想,把多指标转化为几个综合指标的多元统计分析方法,很显然在一个低维空间识别系统要比在一个高维空间容易的多。(3)因子分析。因子分析的目的是使数据简单化,它是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子,对变量进行分类。这些因子是不可观测的潜在变量,而原先的变量是可观测的显在变量。(4)聚类分析。在市场调研中,市场细分是最常见的营销术语之一,它按照一定的标准将市场分割为不同的族群,并使族群之间具有某种特征的显著差异,而族群内部在这种特征上具有相似性。聚类分析就是实现分类的一种多元统计分析方法,它根据聚类变量将样本分成相对同质的族群。聚类分析的主要优点是,对所研究的对象进行了全面的综合分析,归类比较客观,有利于分类指导。(5)判别分析。判别分析是判别样品所属类型的一种多元统计方法。若在已知的分类下,遇到新的样本,则可利用此法选定一种判别标准,以判定将该新样品放置于哪个类中。由定义我们可以知道判别分析区别于聚类分析的地方,而在判别分析中,至少要有一个已经明确知道类别的“训练样本”,从而利用这个数据建立判别准则,并通过预测变量来为未知类别的观测值进行判别。与聚类分析相同的地方是,判别分析也是利用距离的远近来把对象归类的。

参考文献

[1]温美琴.统计分析方法在我国政府绩效审计中的应用[J].统计与决策.2006(23)

第5篇:数据分析方法范文

关键词:质量管理,统计分析,船舶设计

中图分类号:U673.2 文献标识码:A

Data Analysis Method of Quality Control Applied for Ship Design Project

LI Lanjuan

( Guangzhou Marine Engineering Corporation, Guangzhou 510250 )

Abstract:Statistic and analysis for drawings which are censored by CCS with a new data analysis method of quality control. It can reflect technique level of each profession clearly, then we can adjust to achieve the aim of improve design according to requires.

Key words: Quality control; Data analysis; Ship design

1概述

在船舶设计项目质量管理中,对设计图纸的差错率进行统计分析非常重要,不仅可以总结经验,还可以找出设计环节中的薄弱之处,进而有针对性地采取改进措施,降低图纸差错率和图纸修改率,最终达到提高设计质量的目的。本文将一种全新的质量管理数据分析方法应用到船舶设计项目中,对某船送中国船级社(CCS)广州审图中心的各专业图样文件进行了统计和分析。首先对CCS审图意见类别及其导致修改的原因进行统计,然后对统计结果进行分析,最后针对产生原因采取相应的改进措施。

2专业审图意见类别和原因分析

对各专业分别进行统计和分析,有利于了解各专业本身技术力量的实际情况,以便专业负责人做出适时的调整,对薄弱之处加以改进和提高。根据CCS的审图意见类别,对某船各专业的图样文件进行统计,然后根据CCS提出的意见进行原因分析。

为了方便分析,设置下列不同的代码,表示不同的审图意见类别和原因分析含义。

(1)审图意见类别代码含义:

A-认可无意见;

AC-认可有意见;

N-备查无意见;

NC-备查有意见;

TS-转送现场验船师审核;

RS-不予批准,需修改后重新送审。

(2)原因分析代码含义:

B1-设计方案欠妥;

B2-设计接口不协调;

B3-不符合现行有效的规范、法规要求;

B4-标识不明或有误;

B5-其它。

下面对轮机专业进行举例说明:

该专业的意见类别统计见表1,原因分析统计见表2。

表1轮机专业CCS审图意见类别统计表

表2轮机专业原因分析统计表

由表1可清楚地看出某船轮机专业图样文件的退审意见分布情况。其它专业也分别如此进行归类和统计,便能了解本专业图样文件的退审意见分布情况,并且还可将各专业的退审情况进行比较。

由表2可清楚地看出某船轮机专业图样文件的差错分布较为集中在B3 (不符合现行有效的规范、法规要求),其次是B1(设计方案欠妥),说明轮机专业在这两方面需采取措施加以改进。其它专业也分别如此归类和统计,这样就能清楚地了解各专业自身的薄弱环节在何处,从而可采取相应的措施来改进和提高。

3全船审图意见类别和原因分析

为了使分析具有全局性,对各专业之间进行比较之后,需对全船进行统计和分析,这样有利于找出整体中的薄弱环节在何处。某船全船图样文件的CCS审图意见类别统计见表3;原因分析统计见表4。

表3全船CCS审图意见类别数据统计表

表4全船原因分析统计表

由表3可清楚地看出各个专业退审图样文件的总体情况。由表4可看出各个专业图样文件的退审意见主要集中在B3(不符合现行有效的规范、法规要求),说明在这一环节所有专业均比较薄弱,特别是电气专业,因此需专门针对这一环节制定改进措施。

通过对全船的退审图样文件进行统计和分析后,使项目负责人能清楚地掌握各专业的实际工作情况与整个项目组中的薄弱环节所在,以便采取改进措施,从全局出发对各专业的技术力量进行调整,进而提高产品项目设计质量。

4结论

在船舶设计项目中采用这种全新的质量管理数据分析方法,不仅能清晰地反映出各专业本身的优劣势,还能反映出各个专业之间技术力量的强弱差别。这样不但让专业负责人能了解本专业的问题所在,并采取相应的改进措施,同时也能让项目负责人掌控全局,根据需要对各专业进行协调,从而提高产品项目的质量,降低图样文件的差错率。

作者简介:李兰娟(1979-),女,工程师。从事项目管理与质量管理工作。

收稿日期:2013-07-05

国际动态

日本获得6艘灵便型散货船订单

近日,Sesoda公司表示,通过其子公司及合资公司(JV)订造了2艘34000DWT型及4艘38000DWT型散货船。相关散货船的新造船价分别为“每艘2500万美元以下”及“最高2600万美元”水平。

这些新造船将在日本Namura(名村)造船、Imabari(今治)造船以及匿名的其他日本造船厂进行建造,安排在2016-2018年交付。

南日本造船获4艘甲醇运输船订单

第6篇:数据分析方法范文

关键词:经典功率谱估计;现代功率谱估计;飞行试验

1 概述

当飞机在闭环补偿跟踪任务中飞行时,飞机飞行品质的一种量度是它的稳定裕度,因而将在不危及稳定性的情况下可以进行闭环跟踪的最大频率定义为频宽。频宽是衡量最大频率的一个指标,它对高增益飞机特别有用,不论是对驾驶员操纵力和操纵位移的俯仰姿态响应还是根据航向角或者横向航迹角对座舱直接力空中输入的开环频率响应,它都可以在这个频率条件下实现闭环跟踪而不需要驾驶员提供有利的动态补偿且不对稳定性构成恶化[5]。因此,在飞行试验的数据分析中,获取精准的飞机响应的频域特性尤为重要,这就需要首先对操纵输入信号进行功率谱估计,本文列出4种功率谱估计方法,并用这些方法对飞机的输入激励信号进行谱估计,以便得到适用行品质频域准则评估的频域特性。功率谱估计可分为经典谱估计和现代谱估计。

2 经典谱估计

功率谱密度是一种概论统计方法,是对随机变量均方值的量度。平稳信号的自相关函数的傅立叶变换称为功率谱密度。实际中采用有限长的数据来估计随机过程的功率谱密度[2、3]。

2.1 周期图法

周期图法是信号功率谱的一个有偏估计,它对观测到的有限长序列x(n)求其N点离散傅立叶变换XN(ej?棕),再取其模值的平方除以N,得到计算公式:

周期图法是基本的功率谱估计方法,计算简便,计算效率高,但是当数据长度N过大时,功率谱曲线起伏加剧,当N过小,谱分辨率较差。

2.2 加权交叠平均法(Welch法)

Welch法是对随机序列分段处理,使每一段部分重叠,然后对每一段数据用一个合适的窗函数进行平滑处理,最后对各段谱求平均。这样可以得到序列x(n)的功率谱估计:

(n)是窗函数[1],由于各段数据的交叠,数据段数L增大,从而减小了方差,另外,通过选择合适的窗函数,也可使遗漏的频谱减少,改进了分辨率。因此这是一种把加窗处理和平均处理结合起来的方法,它能够满足谱估计对分辨率和方差的要求,但是如果信号数据过短,也会无法进行观测。

3 现代功率谱估计

现代功率谱估计分为参数模型法和非参数模型法。

3.1 参数模型法(AR模型的Burg法)

参数模型法是将数据建模成一个由白噪声驱动的线性系统输出,并估计该系统的参数。最常用的线性系统模型是全极点模型,也就是一个滤波器,这样的滤波器输入白噪声后的输出是一个自回归(设AR模型的冲击响应在方差?滓2的白噪声序列作用下产生输出,再由初值定理得到:

这就是AR模型的Yule-Walker方程。本文采用的是该方程的Burg法,即先估计反射系数,然后利用Levinson递推算法,用反射系数求AR参数。Burg法在信号长度较短时能够获得较高的分辨率,并且计算高效。

3.2 非参数模型法(多窗口法)

多窗口法也叫做Thompson Multitaper Method,MTM法,它使用一组最优滤波器计算估计值,这些最优FIR滤波器是由一组离散扁平类球体序列(DPSS)得到的,除此之外,MTM法提供了一个时间-带宽参数,它能在估计方差和分辨率之间进行平衡。因此,MTM法具有更大的自由度,在估计精度和估计波动方面均有较好的效果,其增加的窗口也会使序列两端丢失的信息大幅减少[7]。

4 实例分析

本文采用Matlab计算,输入信号使用飞行试验中常用的扫频和倍脉冲信号。通过Matlab中的谱估计函数方法[4、6],编写程序对给定的输入信号分别进行周期图法、Welch法、Burg法和MTM法的谱估计并分析。估计结果如图1、图2所示:

从图1、图2可以看出:

(1)周期图法得到的扫频功率谱曲线起伏大,倍脉冲信号的频谱分辨率低;(2)Welch法明显改善了周期图法的不足,方差性能得到很大的改善,只要窗函数选取适当,可减少频谱泄露。图中可见Welch法的谱估计曲线比较光滑,在飞行品质关注的频段频谱分辨率高;(3)Burg法的曲线平滑性好,频谱分辨率高,但是其谱峰窄而尖,在飞行品质关注的低频段频谱并不理想,也就是不能在所需的频段内产生足够的能量;(4)MTM法得到的结果介于周期图法和Welch法之间,但是对于时间序列较长的信号,MTM法的功率谱曲线起伏较大,分辨率变低。

5 结束语

通过4种功率谱估计方法对飞机输入激励信号的谱估计分析,采用Welch法得到了更有效的输入信号的谱估计,得到的频域特性能够更好地进行飞行品质频域准则的评估,这对飞行品质的等级界定提供了有效的依据。

参考文献

[1]Mark B.Tischler,Robert K.Remple.Aircraft and Rotorcraft System Identification.AIAA,Inc,2006.8.

[2]杨晓明,晋玉剑,等.经典功率谱估计Welch法的MATLAB仿真分析[J].电子测试,2011,7(7):101-104.

[3]王春d.基于MATLAB实现经典功率谱估计[J].曲阜师范大学学报,2011,4(2):59-62.

[4]邓泽怀,刘波波,李彦良.常见的功率谱估计方法及其Matlab仿真[J].电子科技, 2014,2(27):50-52.

[5] GJB2874-97.电传操纵系统飞机的飞行品质[S].国防科学技术工业委员会,1997,12.

[6]杨高波,杜青松.MATLAB图像/视频处理应用及实例[M].北京:电子工业出版社,2010,1.

第7篇:数据分析方法范文

一、审计调查前加大数据采集量,加强数据转化的可靠性

审计调查前,采集被审计单位的电子数据非常关键。随着被审计单位电算化程度的提高,无论是财务数据还是业务数据,这些均是审计人员进行审计调查的基础,在对某农村信用合作金融机构审计调查中,取得业务数据尤为重要,因为业务数据量大、面宽,是该金融机构的主要资产,这自然也是审计人员审计调查应关注的重点。

(一)全方位取得金融机构后台数据库表和数据字典。首先,全面了解信息系统。审计人员过去只是被动得到农村信用合作金融机构提供的贷款分户账,对公存款分户账等少量数据库表,对其整个的综合业务系统了解甚少,经过探索学习后,对了解掌握金融机构整个业务系统的重要性有了新认识。去年3月末,在对某市农村信用合作金融机构审前调查时,要求该机构全面提供其使用的综合业务管理系统全部后台数据库表400多张,随即索取了全部的数据库表目录。全面分析后,有针对性地采集了拟审计调查的某设区市各县区市农村信用合作金融机构的贷款分户账、对公存款分户账、担保登记簿、抵债资产登记簿、分录流水账等50余种数据库表。其次,拿回全数据字典。数据字典是对综合业务管理系统后台各数据库表的设计、字段含义、字段类型、字段长度等诸多方面的详细解释,对于开展审计前的数据分析十分重要。利用它将已获取的各种原始数据库表翻译成可视账表,经分析进而实现种种审计思路。做好以上两项工作,不仅满足了审计调查项目需求,更重要的是基本掌握了被审计调查金融机构数据系统的全面情况,为开展更全面的信息系统审计打下了坚实基础。

(二)完善数据采集及转换,保证数据的完整性和准确性。经调查了解,某农村信用合作金融机构所使用的数据库管理软件为Informix,审计组与计算机信息中心人员积极合作,从该软件管理的后台数据库中提取纯文本形式的业务核算数据,对数据输入不规范的记录进行了清理和调整,再将其库表逐张分别导入审计人员使用的数据库软件中,使数据字典表与业务数据库表相连接,初步完成了对拟使用的数据库的表名及表字段的汉化。为了验证已转换数据库表记录的完整性和准确性,审计人员将各分支金融机构的电子数据报表与已转换数据库表中的主要数据进行核对,使用了结构化查询语句,通过对比分析,发现有两家分支金融机构截至2009年3月末业务库表数据大于电子报表数据,其中某县、某区的差异数额分别达5,000多万元、1,500万元。找出的原因是这两家分支金融机构因票据兑付到期却未能及时销账。

二、将数据分析方法贯穿于审计调查整个过程

在对某农村信用合作金融机构审计调查现场实施前,结合审计目标对所辖全部分支金融机构业务数据,尤其涉及客户关联互保贷款、多头贷款等予以重点关注,优化了审计资源,提高了审计调查方案的针对性。如对于关联互保问题,因为数据量大,必须全面运用结构化语言(SQL查询语句)分析。在某计算机学院老师的指导下,用SQL语句筛选形成贷款担保人担保情况表,再对贷款担保人担保情况表进行自连接,最终形成贷款关联互保表,使初步分析出的问题均在实际的审计调查过程中得到证实。

在审计调查中,审计人员根据新信息,对数据进一步分析和挖掘。经与被审计调查的某农村信用合作金融机构有关业务人员进行交谈,根据提供的情况,审计人员发现一些数据库表中的个别字段含义对审计调查极有帮助,从而大胆、积极运用这一成果,结果成绩凸显,比如某分支金融机构提供贷款分户账的数据库表中有一个“客户号”字段,该字段如果以“01”开头时,后面数据则代表贷款户个人的身份证号码。审计组充分利用这一信息,运用EXECL电子表格强大筛选功能分析筛选,最后核实,该分支金融机构个人贷款中存在违规发放异地贷款4万多元的事实。并将此做法推广至其他分支金融机构的审计调查中,结果核实发现某市所属农村信用合作金融机构违规发放异地贷款金额高达2.5亿元。审计人员还以贷款分户账为基础,利用结构化查询语句筛选形成了疑似发放房地产及相关行业贷款明细表,经进一步审计调查核实,2008年至2009年一季度,某市所辖分支金融机构向50多家房地产开发企业发放贷款7亿元,余额4亿元,为房地产及相关的建筑、建材、装修等发放贷款20亿元,余额16亿元;对各农村信用合作金融机构的内部职工贷款情况筛选、统计和分析,均查出违规问题。

审计调查现场结束后,对汇总的所有分支金融机构的问题及情况,以贷款分户账表中的“科目控制字”字段为限制条件,运用结构化查询语句,分析发现各金融机构农贷指标被挤占达19亿元,其中存在违规个贷公用贷款1亿元。“对公存款分户账”库表中,经延伸审计调查,发现某县滞留巨额应上缴财政收入的问题。在结束现场审计调查后,对各分支金融机构问题及情况进行了汇总,但并不是简单具体问题的叠加,而是根据现场计算机对审计数据分析的成果,以整个市农村信用合作金融机构数据为基础,分析重点问题。例如违规发放多头关联贷款问题,利用结构化语句分析出一些企业及其法人代表的多头关联贷款跨若干个县区金融机构。

三、利用计算机审计调查的构想

(一)联网审计。在近几年的农村信用合作金融机构审计中,目前已实现了经审计组所有审计人员的笔记本电脑全部现场联网,实现审计数据共享、打印机共享、电子数据互传等自动化办公功能。由以前单兵分散工作的传统模式转变为如今的计算机协同作战,较大地提高审计工作效率,但也只能称作小联网审计。真正意义的联网审计,是指审计单位的信息系统与被审计单位的信息系统通过数据库接口技术,将被审计单位备份的后台数据库直接通过网络迁移到审计专用服务器上进行集中批处理。充分利用计算机审计方法体系预警系统和报告系统,实现实时监测,变事后审计为事后与事中审计相结合,提高审计工作质量和效率。

(二)利用ODBC进行数据迁移。在尚不具备大规模联网审计条件下,审计组可以要求被审计调查对象在其信息系统创建ODBC数据源,利用该数据源将其业务信息系统中的有用数据分不同时段移到审计组服务器的数据库管理系统中。

第8篇:数据分析方法范文

基于理念分析和比较研究方法,对大数据的分析方法和传统统计学分析方法的关联性和差异进行了对比分析,从方法的基本思想、量化形式、数据来源、分析范式、分析方法、分析视角等角度揭示了两种社会科学分析方法存在的联系与差异。

关键词:

大数据;统计学;研究方法

中图分类号:

F27

文献标识码:A

文章编号:16723198(2015)11005201

随着信息技术的日益发展与普及,信息以及数据在社会经济发展过程中发挥的作用越来越重要。现如今,“大数据”时代已经来临,于是如何更有效地利用数据快速做出科学决策也已成为众多企业甚至是国家所共同关注的焦点问题。在数据处理和分析方法方面,《统计学》以及在其基础上发展而来的实证统计方法是当前的主流,这些方法可以帮助数据持有者从大量的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。然而,传统的实证统计方法在最新出现的大数据情境下,却呈现出了诸多缺陷,例如传统数据收集方法无法实现大规模(甚至是总体)数据的收集,传统统计方法和分析软件无法处理大规模数据,等等。于是,在将传统统计学方法应用于最新的大数据情境和问题之前,需要首先明确大数据所要求的处理方法与传统的统计学处理方法存在哪些关联和区别,然后才能够决定是否可以应用既有统计学理论和方法来处理某些大数据问题。

1大数据的界定

根据一位美国学者的研究,大数据可以被定义为:it means data that’s too big, too fast, or too hard for existing tools to process。也就是说,该学者认为:在关于大数据的所有定义中,他倾向于将之定义为那类“太大”、“太快”,或现存工具“太难”处理的数据。一般而言,大数据的特征可以概括为四个V:一是量大(Volume);二是流动性大(Velocity),典型的如微博;三是种类多(Variety),多样性,有结构化数据,也有半结构化和非结构化数据;四是价值大(Value),这些大规模数据可以为持有企业或者组织创造出巨大的商业或社会价值。

Victor在其最新著作《大数据时代――生活、工作与思维的大变革》中指出,大数据时代,思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。这些变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。因此,下面我们分别针对两者的联系和区别进行讨论。

2大数据与统计学分析方法的联系

从18世纪中叶至今,统计学已经经历了两百多年的发展历程,不论是基础理论还是社会应用都极其坚实而丰富。大数据作为一种新兴的事物规律认知和挖掘思维,也将会对人类的价值体系、知识体系和生活方式产生重要影响,甚至引发重大改变。作为两种认知世界和事物规律的基本方法,它们在以下两个方面存在紧密关联。

(1)挖掘事物规律的基本思想一致。统计学(statistics)探索事物规律的基本方法是:通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析和总结,做出推断和预测,为相关决策提供依据和参考。对于大数据,维克托指出,大数据思维的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。通过这两个定义可以看出,不论是传统的统计学方法还是新兴的大数据分析方法,都是以数据为基础来揭示事物特征以及发展趋势的。

(2)均采用量化分析方式。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不论是传统统计学中所应用的数据(定性和定量数据),还是大数据时代即将被转化和采用其他形式数据(如文字、图像等),最终都是通过量化分析方法来揭示数据中所蕴含的事物特征与发展趋势。

3大数据与统计学分析方法的区别

(1)基础数据不同。在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。

①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。综上,大数据情况下,分析人员可以拥有大量数据,因而不需要对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。

②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。

(2)分析范式不同。在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:(基于文献)提出理论假设-收集相关数据并进行统计分析-验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探索世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的研究始于数据,并可以发现以前不曾发现的联系。换言之,大数据背景下,探索事物规律的范式可以概括为:数据观察与收集――数据分析――描述事物特征/关系。

(3)数据分析方法不同。传统统计学主要是基于样本的“推断分析”,而大数据情境下则是基于总体数据的“实际分析”,即直接得出总体特征,并可以分析出这些特征出现的概率。

(4)分析视角不同。传统的实证统计意在弄清事物之间的内在联系和作用机制,但大数据思维模式认为因果关系是没有办法验证的,因此需要关注的是事物之间的相关关系。大数据并没有改变因果关系,但使因果关系变得意义不大,因而大数据的思维是告诉我们“是什么”而不是“为什么”。换言之,大数据思维认为相关关系尽管不能准确地告知我们某事件为何会发生,但是它会提醒我们这件事情正在发生,因此相关关系的发现就可以产生经济和社会价值了。

4结语

综上,相对于传统而言,大数据思维主要包括三个重大转变。首先,要分析与某事物相关的所有数据,而不是依靠分析捎来能够的数据样本;其次,研究人员应乐于接受数据的纷繁复杂,而不再追求精确性;最后,认知世界的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。以上三个转变构成了大数据思维的核心。在统计学的进一步应用和发展完善过程中,需要结合以上转变所产生的挑战,思考有效的统计学发展对策。

参考文献

[1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146169.

第9篇:数据分析方法范文

关键词:数据挖掘;网格技术;聚类分析

中图分类号:TP311 文献标识码:A文章编号:1007-9599 (2011) 17-0000-01

Cluster Analysis Method Application of Grid Technology

Ma Dongmei

(Xinjiang Tianshan Vocational and Technical College,Urumqi830017,China)

Abstract:In the grid based on data mining combines the advantages of grid technology to various information carriers in the distribution of vast amounts of information for efficient processing, analysis and mining.This paper analyzes the grid and cluster analysis of the characteristics,the use of grid-based methods of data analysis methods will be ground into space(hyper)rectangular grid consisting of grid cells,then the cluster analysis of grid cells in order to achieve a more in-depth analysis of the data mining purposes.

Keywords:Data mining;Grid;Cluster analysis

一、引言

随着信息技术的飞速发展,人们对计算机信息处理的要求越来越高,同时处理、传输、储存各种信息的数据量也越来越庞大。如何进一步增强计算机信息系统的处理能力,从海量的数据中提取有益的资源,便成为人们不断追求的目标。网格技术和数据挖掘技术的发展,为解决此问题提供了一种有效的办法。网格是一个集成的资源环境,它能够充分吸纳各种资源,并将它们转化成一种随处可得的、可靠的、标准的、经济的能力。这些资源包括计算资源、网络通信资源、数据资料、仪器设备、知识等各种各样的资源。网格计算就是基于网格的问题求解。数据挖掘就是从大量的数据中发现或"挖掘"知识,而网格上含有丰富的数据,是数据挖掘的理想目标。基于网格的数据挖掘就是建立在数据网格的基础设施和相关技术的基础上,在广域分布的海量数据和计算资源的环境中发现数据模式,获取新的科学知识和规律。

二、基于网格的数据挖掘

网格计算技术是解决复杂海量科学数据的访问存储组织和管理的一种有效技术,是广域分布的异构虚拟组织间实现协同资源共享、多领域的科学和工程的问题求解。建立在网格基础上的数据挖掘结合网格计算的思想及其技术的优点,能够对广域分布的海量数据进行高效的处理、分析和挖掘,将给信息分析处理的效率带来极大的促进。(一)网格数据挖掘过程:数据的处理,数据的分析与挖掘,模式的评价。(二)网格数据挖掘的特点:超强的计算能力;具有分布性和动态性;具有高性能的I/O负载平衡能力;高效的数据存储服务、传输服务和复制管理。(三)聚类分析在网格计算中的实现方法。

三、网格聚类过程划分

基于网格聚类算法的第一步是划分网格结构,按搜索子空间的策略不同,主要有基于由底向上网格划分方法的算法和基于自顶向下网格划分方法的算法。由底向上划分方法只需对数据集进行一次线性扫描以及较高的簇的描述精度,算法的效率与维度密切相关。自顶向下划分方法能够自动根据数据的分布对空间进行划分,可以快速将大型高维数据集中的簇分隔开,数据空间维度对网格计算的影响较小。可以看出,两类方法适用于不同的问题。前者适于处理高维数据集,后者能有效处理存取代价较大的超大型数据集与动态数据。

四、基于网格的聚类过程分析

基于网格的聚类算法的基本过程是,首先将数据空间W划分为网格单元,将数据对象集O映射到网格单元中,并计算每个单元的密度。根据用户输入的密度阈值Min Pts判断每个网格单元是否为高密度单元,由邻近的稠密单元组形成簇,第一步,定义一个网络单元集;第二步,将对象指派到单元,并计算密度;第三步,删除密度低于指定阙值的单元;第四步,由稠密网格单元形成簇。

(一)网格单元的密度。簇就是一个区域,该区域中的点的密度大于与之相邻的区域。在网格数据结构中,由于每个网格单元都有相同的体积,因此网格单元中数据点的密度即是落到单元中的点的个数。据此可以得到稠密网格单元的密度是,设在某一时刻t一个网格单元的密度为density,定义density=单元内的数据点数/数据空间中总的数据点数,设密度阈值为A,为用户输入的密度阙值,当density>A时,该网格单元是一个密集网格单元。反之为稀疏网格单元。需聚类计算时,对于稀疏网格单元一般采用压缩或直接删除的处理方法,理论分析和实验证明删除稀疏网格单元并不影响聚类的质量。(二)由稠密网格单元形成簇。在基于网格的聚类算法中,根据以上分析,由邻接的稠密单元形成簇是相对直截了当的,这也是基于网格的方法的优点之一。但是需要首先定义邻接单元的含义。设n维空问中的存在任意两个网格单元U1和U2,当这两个网格单元在一个维上有交集或是具有一个公共面时,称它们为邻接网格单元。在二维空间中,比较常使用的是4-connection相邻定义和8-connection相邻定义,

五、结束语

基于网格聚类方法的优点是它的处理速度快,因为其速度与数据对象的个数无关。但是,基于网格方法的聚类算法的输入参数对聚类结果影响较大,而且这些参数较难设置。当数据中有噪音时,如果不加特殊处理,算法的聚类质量会很差。而且,算法对于数据维度的可伸缩性较差。

基于网格的聚类方法目前还存在一些急需解决的问题,主要有以下几点:(1)当簇具有不同的密度时,全局的密度参数不能有效发现这样的簇,需要开发具有可变密度参数的算法。(2)对于不同类型数据的聚类问题,比如对于高维数据,网格的数据将急剧增加,需要有效地技术发现近邻单元。(3)当数据集的规模巨大以及数据具有地理分布特性时,需要开发有效的并行算法来提高处理的速度。(4)对现有网格算法的优化,从不同方面提高网格算法的有效性。比如开发稀疏网格的压缩算法、密度相似网格的合并算法等。

本文对基于网格的聚类方法的进行了分析和研究,包括网格的定义与划分方法、网格单元密度的确定、由邻接网格单元形成聚簇的聚类过程;最后对网格聚类方法优点与局限性进行总结,在已有研究分析的基础上,提出后续需要重点解决的问题。

参考文献:

[1]曹洪其,余岚,孙志挥.基于网格聚类技术的离群点挖掘算法[J].计算机工程,2006,6