公务员期刊网 精选范文 数据分析的方法范文

数据分析的方法精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据分析的方法主题范文,仅供参考,欢迎阅读并收藏。

数据分析的方法

第1篇:数据分析的方法范文

环境监测数据可以反映出某一区域内的环境质量状况、污染物的排放情况以及环境受污染的程度。各项数据的不断汇总并分析为各级环保主管部门以及相关机构做决策提供了技术依据。因此,采用健全的质量保证体系以及方法来保证数据的分析质量很有必要。首先,我们先来了解监测数据分析方法

(一)统计规律分析

就是采用数理统计方法、模糊数学方法以及适用于小同环境要素的数学和物理方程等方法,对所得的监测数据进行深度剖析,做出详细的分析评价。这种数据分析方法主要适用于环境调查、环境规划和环评等工作。

(二)合理性分析

实际的环境监测中,影响环境要素变化的因素错综复杂,而有效的能用于综合分析的监测数据十分有限,所以我们需要考虑到各种环境要素之间的相互影响,以及监测项目之间的关系,理论结合实际全面分析数据的合理性,这样才可能得到准确可靠的、合理的监测数据分析结果。

二、提高环境监测数据分析质量的方法

为了促进环境执法工作的严肃和公正,在科学化环境管理政策中,提高环境数据分析质量很有必要。在前人的研究工作基础之上,我们提出了以下几种方法来提高数据分析质量。

(一)加强审核

加强各项审核是提高环境监测数据分析质量的重要方法,它主要是指加强对现有数据的综合审核。在进行例行监测或是年度监测计划时,我们的工作一般都是连续性的展开的,一年或是好几年,因此,我们可以建立一个动态的分析数据库,录入每次的监测数据,包括每个污染源的详细信息(污染点的地理位置和排放口的排污状况等),在以后的审核中,我们可以迅速地在数据审核中对于同一采样点、同一分析项目进行新旧数据的分析对比。当数据分析结果出现异常时,可以及时的发现并找到原因,这可以对污染应急事故的发生起到提前警示的作用。另外,在数据审核中,也要密切注意到同一水样、不同的分析项目之间的相关性,比如:同一水体中氟化物和总硬度、色度和pH的关系、氨氮和总氮之间的相关性等,这样也能及时发现数据分析中出现的误差。

(二)加强监督机制

通过调研我们发现,目前在传统的监测数据质量控制系统中依旧存在许多不足,我们可以通过引入反馈和交流机制,加强监督机制来有效提高数据分析的质量。首先,通过强化平面控制,在系统内部全面优化管理的模式,提高工作人员的分析技术水平,尽可能的减少或消除数据误差,以此来提高监测分析的准确性;其次,我们应该主动接受来自外界的监督,对于外界有异议的监测数据要进行反复的检测;再次,我们也应该多举办技术交流会,让技术人员可以与各级环境监测部门的人员沟通,学习他们的先进技术和方法,同时进行数据分析结果对比,找到自身的不足,发现问题并能及时更正。

(三)加强采样及实验室测量质量的控制

1.采样控制

工作人员在每次采样前,都应该根据实际环境情况来制定采样技术细则,做好采样控制,比如:需要校准仪器并确保仪器可以正常运转;使用的采样管和滤膜要正确安装,采样器干净整洁没有受到污染源的污染,其放置的位置也能满足采样要求等。采集好的样品,要妥善存放避免污染。如果样品不能及时进行检测,考虑到样品的稳定性,最好将样品密封并存放在于冰箱中。

2.实验室测量控制

在实验室进行样品测试之前,首先应该对所要用到的玻璃量器及分析测试仪器进行校验。日常工作中,也应该根据各种仪器保养规定,对仪器定期进行维护和校验,确保仪器可以正常运转工作。其次,需要准确调配各种溶液,特别是标准溶液,配置时要使用合格的实验用蒸馏水。测试数据时,先要测定标准样品并绘制标准曲线。测定样品时要检查相关系数和计算回归方程,并对实验系统误差进行测验,每一步都不能少。

三、结束语

第2篇:数据分析的方法范文

人们通常把分析学等同于仪表盘报告,但这太死板了,只能粗略地反映你的游戏表现。

这就是为什么行业越来越倾向于使用特定的玩家反馈和可执行的分析结果来指导游戏设计调整。

了解真实的玩家观点并不容易。对发行商和开发者而言,玩家、平台和设备类型多样化导致分析学的数据追踪成了一大挑战。

那就是为什么我们最近发表了《Analytics Driven Game Design》白皮书,旨在使这个过程更加简单和有效。

以下是一些重要的设计和执行建议:

1、提前收集数据

人们往往不会把执行分析学的数据标注当作优先任务。

这是错误的,因为数据收集一般要贯穿整个开发过程,需要的时间是执行的三到五倍。

2、尽早收集事件数据

当事件及其参数定义好时,开发者就可以确定什么时候需要什么数据了。

一开始就把这样的数据结构结合到代码中,可以保证当代码需要这些数据时就能有现成的数据。

如果把事件收集放在开发过程的末尾,通常只能收集到60%有价值的数据,这说明没有充分利用分析学。

3、统一视角

复杂的游戏通常涉及多个系统。例如,登录系统可能不同于支付系统,这意味着数据来源通常有两个:服务器和游戏客户端。

因此,有必统一视角,即使户ID与登录活动保持一致。

这样,分析时就可以忽略数据来源,把所有信息放在一起。

4、同步时间标记

类似地,因为事件数据来自多个来源、时区和应用商店,有必要使用同步时间标记,以确保观察玩家行为的视角能够保持一致。

发送客户端数据时通常使用本地时间标记,而服务器数据记录的通常是保存数据的时间。

如果两个时间标记不一样,就会很难知道真正的事件顺序,从而不利于建立玩家行为档案。

5、创建单一登录ID

将这个独特的ID与一次登录中发生的所有事件联系在一起,对高效分析特别重要。

如果事件发生后才关联数据,必然会导致误差和错误。

考虑到大量初次玩家留存分析学专注于第一次游戏,统一而准确地定义你的登录活动是很重要的。

6、总是记录结果

事件的目标应该是记录结果而不是变化。

换句话说,记录任务的结果比记录任务中的各种变化更好。例如,记录当玩家完成任务时获得了什么,即得到多少经验点或杀敌数,比记录每一次射击更实用。

7、数据完整性vs.数据优先级

第3篇:数据分析的方法范文

关键词: 关键词模板库; 景区舆情; 满意度; 评价数据

中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2017)03-62-03

Abstract: This paper puts forward a method of analyzing public opinion and satisfaction on the evaluation data of scenic spots based on tourist demand template. By means of keywords template library building and expansion based on the template of tourism demand, the paper analyses and builds the model of the public opinion and satisfaction on the evaluation data. It solves the problem that unstructured content such as tourists' travels and evaluation cannot be efficiently searched and utilized by other tourists. It can not only provide tourists with scenic spots' comprehensive satisfaction value, but also satisfaction values in the specific area of cuisine, housing, transportation, travelling, shopping, and entertainment, and even more specific related content of the satisfaction value in those six aspects. Thus it helps visitors quickly understand the evaluation of the various parameters of the area.

Key words: template library; public opinion of scenic spots; satisfaction; evaluation data

0 引言

随着经济的发展,现在已经进入旅游智能化阶段和大数据的时代,游客通常通过查看媒体互动分享评价来决定自己旅游计划。然而,传统游客在游记中对景区景点的评价内容是非结构化、离散的,即难以采用一定的算法对其进行有规律地提取和组织,从而导致不能采用计算机智能对其提取分类。然而游客对“吃、住、行、游、购、娱”的评价获取需求颇为急切,因此需要采用一种新的技术来实现游客评价的自动化提取并对大量的数据进行高效的有价值的分析[1-3]。

1 本文提出的方法步骤及特征

本文提出一种基于旅游需求模板的景区评价数据分析舆情满意度方法,主要有基于旅游需求模板的关键词模板库构建(见图1)、关键词模板库的扩充(见图2)和针对景区评价数据的舆情满意度分析计算三个步骤。该方法的特征在于:所述的旅游需求模板主要由内容大类关键词、内容子类关键词和情感关键词构成,每个内容大类关键词下分属有其对应的内容子类关键词,每个内容子类关键词下分属有其对应的情感关键词[4-5]。

1.1 基于旅游需求模板的关键词模板库构建

主要由基于旅游需求模板引导评价的内容大类关键词、内容子类关键词和情感关键词构成,每个内容大类关键词下分属有其对应的内容子类关键词,每个内容子类关键词下分属有其对应的情感关键词。

关键词模板库初始由列举而成,所述的内容大类关键词包括吃、住、行、游、购、娱的六个类别;所述的内容子类关键词是在内容大类关键词的基础上构建的;所述情感关键词是对内容子类关键词的描述性词语。

1.2 关键词模板库的扩充

关键词模板库的扩充具体是采用以下方式对内容子类关键词和情感关键词进行扩充:

⑴ 在已构建的关键词模板库基础上,通过网络爬虫工具在内容大类关键词所在段落文字附近搜索内容子类关键词,将找到的在已构建关键词模板库中不存在的内容子类关键词作为新的内容子类关键词,并加入到关键词模板库中;

⑵ 在已构建的关键词模板库基础上,通过网络爬虫工具在内容子类关键词所在段落文字附近搜索情感关键词,将找到的在已构建关键词模板库中不存在的情感关键词作为新的情感关键词,对新的情感关键词赋权值后加入到关键词模板库中。

1.3 针对景区评价数据的舆情满意度分析计算

所述针对景区评价数据的舆情满意度分析计算具体是:由扩充后的关键词模板库通过网络爬虫工具搜索景区下的文字数据,抽取出内容大类关键词所在段落文字附近的内容子类关键词,再搜索抽取出每个内容子类关键词所在段落文字附近的情感关键词,从而获得所有情感关键词及其每个情感关键词对应的内容子类关键词和内容大类关键词,然后构建景区舆情与满意度的分析模型,通过景区舆情与满意度的分析模型获得以平均满意度值作为该景区的舆情满意度值。

2 景区舆情与满意度的分析模型

⑴ 先采用以下公式计算获得文字数据中所有评论中的关于某一个内容子类关键词的满意度值:

其中,表示第i个内容大类关键词下第j个内容子类关键词的平均满意度值,t是分值(1~5),表示i个内容大类关键词下第j个内容子类关键词对应分值为t的情感关键词的数量,Bij表示第i个内容大类关键词下第j个内容子类关键词,B{B11,B12,B13…B21,B22,B23…}代表内容子类关键词集合。

⑵ 再采用以下公式计算获得文字数据中一个内容大类关键词的满意度值:

其中,表示第i个内容大类关键词的满意度值,表示第i个内容大类关键词下第j个内容子类关键词的权值,n表示第i个内容大类关键词下内容子类关键词的数量,A{A1,A2,…,A6}代表内容大类关键词集合。

⑶ 再采用以下公式计算获得该景区的综合满意度值:

其中,Y表示景区的综合满意度值,i表示内容大类关键词的序号,i取值范围是1~6,表示第i个内容大类关键词下的的权值。

3 具体实施方式

3.1 基于旅游需求模板的关键词模板库构建

⑴ 内容大类关键词构建,主要包括吃、住、行、游、购、娱几个大类。

⑵ 内容子类关键词构建,主要是在内容大类关键词的基础上构建,比如和内容大类关键词吃相关的内容子类关键词有饭店、餐馆、快餐店、小吃街等。

⑶ 情感关键词构建,主要是在内容子类关键词基础上构建,比如和内容子类关键词‘吃’对应的情感关键词有味道很好,价格实惠,环境优美等。

3.2 关键词模板库的扩充

⑴ 基于需求模板引导评价的内容子类关键词库扩充,通过网络爬虫工具在内容大类关键词附近搜索相关的内容子类关键词并与已有的模板库进行对比,遇到新的内容子类关键词后,自动加入到模板库,比如遇到与内容大类关键词吃相关的新的内容子类关键词野味店等。

⑵ 基于需求模板引导评价的情感关键词库扩充,通过网络爬虫工具八爪鱼采集器,在内容子类关键词附近搜索相关的情感关键词并与已有的模板库进行对比,遇到新的情感关键词后,自动加入到模板库。

⑶ 情感关键词均已由用户进行赋分,给出分值(1~5),比如非常好/棒极了/美妙极了,这三个情感词表达的满意度是相同的,对应的分值都是5分,一般/凑合/还行对应的分值则都是3分;差极了/难受死了/简直就是受罪/再也不会去了,对应的分值则是1分。

3.3 针对景区评价数据的舆情满意度分析计算

⑴ 根据已有模版库构建评价体系表。内容大类关键词和内容子类关键词的权重和情感关键词的分值以及相同分值评论数量如表1所示,表中{}表示第i个内容大类关键词下第j个内容子类关键词对应分值为t的情感关键词的集合。

⑵ 通过网络爬虫工具搜索景区网页的每个帖子,按内容子类关键词,搜索所有相关的情感关键词,根据表1进行分类统计,把相应的情感关键词的数量记录到对应到中。

比如:通过网络爬虫工具搜到网页得到1000个情感关键词,有600个是与内容大类关键词‘吃A1’有关的,其中300个是与内容子类关键词‘味道B11’有关的,对应的情感关键词集{}及数量如表2所示。

由内容子类关键词满意度计算公式可知该景区关于吃的味道的满意度值为:

即:该景区关于吃的味道的满意度值为3.6,同理可以计算其他内容子类的关键词的满意度值。

4 结束语

通过这种方法得到满意度值,解决了以往游客的游记、评价等非结构化内容难以被其他游客高效搜索利用的问题,除了可以向游客提供某个景区的综合满意度值外,还可以向游客提供该景区具体的关于吃、住、行、游、购、娱六个方面的满意度值,以及比吃、住、行、游、购、娱更具体的相关内容子类关键词的满意度值,让游客快速了解该景区的各个评价参数。

参考文献(References):

[1] 维克托.迈尔舍恩伯格著,盛杨燕,周涛译.大数据时代:生活、工作与思维的大变革[M].浙江人民出版社,2013.

[2] 马建光,姜巍.大数据的概念、特征及其应用[J].国防科技,2013.2:10-11

[3] 黄先开,张丽峰,丁于思.百度指数与旅游景区游客量的关系及预测研究-以北京故宫为例[J].旅游学刊,2013.11:93-100

第4篇:数据分析的方法范文

关键词:大数据分析方法;企业档案管理;档案数据资源;企业创新决策

Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprise’s these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.

Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making

2015年9月5日,我国政府了《促进大数据发展行动纲要》,旨在促进大数据和云计算、物联网、移动互联网等新一代信息技术的融合,探索大数据和传统产业发展新模式,推动传统产业转型升级和新兴产业发展。正如大数据专家舍恩伯格所说:大数据正在改变人们的生活和人们理解世界的方式,更多的变化正蓄势待发,大数据管理分析思维和方法也开始影响到我们企业档案管理的发展趋势。

1 大数据分析方法在企业档案管理中应用的背景

1.1 大数据研究逐渐纵深化。自从2008年science杂志推出Big Data专刊以来,国内外对大数据的研究如火如荼。经过一段时间的探索,“目前大数据领域的研究大致可以分为4个方向:大数据科学、大数据技术、大数据应用和大数据工程。而人们对于大数据技术和应用两个方面的关注比较多”[1]。正如2012年奥巴马政府投入2亿美元启动 “大数据研究和发展计划”的目标所显示的那样,目前大数据的研究逐渐向纵深化方向发展,着重从大型复杂的数据中提取知识和观点,帮助企业实现从“数据分析能力”向“数据决策能力与优势”的转化。

1.2 企业创新决策越来越依赖于数据分析。对于企业技术创新者而言,目前更多的企业高层越来越依靠基于数据分析的企业技术创新决策。靠传统的经验方法去决策往往是滞后的,因此,大数据分析方法作为先进的定量分析方法,目前出现的一些先进数据分析方法与技术势必会对企业的运行管理、生产业务流程、管理决策产生飞跃式的影响。大数据分析方法也成为企业档案数据分析、技术创新决策的有效工具。

1.3 企业档案为企业创新决策提供数据基础。对于一个企业而言,使用的数据资源必须具有真实性可靠性。“企业档案是在企业的各项活动中直接形成并保存备查的各种文献载体形式的历史记录”[2],企业档案是企业在生产、经营、管理等活动中形成的全部有用数据的总和。除了发挥着凭证参考维护历史真实面貌的作用之外,企业档案更“是企业知识资产和信息资源的重要组成部分”[3],具有知识创新性、不可替代性,为企业技术创新决策提供数据基础。“特别是在当前大数据背景下,企业档案数据资源的开发与建设对企业经营决策的制定与适应市场竞争环境起到关键性作用。”[4]

在上述背景下,将大数据分析方法应用在企业档案管理中具有重要性意义:不仅拓展企业的管理决策理论,同时帮助企业运用所拥有的档案数据资源洞察市场环境,发现新的竞争对手,进行自我总结,做出科学决策,使企业紧紧抓住大数据时代带来的市场机遇。

2 大数据分析方法在企业档案管理中应用的方式

大数据分析方法在企业档案管理中的实现方式即是将大数据分析方法运用在企业档案信息分析挖掘上。它贯穿企业数据处理的整个过程,遵循数据生命周期,广泛收集数据进行存储,并对数据进行格式化预处理,采用数据分析模型,依托强大的运行分析算法支撑数据平台,发掘潜在价值和规律并进行呈现的过程。常见的大数据分析方法“其相关内容包括可视化分析、数据挖掘、预测分析、语义分析及数据质量管理”[5]。

2.1 数据质量管理提升企业档案数据资源品质。大数据时代企业档案数据资源呈现出4V特点,这使得企业档案数据很容易出现不一致、不精确、不完整、过时等数据质量问题。基于数据生命周期对企业档案数据资源进行数据质量管理分为数据预处理、数据存储、数据使用三个阶段。在数据预处理阶段,通过ETL工具即数据经过萃取(Extract)、转换(Transform)、加载(Load)至目的端这几个预处理过程达到数据清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微软的Dynamics Integration及IBM的Data Integrator都是比较常见的ETL工具。在数据存储与使用阶段,针对目前企业档案大数据呈现出4V的特点,传统关系型数据库在数据存储与数据管理方面已经难以胜任,非关系型数据库以其高吞吐量、可拓展性、高并发读写、实时性等特性能够满足数据存储与管理的要求。目前应用最广的是并行处理系统MapReduce和非关系型数据库比如谷歌的Big Table和Hadoop的HBase。将ETL工具移植入云计算平台系统,将会大大有助于完成数据清洗、重复对象检测、缺失数据处理、异常数据检测、逻辑错误检测、不一致数据处理等数据质量处理过程,从而保证企业档案数据资源的数据质量。

2.2 可视化分析提升企业档案数据资源可理解性。

“大数据可视分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。”[6]那么企业档案数据资源的可视化分析可以理解为借助可视化工具把企业档案数据资源转化成直观、可视、交互形式(如表格、动画、声音、文本、视频、图形等)的过程,便于企业经营者的理解利用。

以2015年2月15日最新版的“百度迁徙”(全称“百度地图春节人口迁徙大数据”)为例,该项目让我们近距离了解到大数据可视化。它利用百度后台每天数十亿次的LBS定位获得的数据进行计算分析,全程展现中国人口迁徙轨迹,为政府部门科学决策提供科学依据。受该项目启发,企业可将拥有不同类型的档案信息进行可视化,比如进行企业档案的网络数据可视化、时空数据可视化、时间序列数据可视化、多维数据可视化、文本数据可视化等[7]。以文本数据可视化为例,目前典型的文本可视化技术标签云,可以将档案文本中蕴含的主题聚类、逻辑结构、词频与重要度、动态演化规律直观展示出来,为企业决策提供依据。另外,常见的信息图表类可视化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;时间线类可视化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;数据地图类可视化工具主要有Leaflet、Google fushion tables、Quanum GIS等。这些新技术都为企业档案数据资源可视化提供了科学工具。

2.3 语义引擎实现企业档案数据资源的智能提取。大数据时代全球数据存储量呈激增趋势,传统的基于人工分类目录或关键词匹配的搜索引擎(谷歌、百度等)仅仅能够进行简单的关键词匹配,用户无法得到非常准确的信息,检索准确率并不高,而且检索结果相关度较低,检索结果缺乏引导性。为提供给用户高质量的检索结果,改善用户搜索体验,提高效率,实现智能提取,语义搜索引擎应运而生。“语义引擎是随着语义网的发展,采用语义网的语义推理技术实现语义搜索的语义搜索引擎。”[8]它具备从语义理解的角度分析检索者的检索请求,能够理解检索者的真正意图,实现信息智能提取。对语义分析可以采取自然语言处理方法进行概念匹配,提供与检索者需求相同、相近或者相包含的词语。目前存在基于本体的语义处理技术,它以本体库作为语义搜索引擎理解和运用语义的基础。对于企业而言,将语义引擎分析方法与协同过滤关联规则相结合,可以挖掘用户的需求,提供个性化的服务。比如亚马逊公司通过对用户检索的语义进行分析推理,结合协同过滤关联规则,为用户提供相近需求的产品,提升自己的经济效益。对于一份人事档案而言,语义引擎也能分析出该份人事档案中的某人的职务、级别,从中提取出姓名一职务一级别一时间等关键信息,提高检索准确率和效率,实现智能提取。

2.4 数据挖掘发现企业档案数据资源的隐性价值。“数据挖掘又称数据库中的知识发现”[9]。简而言之,数据挖掘就是企业从数据集中发现知识模式,根据功能一般分为预测性模式和描述性模式,细分主要有分类与回归模型、聚类分析模型、关联规则模型、时间序列模型、偏差检测模型等。主要挖掘方法有神经网络方法、机器学习方法数据库方法和统计方法等。

数据挖掘是大数据分析方法的核心。对于企业而言,数据挖掘的档案数据资源应该由两部分组成:一是企业正常运行管理过程中所形成的档案数据资源,通过运用分类、聚类、关联规则等方法对企业内部的数据进行挖掘,发现潜在模式,为企业技术创新人员决策提供支持。比如在2004年全球最大的零售商沃尔玛在分析历史记录的顾客消费数据时,发现每次季节性飓风来临之前,手电筒和蛋挞的数量全部增加。根据这一关联发现,沃尔玛公司会在飓风用品的旁边放上蛋挞,提升了企业的经济效益;二是企业在运行过程中遗存在互联网上的数据,通过网络舆情及时跟踪可以获取市场最新动态,为企业调整服务模式、市场策略、降低风险提供依据。比如Farecast公司运用数据挖掘,从网络抓取数据来预测机票价格以及未来发展趋势,帮助客户把握最佳购买时机,获得较大成功。

2.5 趋势预测分析实现企业档案数据资源的价值创造。“预测分析是利用统计、建模、数据挖掘工具对已有数据进行研究以完成预测。”[10]预测分析的方法分为定性与定量分析两种方法:定性分析如德尔菲法以及近年来人工智能产生的Boos-ting・贝叶斯网络法等;定量分析法一般从形成的历史数据中发掘数据模型达到预测效果,如时间序列分析模型、分类与回归分析模型等。

企业档案数据资源预测分析是在企业档案数据资源数据挖掘的基础之上,发现适合模型,将企业档案数据输入该模型使得企业技术创新人员达到预测性的判断效果,实现价值的创造。一个典型的例子即是市场预测问题,企业技术创新者可以根据档案数据预测某件产品在未来六个月内的销售趋势走向,进而进行生产、物流、营销等活动安排。具体来讲企业可以通过数据时间序列分析模型预测产品销售旺季和淡季顾客的需求量,从而制定针对独特的营销策略,减少生产和销售的波动性,获得利润和竞争优势。预测分析在大数据时代彰显出企业档案数据资源独特的魅力。

3 大数据分析方法运用于企业档案管理中应当注意的问题

3.1 成本问题。大数据分析需要依靠分析工具和运算时间,特别是在复杂的企业档案数据资源中采用相关大数据分析工具的科技成本还是很高的,要以最少运算成本获得更有价值的数据内容。合理选择大数据分析工具不光可以节省运算成本而且能够更快速获取盈利增长点,同时在大数据分析和企业档案数据资源的存储成本方面也要适当的控制在合理的范围内。既要保证大数据分析质量,又要降低企业档案存储成本是大数据分析方法运用到企业档案管理中的重要原则。

3.2 时效问题。“大数据的动态性强,要求分析处理应快速响应,在动态变化的环境中快速完成分析过程,有些甚至必须实时分析,否则这些结果可能就是过时、无效的”。[11]由此可见,影响大数据分析的重要因素就是时效性问题。“大数据数据分析的核心内容之一是数据建模”,[12]数据分析模型要不断的更新适应数据的动态变化。如果模型落后于数据的变化,那数据分析只能是失效的。同时由于经济环境、政治生态、社会文化等因素不断变革,企业档案数据的收集也会产生新的问题。只有不断加强对这些数据的实时监测和有效分析,才能更好的识别出数据变化中的细微之处,建立与之相适应的数据分析新模型。

3.3 情感问题。“大数据的另一个局限性在于它很难表现和描述用户的感情。”大数据分析方法在处理企业档案数据方面可以说如鱼得水,大数据分析是一种科学的机器运算方法,无法去实现人文价值提取,比如如何从企业档案数据资源中提取企业文化,这更需要人的情感直觉去实现,而严谨的科学数据是无法实现的。因此,我们在热衷于大数据分析方法的量化结果时,同时也不要忽略在传统企业档案管理中的那份人文精神。

第5篇:数据分析的方法范文

我们在教学的过程中,也比较比较注重案例教学。例如,在讲授神经网络时,我们可以用上海证券交易所中股市中股票随时间变化的数据为例,让学生讨论如何应用神经网络对股票价格进行预测。人工神经网络是一种模仿自然界动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,能够较好地处理具有一定复杂性的数据,在预测、拟合等方面取得了很好的应用效果。让学生采用神经网络进行实际数据分析和处理,可以增强他们学习的积极性,更主动地投入到学习中去。我们也要求他们使用回归分析的方法对股票价格进行预测,然后和神经网络预测的结果进行比较。通过这个过程,可以使学生们不但了解了神经网络与回归分析算法的异同,加深他们对神经网络的认识。

加强实验教学,增强学生动手能力

信息与计算科学专业是以信息领域为背景,数学与信息、管理相结合的交叉学科专业。该专业培养的学生具有良好的数学基础,能熟练地使用计算机,初步具备在信息与计算科学领域的某个方向上从事科学研究,解决实际问题,设计开发有关软件的能力。毕业生适合到企事业单位、高科技部门、高等院校、行政管理和经济管理部门,从事科研、教学和计算机应用软件的开发和管理工作,也可以继续攻读信息与计算科学及相关学科的硕士学位。从信息与计算科学专业的培养目标可以看出信息与计算科学专业的本科生不但需要掌握理论知识,还需要具有将所学知识用来解决实际问题的能力。数据挖掘作为一门应用性较强的课程,需要学生能够运用数据挖掘知识分析和解决实际问题,要求学生能够熟练掌握数据挖掘的程序设计,以便在将来的就业中具有更好的适应性,因此实验环节的教学有着其必要性。基于这些原因,我们在这门课中引入实验环节,并将其纳入考核要求。我们实验所用的基本软件是SAS统计分析软件。SAS软件是一个集统计分析、报表图形、信息系统开发和大型数据库管理等多种强大功能为一体的大型软件系统,是目前国际上主流的统计分析软件之一。我们信息专业在大三时开设这门课程,之前已经学过C语言和JAVA等程序设计方法,有了一定的编程基础,因此学习使用SAS软件并不是特别困难。而且,在SAS软件中,系统自带了许多数据挖掘函数,这方便了同学们的使用。我们在平时的学习中,将一些SAS软件的基本程序设计基础知识先发给同学们,让他们利用课后时间自己在个人电脑上进行熟悉,从而使得他们熟悉基本SAS程序设计方法,这样可以在实验课上直接运用SAS软件进行数据挖掘程序的编写。在实验课上,我们主要将要实验的内容和相关数据资料提供给同学,要求同学自己用数据挖掘的知识和SAS软件进行编程实现,并写出实验分析和小结。另外,在实验中,我们也要求学生尽可能将一些实验结果用图表的形式如崖底碎石图等表示出来,以利于进一步分析。对于少部分学有余力的同学,我们也引导他们自编相关的程序。比如说在SAS软件中进行K-均值聚类用fastclus这个函数就可以了,但是学生对程序具体实现过程可能不是很清楚。如果学生能够将程序K-均值聚类详细程序步骤自己编写出来,就可以表明学生对所K-均值聚类算法也有了较清楚的认识。另外,对于属于数学建模协会的同学,我们也引导他们将数据挖掘的知识和数学建模中某些问题相结合起来,对于以往出现的一些可以利用数据挖掘知识分析的问题让他们利用相关的数据挖掘知识对其进行分析和求解,通过这样的方式,可以这样拓展这些同学的思路,也为数学建模培养了人才。

灵活的课后作业形式,提高学生的综合能力

第6篇:数据分析的方法范文

关键词:数据源分解 回归测试 需求版本 数据实体

中图分类号:TN967 文献标识码:A 文章编号:1674-098X(2016)12(a)-0096-02

吉林移动的业务运营支撑系统规模庞大、结构复杂、内部的关联关系复杂。由于业务发展变化迅速,信息化系统也会做频繁的版本变更,对系统变更的质量保障至关重要。

对系统版本变更的交付测试验证,是系统质量保障的重要手段,不仅仅要测试当前变更的功能,还要分析当前变更的功能有哪些关联影响,对于被影响的业务、功能,要执行业务回归测试,以减少系统上线的质量漏洞。

1 现有判定业务回归测试范围方法存在的缺点

目前业务回归测试范围的确定主要依赖于测试人员积累的经验,根据经验判断要做哪些相关业务、功能的回归测试。这些经验缺少基于可靠数据的量化分析。

通常系统版本上线时间要求都非常紧,不可能做全面的业务回归测试,而业务回归测试范围确定不准确,会导致质量验证的漏洞,严重影响系统可靠性。

2 基于数据源分解判定业务回归测试范围的方案

该方案是建立回归测试范围数据分析模型,该模型包括:全业务数据源分析引擎、需求版本数据源识别引擎、回归测试范围数据源多元比对引擎,旨在提出一种基于数据源分解的可量化的业务回归测试范围分析模型。

2.1 全业务数据源分析引擎

其是将业务运营支撑系统中所有的业务功能、源程序、数据结构等,通过数据源之间的调用关系寻找它们的依赖关系,包括:

(1)将业务运营支撑系统全业务数据源按数据源类型分类。(2)利用Java中的BufferedReade和FileReader进行递归运算遍历业务运营支撑系统全业务数据源,组建全业务数据源关联关系模型,确定业务运营支撑系统数据源的范围边界。(3)将遍历后得到的关系结果存储到数据库中。

2.2 需求版本数据源识别引擎

主要通过需求版本重叠探测器、需求版本属性识别器、需求版本规则识别器三方面。

(1)需求版本重叠探测器:判定需求版本是否与版本库需求重叠提交,避免工作资源的浪费。(2)需求版本属性识别器:确定并记录需求版本所对应的各类数据源的修改点。(3)需求版本规则识别器:利用全业务数据源分析引擎解析需求版本所对应数据源之间的依赖关系。

2.3 回归测试范围数据源多元比对引擎

采用ORACLE数据游标指针技术作为源数据的比对方式。

3 主要技术实施方案描述

下面对基于数据源分解判定业务回归测试范围在业务运营支撑系统的实际应用中所采用的技术实施方案进行描述,包括三个方面。

3.1 全业务数据源分析引擎描述

将业务运营支撑系统的全业务数据源分为5类:业务功能、源程序、函数与结构体、数据实体、实体字段,把全业务源数据分解为若干的部分。

利用Java中的BufferedReade和FileReader进行递归运算遍历业务运营支撑系统全业务数据源,组建全业务数据源关联关系模型。利用Java程序编写递归函数,对现有业务运营支撑系统全业务涉及的所有源数据进行读取。利用源数据分类及每个类别所特有的关键字对源数据进行解析。将遍历后得到的关系结果以多维变长数据形式存储到数据库中,作为技术数据保存。

3.2 需求版本数据源识别引擎描述

其包含需求版本重叠探测器、需求版本属性识别器、需求版本规则识别器三方面,通过以下技术措施一并实现。

建立业务运营支撑系统需求版本属性识别器。确定并记录需求版本所对应的各类数据源的修改点,包括软件版本变更的内容清单(变更的功能,变更的程序,变更的数据实体)。通过需求版本属性识别器,将变更的数据源名称入库,并对该次需求版本变更的数据源通过全业务数据源分析引擎解析入库。利用自动化版本比对,得到修改点。将结果同样以多维变长数据存储到数据库中,作为全业务数据源分析引擎结果比对的基础数据。

3.3 回归测试范围数据源多元比对引擎描述

采用数据游标指针技术对源数据进行笛卡尔乘积运算比对。确定全业务数据源与需求版本数据源比对范围。包括:程序比对、函数比对、机构体比对、关键字比对、数据实体比对、数据字段比对。利用数据库技术将需求版本数据源识别引擎所分析的结果,逐一与全业务数据源分析引擎的全业务关联关系进行比对。一个系统功能与多个应用程序/函数/数据实体相互对应,而多个应用程序/函数/数据实体也同样对应一个或多个系统功能/应用程序,这样逐个数据源分解就会形成一个网状结构,众多的全业务数据源与需求版本数据源交织在一起,构成了它们之间存在的必然关联,形成了基于数据源分解判定业务回归测试模型的核心部分。这也正是这个技术专利的关键所在,随意触发一个需求版本的数据源,都可以透过这些关联将与其密切关联、受其影响的系统功能/应用程序及数据实体轻易找到,从而保证了回归测试的完整性及准确性。

4 基于数据源分解判定业务回归测试范围的优点

采用基于数据源分解判定业务回归测试范围的方案后,有效降低了软件版本升级对原有系统的不确定性影,大幅提升了系统的可靠性和稳定性。

4.1 业务回归测试范围分析有可靠的数据依据

通过数据源分解可以对系统全业务涉及的所有数据源进行分析,保证了基础数据的最大范围,避免了数据源的遗漏,有效提高了业务回归测试的覆盖度,从而提高了对系统交付测试验证的质量,减少了质量漏洞,降低了需求版本上线风险。

4.2 业务回归测试范围分析效率的提升

现有技术方案采用人为经验判断及人工读取代码的方式进行,而该方案采用的是计算机智能数据源分解自动化处理的方式。一个经验丰富的开发人员每分钟编写代码约30行,读取代码约60行,而该发明采用计算机自动分析每分钟分析数量8 500行左右,是人工分析的140倍。该方案随着硬件性能的提升,具备更大效能提升的空间。

4.3 业务回归测试范围分析知识可持续积累和复用

采用数据源分解的业务回归测试范围、测试方案管理可以有效地形成知识的积累和沉淀,并借此创建知识库,有助于业务人员、测试人员水平的快速提高及知识传递。

参考文献

[1] 王轶辰.软件测试从入门到精通[M].电子工业出版社,2010.

第7篇:数据分析的方法范文

【关键词】 数据挖掘; 财务分析; 神经网络

一、前言

数据挖掘技术是人们长期对数据库技术进行研究和开发的成果。数据挖掘(DM,DataMining)的概念产生于20世纪80年代末,在90年代获得了长足的发展。目前,数据挖掘技术已经应用到市场分析、政府管理、医疗卫生、科学探索、金融、财经领域中并取得了一定的实效。

财务数据挖掘是一种新的财务信息处理技术,其主要特点是能对会计数据库及其它业务数据库中的大量数据进行抽取、转换、分析及其他模型化处理,从中提取辅助决策的关键性数据。在企业的财务状况分析中应用数据挖掘技术,报表使用者可以节省大量的时间和精力去关注更有用的信息,帮助报表使用者找出隐藏的、未知的、但对了解企业经营状况十分有用的信息。

二、应用于财务分析的数据挖掘方法

现有研究中,应用于财务分析的数据挖掘方法主要有以下几种:

(一)神经网络

神经网络主要应用于财务危机预测和财务状况评价两方面。

1.财务危机预测

目前神经网络在财务危机预测的应用中主要集中在模型的建立和优化上。在模型建立方面,通过选取一定的样本包括ST公司和非ST公司,选取其中一部分作为训练集,其余的作为测试集。先对训练集进行归一化处理,再运用神经网络算法建立模型,为了验证模型的预测准确率,用测试集检验模型的预测结果。

在模型优化方面,一方面不断改进指标的选取,通过一定的统计方法客观选取指标,降低主观性,提高模型的预测准确性;另一方面不断改进神经网络算法,把不同的技术引用到模型中从而不断优化模型。

2.财务状况评价

神经网络运用到企业财务状况评价时,首先都是建立系统的评价指标体系,然后在神经网络结构和算法研究的基础上,通过样本对网络进行训练,最后得到稳定的结构和权值,从而建立模型。

(二)模糊集理论

目前有关模糊集理论在财务分析的应用主要集中在模糊综合评价法在企业财务状况评价的应用。在运用模糊综合评价法建立评价模型时,首先要确定因素集,因素集为各种指标体系的集合;其次要确定权重集,权重的确定主要有市场调查法和德尔菲法;再次要建立等级评价标准,评价等级集是评价者对评价对象可能做出的各种评价结果所组成的集合;最后建立模糊评价矩阵,经过运算得到评价结果。

在运用模糊集理论建立评价模型时,一方面需要根据企业的具体情况建立因素集和权重系数矩阵,具有一定的客观性;另一方面评价集以隶属度的方式表示,使其评价结果留有余地。

(三)决策树

决策树在财务方面主要应用于财务预警方面。利用决策树进行数据挖掘建模,首先需要进行变量的指定,一般把上市公司是否“特别处理”为目标变量,已选定的财务指标为输入变量;然后运用软件建立模型;最后要根据检验样本进行检验。

决策树作为一种数据挖掘技术运用到财务预警中具有较好的预测效果。目前,利用决策树进行财务预警处于起步阶段,如何更好的应用决策树有很大的研究空间。但是决策树的输出变量只能有两个,只能简单的预测评价企业财务状况好或者不好。

(四)遗传算法

现有的研究一般把遗传算法和神经网络结合在一起,通过遗传算法的全局寻优能力,建立财务困境预测的遗传神经网络模型,该模型利用遗传算法对输入变量进行了优化,比单纯的神经网络模型具有更好的预测能力。

遗传算法主要适用于数值优化问题,在财务分析中主要运用于具体的问题中,例如内涵报酬率的分析和证券组合选择分析,它作为一种解决数值优化问题的算法,在数值优化问题中有广阔的应用前景。

(五)粗糙集

粗糙集理论目前主要运用在财务危机预测中。首先是财务指标的筛选过程,通过计算条件属性和决策属性的依赖度,进而确定各条件属性相对于决策属性的重要程度,并根据重要程度对其进行条件属性约简;之后,确定筛选后进入预测模型的财务指标的权重,对财务指标重要程度做归一化处理后得到权重;最后,得到基于粗糙集理论的综合预测模型,应用预测模型计算对象的综合预测值。通过实证分析可以看出与传统判别模型进行比较,基于粗糙集理论的模型预测效果更好。

(六)聚类分析

聚类分析主要是对事先不知道类别的数据进行分类,目前对于聚类分析的研究集中到模糊聚类分析。

在对企业财务状况进行评价时,大多是运用模糊聚类分析方法,选取一定的财务状况评价指标,建立模糊聚类分析模型,进行实证分析,形成模糊聚类图,再将具有财务状况相似性的行业进行归类。

三、数据挖掘方法评析

从现有基于数据挖掘的财务分析方法可以看出,它们都是以财务报表为基础,因而存在以下问题:

(一)数据采集欠缺真实和滞后

企业为标榜业绩,常常粉饰财务报告、虚增利润,使财务报告中的数据丧失了真实性,在此基础上进行的财务分析是不可靠的。此外,财务报告一般是半年报和年报,半年报在半年度结束之后两个月内报出,年报在年度结束后四个月内报出,缺乏及时的信息跟踪和反馈控制,存在明显的滞后性,在这个基础上进行财务状况分析具有一定的局限性,从而影响分析的结果。

(二)数据挖掘范围广泛性不足且分析方法片面

现有的财务状况分析在根据财务信息对企业财务状况进行定量的分析预测时缺乏非财务信息的辅助分析,使信息涵盖范围不够广泛。而且,现有的财务状况分析方法都不能很好的把定性分析与定量分析相结合。

四、数据挖掘在财务分析应用的改进

(一)在数据采集方面

不再是以财务报表的资料为数据源,而是从企业中采集原始数据,提高数据的可信度。当然,会计信息数据也可以有多种表现形式,可以是传统的关系数据库、文本形式的数据,也可以是面向对象的数据库以及Web数据库等。另外,利用XBRL和WEB挖掘等技术加入了非财务信息和外部信息。这样,财务分析所需要的财务信息、非财务信息和外部信息可以分别从会计信息系统、管理信息系统和Internet采集。

实时数据库的建立使实时数据挖掘成为可能,为企业财务状况分析的准确性提供了技术支持。实时数据库是数据库系统发展的一个分支,它适用于处理不断更新的快速变化的数据及具有时间限制的事务。XBRL开始广泛的应用,将会促进实时数据采集问题的实现。

(二)在数据挖掘过程中

应综合运用数据挖掘的各种技术,对净化和转换过后的数据集进行挖掘。将非财务信息纳入考察范围,以扩充信息的涵盖范围。

实际运用中,定性分析和定量分析方法并不能截然分开。量的差异在一定程度上反映了质的不同,由于量的分析结果比较简洁、抽象,通常还要借助于定性的描述,说明其具体的含义;定性分析又是定量分析的基础,定量分析的量必须是同质的。在需要时,有些定性信息也要进行二次量化,作为定量信息来处理,以提高其精确性。

【参考文献】

[1] 康晓东.基于数据仓库的数据挖掘技术[M].北京:机械工业出版社,2004:131-148.

[2] 李建锋.数据挖掘在公司财务分析中的应用[J].计算机工程与应用,2005(2).

[3] 姚靠华,蒋艳辉.基于决策树的财务预警[J].系统工程,2005(10):102-106.

[4] 林伟林,林有.数据挖掘在上市公司财务状况分析中的应用[J].市场周刊,2004(10).

第8篇:数据分析的方法范文

关键词:经典功率谱估计;现代功率谱估计;飞行试验

1 概述

当飞机在闭环补偿跟踪任务中飞行时,飞机飞行品质的一种量度是它的稳定裕度,因而将在不危及稳定性的情况下可以进行闭环跟踪的最大频率定义为频宽。频宽是衡量最大频率的一个指标,它对高增益飞机特别有用,不论是对驾驶员操纵力和操纵位移的俯仰姿态响应还是根据航向角或者横向航迹角对座舱直接力空中输入的开环频率响应,它都可以在这个频率条件下实现闭环跟踪而不需要驾驶员提供有利的动态补偿且不对稳定性构成恶化[5]。因此,在飞行试验的数据分析中,获取精准的飞机响应的频域特性尤为重要,这就需要首先对操纵输入信号进行功率谱估计,本文列出4种功率谱估计方法,并用这些方法对飞机的输入激励信号进行谱估计,以便得到适用行品质频域准则评估的频域特性。功率谱估计可分为经典谱估计和现代谱估计。

2 经典谱估计

功率谱密度是一种概论统计方法,是对随机变量均方值的量度。平稳信号的自相关函数的傅立叶变换称为功率谱密度。实际中采用有限长的数据来估计随机过程的功率谱密度[2、3]。

2.1 周期图法

周期图法是信号功率谱的一个有偏估计,它对观测到的有限长序列x(n)求其N点离散傅立叶变换XN(ej?棕),再取其模值的平方除以N,得到计算公式:

周期图法是基本的功率谱估计方法,计算简便,计算效率高,但是当数据长度N过大时,功率谱曲线起伏加剧,当N过小,谱分辨率较差。

2.2 加权交叠平均法(Welch法)

Welch法是对随机序列分段处理,使每一段部分重叠,然后对每一段数据用一个合适的窗函数进行平滑处理,最后对各段谱求平均。这样可以得到序列x(n)的功率谱估计:

(n)是窗函数[1],由于各段数据的交叠,数据段数L增大,从而减小了方差,另外,通过选择合适的窗函数,也可使遗漏的频谱减少,改进了分辨率。因此这是一种把加窗处理和平均处理结合起来的方法,它能够满足谱估计对分辨率和方差的要求,但是如果信号数据过短,也会无法进行观测。

3 现代功率谱估计

现代功率谱估计分为参数模型法和非参数模型法。

3.1 参数模型法(AR模型的Burg法)

参数模型法是将数据建模成一个由白噪声驱动的线性系统输出,并估计该系统的参数。最常用的线性系统模型是全极点模型,也就是一个滤波器,这样的滤波器输入白噪声后的输出是一个自回归(设AR模型的冲击响应在方差?滓2的白噪声序列作用下产生输出,再由初值定理得到:

这就是AR模型的Yule-Walker方程。本文采用的是该方程的Burg法,即先估计反射系数,然后利用Levinson递推算法,用反射系数求AR参数。Burg法在信号长度较短时能够获得较高的分辨率,并且计算高效。

3.2 非参数模型法(多窗口法)

多窗口法也叫做Thompson Multitaper Method,MTM法,它使用一组最优滤波器计算估计值,这些最优FIR滤波器是由一组离散扁平类球体序列(DPSS)得到的,除此之外,MTM法提供了一个时间-带宽参数,它能在估计方差和分辨率之间进行平衡。因此,MTM法具有更大的自由度,在估计精度和估计波动方面均有较好的效果,其增加的窗口也会使序列两端丢失的信息大幅减少[7]。

4 实例分析

本文采用Matlab计算,输入信号使用飞行试验中常用的扫频和倍脉冲信号。通过Matlab中的谱估计函数方法[4、6],编写程序对给定的输入信号分别进行周期图法、Welch法、Burg法和MTM法的谱估计并分析。估计结果如图1、图2所示:

从图1、图2可以看出:

(1)周期图法得到的扫频功率谱曲线起伏大,倍脉冲信号的频谱分辨率低;(2)Welch法明显改善了周期图法的不足,方差性能得到很大的改善,只要窗函数选取适当,可减少频谱泄露。图中可见Welch法的谱估计曲线比较光滑,在飞行品质关注的频段频谱分辨率高;(3)Burg法的曲线平滑性好,频谱分辨率高,但是其谱峰窄而尖,在飞行品质关注的低频段频谱并不理想,也就是不能在所需的频段内产生足够的能量;(4)MTM法得到的结果介于周期图法和Welch法之间,但是对于时间序列较长的信号,MTM法的功率谱曲线起伏较大,分辨率变低。

5 结束语

通过4种功率谱估计方法对飞机输入激励信号的谱估计分析,采用Welch法得到了更有效的输入信号的谱估计,得到的频域特性能够更好地进行飞行品质频域准则的评估,这对飞行品质的等级界定提供了有效的依据。

参考文献

[1]Mark B.Tischler,Robert K.Remple.Aircraft and Rotorcraft System Identification.AIAA,Inc,2006.8.

[2]杨晓明,晋玉剑,等.经典功率谱估计Welch法的MATLAB仿真分析[J].电子测试,2011,7(7):101-104.

[3]王春d.基于MATLAB实现经典功率谱估计[J].曲阜师范大学学报,2011,4(2):59-62.

[4]邓泽怀,刘波波,李彦良.常见的功率谱估计方法及其Matlab仿真[J].电子科技, 2014,2(27):50-52.

[5] GJB2874-97.电传操纵系统飞机的飞行品质[S].国防科学技术工业委员会,1997,12.

[6]杨高波,杜青松.MATLAB图像/视频处理应用及实例[M].北京:电子工业出版社,2010,1.

第9篇:数据分析的方法范文

[关键词]分布式存储 大数据 平安城市 智能分析 告警 运维 集群

中图分类号:TP393 文献标识码:A 文章编号:1009-914X(2016)04-0308-01

一、 运维系统总体概述

运维系统作为平安城市的重要一个环节,主要就是对平安城市相关设备的监控,实现对摄像头的上下线、高度、暗度、清晰度、雪花、色偏、条纹、冻结、抖动、遮挡的监控;实现对机房设备(UPS,空调,门禁,烟感,测漏,温感)的实时监控和告警的接受及处理;实现对服务器等设备的实时监控和智能分析。然而系统每天接受告警和实时数据多达5万条,可是高效的存储和读取数据已经成为传统数据库的难点。所以本系统采用分布式存储方法,实现数据的高效插入和读取,大大优化了用户的体验效果。

二、 分布式存储说明

传统的数据存储主要采用集中存储,把所有的数据存储在一个存储服务器中,然而大量数据的集中,导致了系统性能的下降,可靠性和安全性也成为了焦点。

分布式存储,就是通过集群,提高系统的可靠性、可用性和存取效率。简单的说,就是将大量数据分别存储在不同的设备上。分布式存储采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。如图1

三、 实现过程

运维系统监控数据主要分两种,设备告警数据和设备实时数据。实时数据主要是方便查看设备的当前状态,并可以通过告警配置,系统经过智能分析判断设备是否出现故障,如果出现故障则产生告警;告警数据则是由设备自动推送告警,并在运维系统中加以处理。具体实现如下:

一、集群搭建,服务添加

建立由几台服务器并行的计算集群环境,并配置计算节点和数据节点服务器。配置其中1到2台服务器为管理节点和计算节点,其他服务器为数据节点。安装与集群环境版本匹配的数据访问中间件,开发计算器安装数据访问中间件的客户端,可以做可视化的数据操作。

二、设计运维告警数据存储结构,并建立索引

1、根据告警的处理和设备性质,告警设置的字段主要有:“报警名称”、“报警级别”、“报警来源”、“报警种类”、“报警时间”、“设备名称”、“设备类型”、“处理状态”、“处理时间”等存储字段。

2、索引的建立。“报警级别”、“报警种类”、“设备名称”、“设备类型”、“处理状态”,这四个字段为最常用查询字段,所以由这4个字段建立分布式可变索引。可变索引可以随着数据插入自动更新索引数据,数据通过LSM树的数据结构存储在分布式数据库。结构例如:1001+1001002+“服务器001”。

由于分布式存储数据对设备名称的模糊查询效率较低,于是针对设备名称建立的分布式索引。将设备名称的分布式索引存储在集群中的分布式文件系统中。例如:设备名称:服务器001,在分布式索引中建立的索引是:“服、服务、服务器、服务器0、服务器00、服务器001、务、务器、务器0、务器00、务器001、器、器0、器00、器001、0、00、001、01 1 ” 。

3、分布式索引。生产环境下,由多台服务器组成的分布式集群使用的是分布式文件系统。如果将索引文件建立在一台服务器上,则不能体现设备名称的分布式处理。为了保证整个查询过程的高效性,同样需要把索引文件分布式的存储在整个集群中。

用户在输入一个字符之后,即可通过分布式索引文件的查询返回包含该字符的10个设备名称。返回设备名称之后,系统根据最相似的设备名称进行全字段匹配查询,从而提高整体的查询速度。

三、设计运维系统实时监控数据存储结构,并建立索引

1、根据实时监控的需要,实时数据字段主要有:“机房ID”、“设备ID”、“监控时间”以及各种设备参数字段。

2、索引的建立。由于实时监控查询相对简单,直接建立“机房ID”、“设备ID”索引就可以满足用户的需求了,在这里面就不在多做阐述。

四、接入各设备信息数据

经过数据合法性和业务处理,数据通过中间件入库,自动更新索引表,同时更新设备名称的分布式索引。

五、数据的读取和业务处理

程序查询条件包含对索引的字段进行查询,可在100毫秒之内返回相应数据。如图2

参考文献

[1] 《大规模分布式存储系统:原理解析与架构实战》 杨传辉.

[2] 《大型分布式网站架构设计与实践》 陈康贤.