前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据分析设计主题范文,仅供参考,欢迎阅读并收藏。
关键词:类;DataLine;Translator;DataDrawer
航空设备数据分析一直是一个难题,因为数据按ICD协议上传,需要转化为可读数据才能分析设备的运行状态。但是设备的上传速率一般在毫秒级,所以设备运行一个小时可以输出上百兆的数据,人工分析这些数据费时费力且错误率高,容易错过关键数据。
针对这种情况,作者设计了一种专门分析设备上传数据的软件(简称数据分析软件)。使用数据分析软件处理百万行的数据只需要不到一分钟的时间,而且该软件可以将数据制成曲线,可以更容易地捕捉到关键数据。
1 数据分析软件
数据分析软件包含两个模块:数据转换模块和数据绘制模块。
1.1 数据转换模块
1.1.1 时间类
航空设备上传的数据一般以时间为基准,因此数据转换时需要保留原始数据的时间信息,这样才能将数据绘制成以时间为X轴的曲线。时间类的定义如图1:
基类Time继承了IComparable接口,所以Time类重载了 “!=”,” ”,”==”四个操作符,这样Time类的对象之间可以比较大小,所以转换后的数据可以按时间前后排序。
1.1.2 数据类
在数据分析软件中,数据是以行为单位的,每一行数据有多个域,不同行数据的域名相同,域内的数据不同。数据行类定义如图2。
DataLine的对象代表一行转换后的数据,ToString接口可以将DataLine里存储的数据以文本的形式输出。DataLine是一个抽象类,需要用他的子类实例化对象。由图可见,MLSData集成了DataLine类,在成员变量中加入了一个MLSTime的对象_time用以表示该行数据的上传时间,并且可以用CompareTo接口比较两个MLSData对象的时间先后。其实MLSData的CompareTo接口只是调用了成员变量_time的CompareTo,如图3。
1.1.3 翻译器类
翻译器实现的功能是将一行原始数据转换为可读数据,翻译器定义如图4。
Translator是一个抽象类,其中定义了一个抽象函数Translate,这个函数有一个类型为String的形式参数data,并返回一个DataLine类(或其子类)的对象。其中data表示一行文本格式的原始数据,返回值DataLine表示转换后的数据。当需要分析按新版本ICD协议上传的数据时,只需创建一个新的Translator子类,并按ICD协议重写Translate函数即可。
1.2 数据绘制模块
数据绘制模块类关系图如图5:
父类DataDrawer是一个抽象函数,他实现了绘制曲线的一些基本功能。子类MLSDrawer集成了DataDrawer的基本功能,并添加了数据段放大功能。MD_WarningLine添加了告警线的显示功能,分析人员可以清晰地看到数据告警的位置,并针对该段数据进行分析。MultiLineDawer添加了多曲线绘制弄能,可以将多组数据的曲线绘制在同一坐标系内,让分析人员可以进行多组数据间的交叉比对。
2 实际应用
如图6,设备上传数据经数据转换模块处理后输出可读数据。
数据绘制模块读取分析结果数据后,可以将结果中的一组或多组数据绘制成曲线。
在曲线绘制区域内拖动鼠标可已放大局部数据,如图9。
3 结语
关键词: 体育统计;SPSS;多因素;方差分析;正交试验设计;数据分析
中图分类号: G 8032文章编号:1009783X(2013)03028306文献标志码: A
在用三因素有交互作用的方差分析来研究运动强度、运动量和运动持续的时间对运动成绩的影响时,对影响运动成绩的3个因素各按3个水平进行试验,见表1。如果进行全面搭配法方案安排试验,此方案数据点分布的均匀性极好,因素和水平的搭配十分全面,唯一的缺点是试验次数较多,为33×2=54次(指数3代表3个因素,底数3代表每因素有3个水平,×后面的2,表示重复一次试验),如图1所示。因素、水平数愈多,则试验次数就愈多[1]。例如,作一个5因素3水平的不重复试验,就需要35=243次试验。试验次数越多,就需要更多的人力、物力和财力作保证,而且需要占用更多的时间,这显然是十分困难的。有时由于所需的时间太长,使试验的条件发生改变,还会导致试验失败,即使试验有了结果,但对运动训练的实际指导意义也可能已经不太大了;因此,需要寻找一种合适的试验设计方法。
对于如何去做试验,怎样才能做好试验的问题是统计学很关注的一个问题。这就需要我们在做具体的试验前,首先要做好试验设计。
试验设计的一个最重要的原则:在做试验前,通过必要的事前考虑,作出合理周密的事先安排,从而在实际的试验中,通过动用最少的人力、物力、财力及尽可能短的时间,以便用最少的试验次数达到同做大量全面试验等效的结果。
1.1.3因素和交互作用
选择的正交表要能容纳所考虑的因素和交互作用。为了对试验结果进行方差分析或回归分析,还必须至少留一个空白列,作为“误差”列,在极差分析中要作为“其他因素”列处理。
1.1.4试验精度
在同水平中取何种试验次数的L表,取决于试验精度的要求。如果试验精度要求高,则宜取试验次数多的L表。
1.1.5研究的成本
要根据研究的成本来决定适合的L表的选择。若试验费用很昂贵,或试验的经费很有限,或人力和时间都比较紧张,则应选试验次数少一些的L表。
1.1.6修正水平数
在按原来考虑的因素、水平和交互作用去选择正交表时,如无正好适用的正交表可选,则简便且可行的办法是适当修改原定的水平数。
1.1.7适当选用大表
在对某些因素间的交互作用的影响是否确实存在没有把握的情况下,如果条件许可,则应尽量选用大表,让影响存在的可能性较大的因素和交互作用各占适当的列,在用方差分析进行显著性检验时,就可得出结论。这样既不增加太多试验的工作量,又不致于漏掉重要的信息。
1.2正交试验设计的基本步骤
1.2.1根据研究目的设计试验因素和试验指标
先根据研究课题来确定研究目的,再从专业的角度在众多影响研究目的的因素中找出几个主要影响因素,根据研究精度的要求和课题经费的情况确定因素的水平,一般在条件允许的前提下,主要影响因素的水平可以分得多一些,同时还将确定最能反映试验目的的测试指标,以便通过对试验结果的分析找出主、次影响因素。
3结论
1)正交试验设计可有效地减少试验次数,同时还可得到与做大量试验等效的结论,可以节省大量的人力、物力,提高研究经费的使用效率。
2) 在SPSS17.0中,可以利用数据菜单中正交设计过程中的生成程序产生正交表,用显示程序打印正交设计方案。由SPSS17.0产生的正交表同正交试验设计书中的正交设计表不一定相同。在需要作极差分析的同时,还要考虑交互作用,应根据交互作用表作表头设计。
3) 在不需要极差分析或极差分析中不需要考虑交互作用时,可直接采用SPSS17.0产生的正交表来安排试验(但生成正交表时要考虑求交互作用时的试验次数,即要根据因素数、水平数、交互作用安排在哪些列,来决定需要多大的正交表),也可直接用SPSS中多因素方差分析的方法来完成正交试验设计的方差分析,同时可考虑交互作用。
4)在用SPSS17.0进行正交试验设计分析可以代替手工计算。
由于篇幅有限,只讨论了各因素等水平的情形,其他不等水平的混合设计,在SPSS中的实现方法是相同的。
参考文献:
[1]刘达民,程岩.应用统计[M].北京:化学工业出版社,2004:153156.
[2]刘汉生,张宝玉.应用数理统计基础[M].山西:山西科学教学出版社,1987:237266.
供电服务是供电企业的一项重要综合管理指标。在供电服务管理实践活动中,可以发现供电服务与营销业务管控、电网运行、设备运维、供电能力、电建施工、员工素质、工作标准、管理者思维等诸多因素有关,如何将供电服务管理中存在着的诸多变化和离散因素,运用系统的科学的方法进行分析,寻求管理上的精细化和实现风险最小化,是各级供电企业所面临的最迫切最现实的亟待解决的问题,最终实现客户服务智能化、优质高效。
【关键词】互联网+ 大数据分析 供电服务 管控系统 设计与应用
目前,供电公司系统中存在着庞大的数据分析工作,利用数据分析结果进行有效的诊断分析,以更好地指导营销服务,提升客户服务功能,是供电公司必选的最佳途径和手段,开发《基于互联网+大数据分析模式创建供电服务管控系统》( The design and application of electricity system managing which is basing on ten huge data analysis ),其核心依托设计是创建大数据分析模式的供电服务管控应用系统,融合拓展开发《开放式用电信息服务平台的应用系统》{《开放式用电信息服务平台》(The Opening Electricity Service Platform――简称:OEEP系统)}是基于互联网模式、计算机通信技术、GIS地理信息系统、用电信息服务的开放式面向客户端的信息平台,通过开发利用计算机、手机智能式服务系统,在确保电网和营销管理系统的安全前提下,链接供电生产系统、营销服务系统与客户端服务大数据系统信息共享,实现互联网+多媒体的一体化开放式管控系统和公共服务平台。
1 供电服务管控系统设计思路
1.1 供电服务管控应用系统设计
(1)建立与营销系统完整链接的营销服务主系统,基础数据来源和依赖于营销系统数据,分类建立不同功能模块,设定客观的量化指标,加入赛马博弈竞赛评分功能,客观真实的反映出各层级供电单位供电服务业绩,通过营销服务在线管控系统实现综合评价。
(2)搭建供电服务应用系统,实时实现首端与末端、纵向与横向、分级管控的全方位管控和应用,开发手机客户端APP下载到每个员工手机上,达到供电服务全天候、全过程的在线操作。
(3)主要实现功能:供电服务法规及政策、信息公开及、工单受理与流转、服务指标体系、竞赛积分系统、工作动态与经验推介、综合评价与奖惩。
(4)供电服务管控系统设计上,重点突出系统工程管理思维,力求规范化、标准化和可操作化,建立相应人性化管理的信息保障机制,对供电服务提升将会起到很好促进作用。
1.2 开放式用电信息服务平台
(1)依托互联网和计算机软件技术,建立GIS地理和供电设备集成系统,实现模糊查询实时链接。
(2)采用互联网+模式,将95598客户服务系统和营销服务系统嵌入,经过数据研判分析,建立开放式的客户端即时使用和交换界面。
(3)建设依托计算机通信系统拓展的电力多样化、智能化的服务,通过多媒体系统、掌上APP、微信等客户端系统,实时与金融、气象、交通等其他资讯系统融合的通讯交换功效。
(4)借助电力系统的调度D5000系统、生产PMS系统、营销MIS系统、用电信息采集系统等以及拓展的营配调贯通系统,实现全方位全天候的停电信息实时、设备故障查询、客户报修服务系统合一功能。
2 系统功能性设计界面
2.1 大数据系统性分析
(1)应用数理统计学原理和解析法开展供电服务大数据分析、筛选、研判操作,通过数据分析结论,以系统的管理理念、科学的管理方法揭示业务管控、运行过程、管理现象内在规律性问题,拓展供电服务领域措施和更大的提升空间。
(2)对供电服务管理的归类统计和分析,可以达到过程清晰,由整体、局部到个性离散元素之间逻辑关系和关联链接实现了闭环,便于发现问题,从而改进供电服务管理的统计方法和分析思路。
(3)在供电服务管理中,能把影响供电服务指标变化的因素,以及诸多因素影响的程度,进行量化和筛选出来,有效的解决了投诉事件分析的盲目性和无序性,增强了投诉事件分析和管理流程的针对性、目的性和规律性,提高了精细化管理水平和工作效率。
(4)把营销服务活动过程中,具有规律性和关联性的诸多离散因素及物理现象,以及过程化的实践控制流程,建立数据分析的逻辑链接,进行分类归纳和运算分析,展现不同的管控对象所需要的应用界面、过程管控以及个性需求。
2.2 客户信息服务平台
(1)基于互联网+模式与计算机网络通信规约,将GIS地理系统为基本内核,实时进行导航链接,运用多媒体功能界面,在计算机终端和手机端加载运行。
(2)建立一个个不同数据结构的模型,设计若干程序模块和接口,实现内置固化和跟踪嵌入的方式,实时数据链接相关功能模块,在不同的支撑界面进行灵活交互。
(3)鉴于信息安全管控要求,在确保电力网物理隔离和逻辑隔离满足安全运行的情况下,在设计入口时设置唯一身份验证和电子钥匙,有条件的开放调度、生产和营销系统数据接口,防止发生数据破坏和病毒侵害。
2.3 系统设计构架图
如图1、2、3所示。
3 系统功能及性价比
3.1 实现功能
(1)该系统实现跨专业海量的信息资源共享,系统公共管理和专业个性的管理,实现专业融合、互动和协同,可满足各级供电公司和不同管理层级的人员管理需求。
(2)该系统可实现实时的在线研判、指挥和分析,实现各层级供电服务在线实时跟踪管控,提升了工作时效性、针对性和真实性。
(3)开放式的用电信息服务突破传统服务技术瓶颈,建立了客户与供公司自由、方便、快捷的服务通道,对客户诉求和业务办理实现在时间和空间上的即时响应和一对一服务。
(4)该系统开发使用可实现供电公司各种系统资源的纵横协同和拓展延伸,实现内部资源有效应用,最大限度的发挥各系统管理效益和经济效益,资源高效利用提升了企业资产良性运行成效。
(5)该系统应用可提高工作效率,减轻和降低了人员繁重和重复的工作量,解放了一线人员劳动资源。
3.2 性价比分析
3.2.1 软硬件投资
一次性投资该系统的开发费用较低,基本上是用于已有的各类系统的接口技术处理,实现诸多系统和平台之间的链接,该系统软件运维成本较低,除了已有的各类系统自身的运维费用外,该系统只需解决接口费用即可。
主系统需配置较高标准的新设备,各级工作站现按照统一标准配置计算机和交换机等设备,即可满足使用。建议各级供电服务指挥中心建设不同规格的大屏幕监控工作室。
3.2.2 应用效益分析
(1)该系统开发后,实现了全省供电系统技术服务资源的整合高效利用,精细了管控过程和环节,评价客观真实,公司的管理效益十分显著。
很多设计师从来不看数据,要么是因为没有数据可看,要么是根本不想看,但是也一样把设计做的很好啊!设计本来就是有感性的一面,为什么非得要和数据扯上关系呢?
我们不妨先看看设计的本质是什么。设计不同于纯粹的艺术,艺术源于艺术家对现实的观察和思考,以及对这种观察和思考的自我表达;设计天生就是为别人在做事情,纵然同样需要观察和思考,但是这种观察和思考不是为了表现设计师的自我,而是为了更好地服务于某个用户群,因而设计师了解用户就变得非常重要。尤其是要了解用户的目标、行为、态度等相关的情况,我们这里说的数据其实也就是对用户的目标、行为、态度等情况的量化,因此,通过对这些数据的分析,我们可以更好地挖掘用户的需求,进而为用户提供更好地体验。
简单点说,设计是服务于用户的,了解用户才能更好地做设计,数据是了解用户的一种途径。
2、数据在项目中的作用有哪些?
要了解这个作用,我们先回到设计师看数据的主要场景,总结起来无外乎两类:
一个是因为项目的需求,通过数据的论证,让设计走得更从容,有理有据,而不是设计师自己的YY;
另外一个是日常监测的需求,自己做的产品,总要知道大概有多少人在用,使用的情况如何,用户的行为和预期是否一致。也就是说要了解你的设计被使用的情况,否则你怎么知道设计的好不好,是不是达到了设计目标,是不是真的帮助用户解决了问题。
先来分析下项目中看数据的场景。几乎整个设计的过程都可能会用到数据,概括起来可以把这个过程切分成三部分:
第一部分:设计前数据帮你发现问题
所有设计开始之前的研究和分析,都是为了更明确用户的需求,明确为什么要做这个设计?从业务的角度来看,这个产品对公司有何价值,此次设计要达到什么目的;从用户的角度来看,这个产品对用户有何价值,此次设计要为用户解决什么问题;在了解业务诉求和用户诉求的过程中,我们难免要用到数据,这个阶段,数据的作用就是为了“发现问题”,看看设计可以解决什么问题,从而更佳明确设计的目标。
当然具体的工作中,多数设计师都比较纠结,既要考虑业务诉求,又要考虑用户诉求,如果这两者不能完全匹配的时候,我们该咋办,是两者的相加吗?还是我们就只考虑用户诉求,对业务诉求看看就行了。我个人的理解是,现实工作中我们都不是在追求最完美的设计,更多的是在做平衡,如果是一个用户型的产品,比如偏向于为用户提供某个功能的平台,本身就是完全从用户的角度出发,通过为用户提供功能帮助用户解决问题的,应该向用户诉求靠拢多一些;如果是一个商业型的产品,比如偏向于为用户提供某些内容的平台,那么在为用户提供主动查找的入口的同时,可以适度的向着业务发展需求倾斜,做适度的业务层面的引导;当然这个也不是绝对的,往往同一个平台,同一个产品,在不同的发展阶段也有不同的需求,如果是一个全新的产品,业务的生存就变得格外重要,这个时候设计应该多一些考虑业务诉求,先帮助业务生存,否则,这个产品都要挂了,还怎么为用户提供服务呢?
当然,好的设计师总是能在业务和用户之间找到巧妙的平衡,找到二者的交集,举个例子,假如这个产品这个阶段就是要做用户规模,而用户诉求是享受个性化的服务,看似完全不关的两个诉求,实际上我们完全可以通过更好的个性化服务提升用户满意度,获得好的用户口碑,再间接地借助用户口碑提升产品的用户规模,这二者之间并不是完全的不相干,更多的时候看能否找到他们的关联性,抓住阶段性的设计目标。
通过一个具体的例子看看如何利用数据来发现问题?数据代表的是用户的目标、行为和态度,但是单独看一个数字是没办法发现问题的,数据的对比是最简单有效地手段。我们知道交易关系买家所产生的交易对1688网站有着非常重要的意义,我们想提升交易关系型买家的交易体验,但是不知道从何入手,因此做了大量的数据分析。交易关系买家是通过什么方式找到老卖家?不同路径的转化率如何?不同用户查找方式与转化率有什么差异?
首先,通过用户群的细分,我们发现,交易关系买家通过搜索支付订单转化率是搜索整体支付订单转化率的2倍。因此,在搜索结果中增加老买家标签,方便找到老卖家。
此外,我们还发现,普通会员、1-2星会员等级,是提升交易关系交易的关键用户。通过以上的数据分析,我们找到了目前主要的一些问题,围绕着这些问题,后续做了优化方案。
第二部分:设计中数据帮你判断思路
因为设计师的个人经验不同,创造性思维不同,因此不同的设计师面对同一个问题,解决方案也很可能差别较大,即便是同一个设计师也会想到不同的解决方案,到底哪个方案更合适,有些情况下数据可以给你参考意见,为你提供“判断思路”,协助你做决策;条条大路通罗马,但是哪一条路才是当前最合适的呢?
通过一个具体的例子看看如何利用数据来判断思路?有一个批发类的电商网站(1688.com)的频道首页(ye.1688.com),我们发现用户的转化率很低,就去研究了数据,然后结合了对典型用户做的用户访谈的结论,最后发现转化率底的原因其实很简单,这个频道的首页入口主要是来源于整个网站的首页,而整个网站的首页是一个全行业品类的页面,用户如果是女装行业的买家,她从一个全品类的首页点击一个链接进入另一个全品类的页面,再艰难的找到女装这个类目,再点击进入List页面查看商品,这个路径是非常深的,那么怎么解决这个问题呢?那就是要避免做女装的用户从网站首页进入这个频道之后还要再次选择女装类目,才能看到女装的商品!
解决这个问题的思路有哪些?可以在网站首页增加入口,让用户直接点击女装类目进入频道首页,给用户展示女装商品;可以在用户进入频道首页之后,根据行业偏好的个性化数据来推荐商品,推荐的不准确,用户也可以去定制;到底哪个更靠谱?两个思路各有利弊,鉴于前一个思路需要有外部依赖,要改动网站首页,所以我们内心都很期望后一个思路能跑通,但是怎么知道这个思路行不行?首先我们需要知道行业的个性化推荐能覆盖多大的人群,又有多少的人愿意去定制行业偏好?
对于普通的网站来说这个可能是一个不够明确的问题,但是1688.com是一个会员用户早就过亿的B类电商网站,有着如此庞大的用户规模,较高的用户覆盖率,这就意味着对用户行为数据的积累,再者B类的用户有一个显著地特征就是在一个较长的时间里,行业的偏好相对比较稳定,如果是一个主营女装的买家,那么她的偏好一般会以女装为主,不会超出服装的范围,最多会有少量的服装周边配套的采购。
如上图,通过行业偏好的个性化算法,我们追踪了一段时间来访这个频道首页(ye.1688.com)的用户数据,我们发现大约2/3的用户是有着非常明确的行业偏好的,那么这基本可以断定做行业偏好的个性化推荐是靠谱的!但是剩下的1/3用户愿意去定制行业偏好吗?我们当时因为时间原因,无法直接从这1/3无明确偏好的用户中去判断他们是否愿意定制偏好,但是通过整个用户群的问卷抽样调查发现,大约3成的用户表示定制行业偏好是很好的服务,基于这些情况,我们判定基于行业偏好的个性化推荐能够解决绝大部分用户的行业偏好问题,提升了内容的相关性。这个方案最终上线后,实际上有大约10%的人真正找到定制入口并且产生了定制行为,70%的人不用定制,实现了默认的精准推荐。
第三部分:设计后数据帮你验证方案
我们的设计方案到底做的好不好呢?衡量标准就是看设计方案是否能够达成设计目标?这也需要数据来量化,通常会用GSM的模型来支撑设计的验证。G(Goal)设计目标、S(Signal)现象信号、M(Metric)衡量指标,所谓的设计目标,就是要确定设计要达成什么结果,要解决什么问题;衡量指标,我们不能凭空猜想,必须建立在设计目标的基础上,先假设设计目标会实现,那么会出现什么现象或信号呢?列举出所有的现象或信号,选择我们可以监控的到的,然后对这个现象或信号产品进行量化,自然就得到了衡量指标,但是指标的波动幅度往往要依赖经验来定。
比如说,某个产品的设计目标是通过设计的引导,让更多的买家产生购买,想象一下,如果设计目标实现了,会有什么现象呢?可能会有更多的人有购买意愿,看了商品详情页,点击了购买按钮等等,最终也产生了购买,那么,衡量指标是哪个?设计只是改变了商品信息的呈现方式,并不能改变商品本身的质量或背后的服务,所以我们应该重点考察设计是否强化了引导,提升了购买意愿,是否激发了用户进一步了解的行为,主要是指浏览行为,最典型的就是到达了商品列表页或者商品详情页等,量化的结果就是看又进一步行为的用户的比例;
通过一个具体的例子看看如何利用数据来验证你的设计方案是否达成设计目标。曾经有一个找产地的功能模块,我们在设计前进行了调研,用户告诉我们他们需要找产地,而且比较习惯于用地图来找产地,我们欣喜若狂,照着这个方向做了个产地直达的楼层,我们坚信用户告诉我们的肯定是对的!但是这样的设计真的能达到帮助用户高效找产地的需求吗?来看下面的数据分析。
用户的目标不是要找产地吗?还告诉我们用地图找产地很符合他们的习惯呢?为什么上线后,用户却不怎么使用这个版块???我看到这个数据非常的意外,一时之间根本摸不着头脑,后来再去看了看这个板块的热力图,一下子恍然大悟。通过数据分析得出,地图纵然符合用户习惯,但是才这么狭小的地图上进行如此复杂的操作,其效率是非常底下的,因此将地图找产地的功能保留下来,只是不作为默认的方式,采用了按照热门的、区域的、附近的、可搜索的、地图的方式综合承载,最后取得了较好的效果!
3、如何利用数据做日常监控?
作为一个设计师,你的作品上线后,有多少人用?这些用户是谁?有什么特征?用户具体是怎么在使用你的产品的?你的设计是否还有优化的空间?如何才能为用户打造更好的使用体验?怎么才能知道这些数据好不好,有没有问题呢?主要是靠比较、靠经验,靠对这个产品长期跟进产生的直觉,只有在对这个产品非常熟悉的前提下,你才有可能对数据的变化给予比较靠谱的解读。
日常监控中用于发现问题的主要手段就是做数据的对比,但是如何具体的作对比呢?主要有三种最常用的最简单的对比方式:a、横向比较,和类似的产品去比较,看相对的状况,进而推测出自身是否存在问题;b、纵向比较,和自己的过去比较,看看从历史的发展规律中是否能得到某些启发,主要是看自身的变化趋势;c、用户细分,这个就是把用户按照不同的分析需要,拆分来之后来看数据,看看各个群体之间的差异在哪里,有没有一部分用户和其他用户表现出不同的行为,进而找到问题所在。当然除了这三种常用的对比之外,我们还可以做一些配套的定性研究,进而把问题搞得更透彻。一些统计学的工具有时候也能起到作用,比如说用SPSS做数据的因子分析、聚类分析等等,也可以有一些意想不到的收获。
关键词:系统设计;信息分析;Oracle数据库;数据结构;GIS
中图分类号:TP311.13文献标识码:A 文章编号:1009-3044(2010)08-1800-04
The System Design of Information Analysis Database for Changqing Oilfield
LI Juan, GUO Kang-liang, HE Zhen-ming, TANG Jun, YAN Ke-wei
(Department of Geosciences, Yangtze University, Jingzhou 434023, China)
Abstract: Changqing Oilfield information analysis database system using ORACLE database, GIS (geographic information system) technology on the original field information storage, graphical management, and through mathematical analysis to accomplish the production information analysis, obtained laws to assist in the future the work of decision making. Development through information analysis system will make that field information management more scientific and convenient.
Key words: system design; information analysis; Oracle databases; data structures; GIS
随着当今计算机数据库和数据仓库,GIS等技术的发展,利用大量的、全面的生产历史数据,将其存储在数据(仓)库中,进行新数据的录入、历史数据的分类提取。然后借助相关数学方法对生产信息进行科学的数据分析,进而总结规律。GIS图形化管理工具的运用也能帮助直观、便捷的处理各类信息。这些先进的技术必将给油田的发展带来二次的飞越。油田信息化将大大提升油田生产、管理水平,为油田生产发挥巨大的效益,成为公认的增强企业竞争力的有效途径。
1 系统需求分析
1.1 数据管理需求
油田信息化建设是改变传统的油田生产经营模式,以一种全新的数字化作业方式代替传统的手工或半手工的工作方式。油田的管理首先要对油田的各类海量信息数据进行管理。数据是油田的资产和宝贵的财富,但由于以前是人工管理,现在存在了资料的保存介质多样、数据格式多样、数据冗余、数据管理繁琐、数据应用不便、不能共享等各种问题。系统将以数据库技术,地理空间信息为基础,直观合理、科学便捷的实现油田地质研究、数据管理、自动化监控、经营管理、部门管理等。
1.2 生产需求
长庆油田属于低渗透砂岩气藏,这类气藏具有孔隙度低、渗透率低,含水饱和度高,气水关系负杂、非均质性强、气体流动启动压力高、单井产量低等特点,压裂是这类低渗透砂岩气藏开发的主要手段。只有搞好气井的压裂,使其发挥最大的经济效益,才能真正提高油气田的产量。因此做好压裂前各项技术的准备,如选井选层及综合地质研究,为优化施工设计提供地质依据。压裂以后做好压裂效果评价,正确科学的对压裂效果的各项数据进行分析,从而选择最佳的压裂施工方案[1]。系统可以将油井的复杂性整体客观地展示给管理者,用户可以把复杂的压裂数据和地质情况转换成直观的分析曲线,可简单便捷的确定分析油藏,直接设计井位和压裂开发方案,可以实现桌面化的油田研究、管理、指挥和决策,能够获得不同思路的建模和模拟结果,从而达到降低风险,优化决策的效果[2]。
2 系统体系结构
计算机应用结构分为:Client/ Server(客户机/服务器)结构、Browser/Server(浏览器/服务器)结构。
2.1 Client/Server模式
C/S模式是基于网络技术发展起来的一种新型体系结构的信息处理模式,具有较强的信息共享能力。这种结构的配置较为灵活,每个用户具有较强的独立性。但需要在每一个Client端安装特定的应用程序,限制了Client端的灵活性,而且存在Client端跨多平台时不灵活的问题,因此这种结构具有一定的局限性。C/S网络运行模式操作复杂,对系统维护人员要求高。这样对于一般的部门往往会出现因为管理人员的维护不当而使系统出错甚至使系统崩溃。另外C/S方式对网络要求比较高,一般适用于局域网内部使用。
2.2 Browser/Server模式
B/S结构扩展了客户机/服务器的概念,使开发者只需将注意力集中到Web服务器端后台应用的开发,省去了客户端前台交互界面软件的开发,上网用户使用通用的多媒体浏览器(如IE)就可进行信息访问和交流,数据操作和程序运行都在服务器中完成,实现客户端的零安装和零维护。这不仅可节省开发费用和加快开发进度,更重要的是实现了跨越多平台的开发。由于数据访问是实时的,当多用户并发访问、传输数据量较大时,易造成网络堵塞,降低访问速度。
鉴于B/S方式和C/S方式各具优缺点,系统采用以B/S为主,C/S为辅的网络结构模式进行系统结构管理(见图1),为各部门业务的开展提供可行的解决方案。对于信息室,由于要负责数据更新和系统的维护等工作,涉及大量数据的处理,提供C/S模式,以充分利用其具有良好的人/机交互能力,对图形数据具有很强的处理和编辑能力,对于空间数据的存取效率高的特点,方便用户开展管理工作[3]。对于各处室业务人员日常办公,由于办公地点分布地域广、工作人员的素质差异较大,为其提供B/S模式,通过局域网访问信息中心。所有日常办公操作可通过浏览器完成,可大大降低对基层人员的计算机技术要求。
3 系统功能设计
数据库系统在功能结构上由服务器、管理平台和客户端三部分组成,管理平台和客户端通过TCP/IP协议与服务器相连。服务器主要用于数据库的存储、数据库信息调用的服务。并选用国际通用的、能提供对大块数据体支持的Oracle数据库产品,能够很好地满足分布式网络数据库要求。管理平台与客户端是两个相对独立的部分,都通过内部网络与服务器相连,通过软件平台调用服务器上数据库的信息。功能模块的设计上,按照功能的不同主要分成了三个部分:基础资料的管理部分,图件数字化部分,分析决策部分;其中各个部分又依照具体功能分成了不同的子系统来实现具体功能。子系统包括数据库管理与显示子系统、基础数据统计查询子系统、数理统计方法库管理子系统、压裂措施选取辅助决策子系统、数据接口子系统、生产分析结果管理子系统、图件数字化子系统、专题地质图件绘制子系统等等。
3.1 基础资料管理部分
主要包括用户管理、日志管理、系统维护、基础应用管理、数据显示等功能模块来负责对以往的油田各项信息资料数据进行存取、录入、更新以及维护。这部分主要是借助ORACLE数据库各种功能的来管理和实现,类似一般的数据库管理。
3.2 图件数字化部分
主要是采用C/S结构,基于地理信息系统(GIS)组件二次开发,图件数字化子系统实现了地图显示与浏览、图像导入、图像校正、空间参照系的设置、图形输入与编辑、常用数据接口、图件排版与输出等功能。并且联同ORACLE查询功能来实现图形与属性互操作的管理、查询、修改功能。
3.3 分析决策部分
这部分是整个系统的关键,建立服务于压裂效果评价与措施选择的方法库,为基础资料的综合分析和挖掘提供技术支撑。借助了相关的数学分析方法能够对各类生产数据进行多元回归分析(线性、非线性)、主成份分析、因子分析等方法综合研究。其中运用了神经网络、数据挖掘等技术对于分析油层参数、措施参数与措施效果之间的协同复杂关系,为措施效果评价、措施参数优化提供技术支撑。
由于压裂效果与其影响参数之间大多呈复杂的非线性关系,这种关系难以用传统的数学表达式来描绘;又由于各因素对压裂效果的影响程度不同,而且某些因素之间存在交叉影响现象。因而可以用人工神经网络方法来解决这类高度复杂的非线性问题。在处理参数间的复杂非线性关系时,利用网络上各神经元的参数(即复杂的网络结构)来表达知识,而不是用传统数学中的简单表达式;通过调节网络中各节点与节点之间的连接系数(即参数的权值大小)来解决参数存在的重复和主次现象[4]。
4 数据库结构设计
4.1 数据库需求分析
数据库是本系统的基础,将实现系统中各种空间、属性数据的统一管理与维护,支持系统中各项业务的正常运行。总体上,本系统数据库中的数据应包括基础数据、业务数据、分析成果数据三大部分。基础数据由地理空间数据、系统管理数据、组织机构数据、工程基础数据组成;业务数据主要由长庆石油勘探局井下技术作业处生产信息系统中的压裂、试井、分析生产数据构成,另外还包括收集整理测井成果数据。分析成果数据是该系统的核心数据,通过运用本系统提供的分析方法与工具对现有油层数据、测井数据、试井数据等评价分析获得,是系统进行压裂效果评价和压裂方案设计的数据基础。
4.2 数据库系统设计
系统选用结构化系统开发方法。这种方法的突出优点就是它强调系统开发过程的整体性和全局性,强调在整体优化的前提下来考虑具体的分析设计问题,即自顶向下的观点,是一种目前广泛被采用的系统开发方法[5]。数据库是本系统的基础,将实现系统中各种空间、属性数据的统一管理与维护,支持系统中各项业务的正常运行。
从数据的形式来说,本系统数据库中既包含传统一维表格数据又包括新采集的二维图形数据。为了便于二者的管理和维护,需要设计统一的数据模型将二者有机的组织在一起统一管理、统一维护[4]。利用国产GIS软件MapGIS空间数据引擎SDE提供的强大功能,可实现图形和属性数据在商业数据库软件ORACLE中的统一存储和管理,同时也保证了本系统数据库与井下处生产信息系统数据库的兼容性。从数据的来源与用途来看,本系统数据可分为基础数据、业务数据、分析成果数据三大部分,因此,逻辑上划分为基础数据库、业务数据库、分析成果数据库三个子库。
1)基础数据
基础数据包括维护系统和系统业务运行的各项基础数据,包括工程基础数据、地理空间数据、组织机构基础数据、系统管理数据等。
2)业务数据
业务数据是井下处生产过程中所涉及的生产设计、生产记录和生产成果数据,主要包括压酸挤数据、测试试井数据、生产分析结果数据、测井综合数据等。
3)分析成果数据
分析成果数据是本系统中用于支持压裂效果评价与方案优选的数据基础,包括评价分析样本数据、评价分析因素相关系数数据、评价分析方法数据、评价分析成果数据。
4.3 数据表结构设计
每一口井的信息种类不尽相同,同时,每一口井的单个信息可能有多次测量。并且测井信息在不断的更新中。这就要求数据库有良好的可扩充性,在统一了测井信息数据格式的基础上,在ORACLE数据库系统的支持下,采用嵌套表的方法可较好地解决这一问题[6]。另一方面由于数据库中井的数量庞大。这就要求测井信息数据库有良好的结,达到尽量提高效率的原则。基于此,设计了如图3所示的数据库表结构形式[7]。
4.4 数据信息关系设计
系统采用当前应用最为广泛的基于关系表的存储方式,并采用星型存储模式,这种模式可为数据仓库提供优越的数据检索和分析功能。在创建数据仓库的过程中,选定的主题为压裂效果无阻流量,在数据仓库中存在维表和事实表,两种表间利用维的ID连接[8]。
5 系统的关键技术路线
5.1 面向对象的系统分析和设计(OOA&D)方法
系统分析与设计将采用面向对象的系统分析与设计(OOA&D)方法,确保系统设计与开发符合软件工程的规范,开发出规范化的、具有较高可移植性、可靠性的软件,提高系统开发的效率。
5.2 采用关系数据库管理空间数据和属性数据
当前地理信息系统(GIS)技术发展的最新趋势是采用关系数据库或对象关系数据库管理空间数据和属性数据,可以充分利用关系数据库管理系统(RDBMS)的数据管理功能,利用结构化查询语言(SQL)对空间与非空间数据进行操作,同时可以利用关系数据库的海量数据管理、事务处理(Transaction)、记录锁定、并发控制、数据仓库等功能,使空间数据与非空间数据一体化集成。系统将采用关系数据库管理空间数据和属性数据,确保空间和非空间数据的一体化集成。
5.3 全组件式GIS技术应用
GIS融入IT除了将空间数据交到关系数据库中进行管理以外,开发客户端时,还要考虑使用全组件式的GIS。全组件式GIS软件将GIS的功能从数据输入、编辑、处理(建立拓扑关系)、查询显示、分析和制图输出全部封装成组件,可以根据用户需要,自由定制操作方式和界面。用户可以将GIS组件和其他组件放在一起,采用通用的开发平台,如Visual Basic、Delphi、Power Builder、C#等,而不再受GIS二次开发语言限制。从而极大地方便了二次开发,同时增强了二次开发的扩展能力,使得后续应用系统的开发与基础数据的衔接变得方便简单[7]。
5.4 数据挖掘技术的应用
数据挖掘能自动在大型数据库里面找寻潜在的预测信息。传统上需要很多专家来进行分析的问题,现在可以快速而直接地从数据中间找到答案。数据挖掘工具可以根据过去大量的数据找出其中最有可能对将来的发展最有价值的信息,并辨认出那些隐藏着的模式。数据挖掘技术可以让现有的软件和硬件更加自动化,并且可以在升级的或者新开发的平台上执行[9]。
5.5 神经网络技术的应用
人工神经网络就是模拟人思维的直观性思维:1)信息是通过神经元上的兴奋模式分布储在网络上;2)信息处理是通过神经元之间同时相互作用的动态过程来完成的。这是一个非线性动力学系统,其特色在于信息的分布式存储和并行协同处理。虽然单个神经元的结构极其简单,功能有限,但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。神经网络方法能很好地解决多因素的非线性问题[8]。
6 结束语
在系统的开发过程中要具体的考虑到数据库表的各项数据内容的结构,设置方便开放的数据接口,方便系统的二次开发与维护。各类数据平台和软硬件要更加通用和开放。
参考文献:
[1] 肖昆.低渗透气藏压裂效果评价方法研究[D].成都:西南石油学院,2003.
[2] 刘拥军,杨永发,朱春红.长庆油田测井信息数据库的系统设计[J].测井技术,2005,26(3).
[3] 张晓林,侯宝稳,吴宝江.数据库系统管理与应用[M].北京:清华大学出版社,2007.
[4] 吴亚红,李秀生.人工神经网在压裂选井及选层中的应用[J].石油大学学报,2001(25).
[5] 王晓莲,顾娟,王颖,等.大庆油田测井数据库系统设计[J].油气田地面工程,2007,26(2).
[6] 袁鹏飞.ORACLE8i数据库高级应用开发技术[M].北京:人民邮电出版社,2000.
[7] 张帆.基于.Net 平台WebGIS系统的研究与实现[D].长沙:中南大学,2008.
关键词:Hadoop 市政设施监控 大数据
中图分类号:TP31 文献标识码:A 文章编号:1674-098X(2016)10(b)-0076-02
Hadoop作为一种有效的大数据技术,在数据处理和网络系统中得到了有效的应用,对提高大数据分析处理效果具有重要作用。根据Hadoop技术的概念及内容实际,掌握Hadoop的体系架构特点,对于构建大数据处理系统是十分重要的。结合市政设施监控系统的数据处理需求,应用Hadoop构建市政设施监控系统,对于提高市政设施监控系统的运行效果和满足市政设施监控系统的数据处理需要具有重要意义。为此,应开展Hadoop大数据系统的研究。
1 Hadoop的概念及内容
Hadoop是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据。Hadoop是项目的总称,主要是由分布式存储(HDFS)、分布式计算(MapReduce)等组成。
Hadoop作为一种有效的大数据处理技术,其主要优点分为4个方面。
1.1 可扩展
Hadoop技术在实际应用过程中,可以根据所构建系统的需求进行必要的扩展。具体功能可以在原有大数据处理的基础上进行增减,以满足所构建系统的实际需求为准。这一功能是Hadoop的主要优势,扩大了Hadoop技术的应用范围。
1.2 经济
Hadoop技术在应用过程中,整体应用成本较低。由于Hadoop具备了较好的可扩展性,在系统的构建中可以作为基础技术进行应用,在Hadoop基础上有效接入其他系统,避免了系统重建导致的资源浪费,有效地提高了系统的构建效果。
1.3 可靠
Hadoop技术在多年的应用过程中,被证明是一种可靠的大数据处理技术。这种技术不但可以有效地提高数据的处理速度,同时还能与其他系统进行无缝对接,提高信息数据的处理能力,满足系统运算和数据处理需要。因此,较高的可靠性保证了Hadoop能够得到有效应用。
1.4 高效
Hadoop技术的突出优点是数据处理速度较快。其不但可以在较短的时间内加快数据处理速度,同时也会根据系统的现实需求制定个性化的数据处理模式,提高系统的响应速度,保证数据处理速度能够达到预期目标,提高数据处理的整体效果。
2 Hadoop的体系架构
从Hadoop技术的应用来看,通常Hadoop的体系架构比较特殊,除了要设定功能模块之外,还要使模块具备一定的接入特性。
具体的功能模块特点如下。
Pig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。
Chukwa是基于Hadoop的集群监控系统。
Hive是基于Hadoop的一个工具,提供完整的sql查询功能,可以将sql语句转换为MapRedce任务进行运行。
ZooKeeper是高效的、可扩展的协调系统,存储和协调关键共享状态。
HBase是一个分布式文件系统,有着高容错性的特点。
MapRedce是一种编程模型,用于大规模数据集的并行运算。
基于对Hadoop的了解,Hadoop在体系架构中用到了多种辅助工具和子系统,在整体体系结构上并不复杂,实现难度较低,具备了与其他系统有效集成的优点。在功能系统构建过程中,基本能够满足实际需求,对降低系统构建难度具有重要作用。
同时,Hadoop在体系架构中采取了分层架构的方式,这种模式不但具有一定的突出性,同时还能够解决功能系统构建过程中存在的系统接入问题。对降低功能系统的接入难度和提高功能系统的接入效果具有重要作用。因此,利用Hadoop构建大数据分析系统是重要措施。
除此之外,Hadoop具备了与其他系统对接的优势,可以在系统构建过程中,根据系统的实际特点和功能需要,构建相对应的大数据处理系统,提高系统的数据处理能力,保证系统在数据处理过程中,能够在整体有效性上得到全面提升。
3 基于Hadoop的市政设施监控系统的构建
基于Hadoop的特点以及市政设施监控系统的构建需要,利用Hadoop构建市政设施监控系统,应当做好系统的总体设计和功能设定。
在市政设施监控系统构建过程中,基于Hadoop的特点和优势,应当采取典型的系统架构模式进行系统构建,并根据Hadoop的系统架构需要对系统结构M行调整,使市政设施监控系统在科学性和合理性上满足实际需要,提高系统的构建质量。
考虑到市政设施监控系统的数据处理量较大的特点,在应用Hadoop技术之后,应当根据Hadoop的算法对市政设施监控系统的数据进行有效处理,保证市政设施监控系统在数据处理速度上能够达到预期目标,提高数据处理质量。
在此基础上,应发挥Hadoop大数据处理技术的优势,根据市政设施监控的实际特点,设置数据处理功能目标,指导Hadoop大数据处理技术的应用,保证Hadoop大数据处理技术在应用过程中能够提高数据处理效果。因此,在具体的系统构建中,应突出数据处理速度目标。
在市政设施监控系统中,该系统利用先进的视频监控、智能识别和信息技术手段,增加可管理空间、时间和范围,不断提升管理广度、深度和精细度。整个系统由信息综合应用平台、信号控制系统、视频监控系统、智能卡口系统、电子警察系统、信息采集系统、信息系统等组成。
最后,在系统构建完成之后,应对Hadoop大数据技术构建的监控系统与其他监控系统相对比,重点比对数据处理速度和数据处理量,总结Hadoop技术的优势,为市政监控系统的构建提供良好的系统支持和技术支持。
4 结语
通过该文的分析可知,在市政设施监控系统构建过程中,有效地应用Hadoop技术,不但可以构建完善的大数据处理中心,同时还能解决市政设施监控系统中存在的数据处理速度慢和数据处理量大的问题。因此,应对Hadoop技术有正确的认识,做到正确分析Hadoop的优势和特点,并在市政设施监控系统的构建中有效应用Hadoop技术,提高市政设施监控系统的构建效果,满足市政设施监控系统的构建需要。
参考文献
[1] 廉捷,周欣,曹伟,等.新浪微博数据挖掘方案[J].清华大学学报:自然科学版,2011(10):1300-1305.
[2] 何忠育.分布式社会网络分析支撑系统研究与应用[D].广东工业大学,2011.
【关键词】 区域 健康数据 检测 报警
一、引言
近年来,随着信息技术的高速发展,信息化医疗服务的模式成为研究热点,人们利用网络资源获得医疗服务及医疗资讯,不用去医院与医生面对面会诊也可以达到看病就诊的目的,极大地提高了医疗卫生资源的利用率。目前,已有部分国家将D信息化医疗服务投入使用中,并获得了良好的效果,全世界使用信息化医疗服务的人也越来越多[1-2]。随着互联网的普及,尤其是无线网络和 4G 技术的发展,以及各种计算机软、硬件技术的日趋完善,信息化医疗服务将得到广泛的应用,成为 21 世纪最有前景的产业之一。
二、需求与可行性分析
我国老龄化现象愈发严重。老年人由于机体功能下降,容易引发各种慢性或突发性疾病。针对我国国情,有限的卫生资源仍然集中在疾病的治疗上。对于老人而言,存在着行动难、无陪护、看病难等诸多客观问题,任何的医疗养老机构、人员无法长时间做到24小时对所有的老人进行实时监护并给出相应的健康指导意见。为了解决上述问题,面向老人的健康监护系统的研究目标为:被监测者在社区的无线网络覆盖范围之中,可实时监测老人健康数据并将数据传输到控制中心。
检测数据正常则存储备案,以备日后作统计分析、预防;当老人突发状况,系统采集数据异常,区域控制中心显示数据、发生地理位置并警报响起,提示医护人员在第一时间做出反应,避免错过最佳处理、救治时机;同时控制中心系统自动向突发状况老人的第一联系人手机推送消息,报告相关情况。系统的研发力促达到24小时不间断的数据采集和检测系统,形成个人―家庭―社区的初级医疗服务供给体系,真正做到以预防为主、防治结合。
研发过程中所使用的单片机,传感器等设备材料价格低廉耗、费资金较少、仿照中国科学院实施“海云工程”,并推出低成本的健康服务[3],保证产品市场化利润空间。实施过程中,拟解决软件与硬件问题,所采用的java+sevlet开发技术、嵌入式开发技术以及移动app开发技术均为成熟技术,在技术上,不存在瓶颈。调研充分前提下研究方案完全可行。
三、系统的分析与设计
3.1系统模块结构
根据需求,进行分析设计,划分模块如图1所示[4]。
3.2系统网络结构设计
根据系统需求、技术可行性以及现实情况,设计网络拓扑结构如图2所示。
3.3主要功能
(1)终端检测模块。由医学领域专家制定生命体征数据标准,开发监测心率、血氧、体温等模块。对设备佩戴者进行实时监测并将检测数据通过网络传送到数据分析处理中心。
(2)数据分析处理模块。接收终端数据进行分析处理;如果数据一切再医学领域专家设定的标准范围之内则正常存储以备分析预防,如果处在异常状态下则根据设定数据匹配危险系数给出信号。
(3)数据推送模块的功能为当数据分析处理模块信号为高危时启动数据推送功能,将高危人当前生理状态通过消息或短信的方式传送给其第一负责人。
(4)报警模块的功能为当数据分析处理模块信号为非正常状态时给予响铃等报警提示。医护人员根据报警的具体类型采取相信行动、避免错过最佳的援助、救治的时间。
3.4系统目标
首先使得老人在固定区域内可自由活动不影响实时监测生命体征数据、理想误差;其次,当数据发生异常报警时,上位机软件显示出当前一个时间段各项生命体征各项数据,并指出报警地点,医护人员可以根据现实异常数据大致判断原因并第一时间赶往现场实施处理、救治,从根本上解决老人“无人管”或“管得晚”的问题,系统达到国内先进水平。
四、总结
国内外面向社区老人的健康监护研究,局限在有线设备并将被监测者束缚在很小局部范围内,限制了实时性和使用便捷性,基于Zigbee无线传感器网络的健康监护系统的研究具有研究方向和内容的创新性。
参 考 文 献
[1]饶克勤.我国医疗卫生体制改革与政策思考[J].中国执业药师,2008,5(12):9-12
[2]刘林森.信息化时代的信息化医疗服务[J].上海信息化,2010,(01):84-87
关键词:成绩数据仓库;OLAP;多维数据集;数据透视表;数据透视图
中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)13-2944-05
The Design and Implementation of OLAP Data Warehouse of Student Score Analysis
HUANG Yu-da1,2,LI Xiang-qian2
(1.College of Computer Science and Technology,Southwest University of Science and Technology,Mianyang 621010,China;2. Information and Engineering Department,Zhoukou Vocational and Technical College, Zhoukou 466000, China)
Abstract: In response to the situation that a lot of student achievement data Stored in a transactional database are scattered, inconsistent, and independent,using Sql Server 2008 BI Business Intelligence platform and three-tier modeling approach to build an analysis-oriented student achievement data warehouse.The creating of multidimensional datasets,OLAP analysis ,and OLAP analysis results’showing by means of the pivottable and pivotchart of EXCEL 2007 front tool Provide strong support for Educational administrators in Decision analysis, the forecasting of teaching trend and the formulation of management measures.
Key words: score data warehouse; OLAP; multidimensional datasets; pivottable; pivotchart
目前,无论是与学生成绩直接相关的教务管理系统还是与学生成绩间接相关的学籍管理系统(存储学生基本信息)和人事管理系统(存储教师基本信息)等都已经积累了大量数据。但对这些数据的使用平时基本上都限于一些单方面分析且难以被再次利用,不仅缺乏一些相应技术对它们加以综合分析[1],而且这些系统由于相应业务不同导致相应的平台、开发工具、数据库系统等都不尽相同,可以说互相之间各自为政且缺乏科学、统一的协调和规划。然而各院校为提高教学质量,对大量教学决策信息的需求显得更为迫切。另外,数据仓库是从历史和发展的角度来组织和存储数据[2],是面向主题且为决策分析提供服务,而且学生成绩数据也比较符合数据仓库一些特征,如面向主题(成绩分析)、相对稳定(每学期一次考试)、随时间变化(学年学期)等。因此将与学生成绩相关的一些数据库系统中大量历史数据加以预
处理后载入数据仓库,可充分利用其中的多维数据分析技术(如OLAP)及数据挖掘工具等对仓库中数据加以智能化分析处理,从而更好地为教学管理者提供决策服务。
本文采用微软公司的Microsoft Visual Studio 2008中的Sql Server Management Studio平台来构建学生成绩仓库,采用Microsoft Sql Server 2008中的Sql Server Business Intelligence Development Studio平台工具来建立BI项目并实现多维数据集的创建、OLAP分析功能。
1成绩数据仓库的三层建模
本文采用通用的自顶向下、逐步细化的仓库建模方式即三层建模,依次为:概念模型设计、逻辑模型设计、物理模型设计[3]。
1.1概念模型设计
概念模型设计是一种面向全局的、较高抽象层次上的设计,该阶段主要任务是确定系统中主要主题域及其内容[4]。考虑到学生成绩特点及影响因素,该文把学生成绩分析作为主题来建立成绩数据仓库,仓库中包含学生学籍信息、课程信息、教师信息、班级信息、专业信息、系别信息、学年学期信息和学生成绩信息共八个方面的数据,将学生成绩作为关键性能指标并将除学生成绩信息以外的另外七个方面的信息作为维度数据,所有数据都分别来自学生学籍管理系统、教务管理系统和人事管理系统。
1.2逻辑模型设计
由于本文需建立的成绩仓库的维度数并不是太多而且数据量并非很大即不会占用较多存储空间,所以针对关系模式的定义以及较高查询效率的需求,这里决定采用星型逻辑模型,如图1所示。
图1成绩数据仓库星型逻辑模型
1.3物理模型设计
目前由于大部分数据仓库都是基于关系型数据库而且数据的最终管理及存放都是由相应数据库系统来处理的,所以这里的物理模型设计就主要考虑关于物理数据库的一些模型设计,如数据的索引、存储及其结构等[5]。
本文设计的数据仓库的核心数据库是微软的SQL SERVER 2008企业版关系型数据库管理系统。对实体表的主外键均建立索引以提高响应速度。
2数据ETL过程实现
本文采用笔者所在工作单位—周口职业技术学院几年来的学生成绩相关数据作为数据源。考虑到2007年以前尚未全面启用教务管理系统、时间略显仓促及数据收集和预处理需花费大量时间、精力,所以数据源范围暂先定于信息工程系、机电系和财经系三个系的07级、08级、09级学生成绩数据。
2.1数据的抽取及清洗
在确定了成绩仓库中事实表及各个维度表的具体结果模型之后,就需要以这些结构模型为重要参考依据分别从各自对应的业务型数据库系统中进一步抽取相关数据并经过预处理后再载入成绩仓库。
数据的清洗主要是对数据中的杂质、噪声、不一致、不规范、遗漏等情况加以处理。一般应视各自具体情况区别对待,不要一律删除。比如对于某名学生,若有少量课程成绩遗漏或出现0-100范围外的个别噪声数据则应考虑取平均成绩替代;若遗漏课程成绩门数较多(4门以上)或因学籍异动造成其数据无法有效参与比较,为保证分析的可靠性则应考虑删除。另外对于一些关于教师、课程、班级、专业维度信息数据的缺失或出现不一致的情况则进一步核实后加以填充。如有重修或补考成绩则均采用正考即首次成绩。
2.2数据的转换
对于考查课中的“优”、“良”、“中”、“差”四个层次,为了便于统一分析,应向百分制转换。这里对应关系为:“优”-90、“良”-80、“中”-70、“差”-50。此外,对于源数据表中各属性名、类型及长度都要统一设置并与成绩仓库中对应的维度表及事实表保持一致。
2.3数据的加载
上述各环节工作处理完毕后,接下来就是最后一步即数据的加载。首先在Sql Server 2008 Management Studio环境下建立一个名为“StudentMA”的数据库,然后利用Sql Server中的数据导入功能将已整理好的8个数据表导入到新建的数据库中,如图2所示。在载入目标成绩数据仓库数据库后,还需根据星型逻辑结构和物理结构的具体设计来设置好各表主/外键并为其建立相应索引。
3多维数据集的创建及OLAP技术的应用
3.1多维数据集的创建
进入Sql Server 2008 Business Intelligence Development Studio集成环境后,新建一个名为“学生成绩多维分析”的Analysis Service即SSAS项目,然后使用“解决方案资源管理器”来分别创建项目的“数据源”、“数据源视图”、“多维数据集”。其中“数据源”所对应的连接字符串代码为:
Provider=SQLNCLI10.1;Data Source=SWUST-573110AE0;
图2预处理后数据源导入SQL SERVER 2008
Integrated Security=SSPI;Initial Catalog=studentMA
另外,为了满足决策分析的需要,还需要再通过添加“平均成绩”计算成员来新增度量值,新建的“平均成绩”计算变量(avg? Score)所对应的MDX语句为:
CREATE MEMBER CURRENTCUBE.[Measures].avgScore AS round([Measures].[Score]/[Measures].[Score计数],0), VISIBLE = 1;
创建后的多维数据集视图如图3所示。
图3成功创建后的多维数据集
最后,对SSAS项目“学生成绩多维分析”加以部署和处理操作,部署并处理成功的结果如图4所示。
3.2多维分析及OLAP技术的应用实现
首先可利用SSAS自带的“浏览器”功能进行多维分析和OLAP操作[6]。在“浏览器”界面中,可根据用户的OLAP处理要求来对创建的CUBE加以自由组合其中的维度,只需将左侧窗口界面中的目标对象如维度、维度成员、度量值成员等直接拖动到窗口右侧的显示区域相应位置后即可查看OLAP处理结果。如果要进行数据筛选则需要将筛选条件所涉及到的相应维度名或其成员值拖放到右侧窗口上方的筛选字段指定区域。如图5所示。
另外,由于Microsoft Excel 2007全面支持Sql Server2008的SSAS服务,目前其作为微软前端展现工具中的一个重要组件已在商业智能方面得到了较为广泛的应用[7]。Excel 2007中的数据透视表和数据透视图可直接访问SSAS项目中对应多维数据集,这样就不必开发应用程序即可快速而灵活地生成各种图表及报表。因此可利用该组件来进行多维分析并展现分析结果。
下面通过Excel 2007中的数据透视表来进行多维分析。可在透视表窗口任意组合一些度量值和维度,直接拖动到EXCEL表格模型的相应行列中即可自动生成所需表格数据。如果想以数据透视图方式来展示数据则只需点击工具栏中的柱状小图标即可立即生成对应的透视图。在某些情况下,透视图的显示效果要比透视表会更加直观,如图6、7、8所示。
其中图6为教师、课程、班级所有学年学期信息的汇总显示,细节区域内容为班级人数和平均分;图7为信息工程系建筑设计技术专业在2009年第二学期教师、课程、班级及平均分信息汇总显示;图8为信息工程系道路桥梁工程技术专业在所有学年学期的教师、课程、班级及平均分信息汇总显示。
图4项目成功处理示意图
图5多维分析结果展示
图6利用PivotTables功能在EXCEL前台展示多维分析结果
图7利用EXCEL前台透视图功能展示多维分析结果一
图8利用EXCEL前台透视图功能展示多维分析结果二
4结束语
本文利用Sql Server 2008 Management Studio及Sql Server 2008 BI平台成功构建了学生成绩数据仓库并建立了数据集市,然后进行了OLAP即联机分析处理,最后利用Microsoft Excel 2007前台工具中的数据透视表及数据透视图组件对OLAP分析结果进行了直观展示,为管理者进行科学决策分析提供了重要决策依据。另外,增加数据仓库中的成绩数据量以及对成绩仓库中的数据进行深入挖掘分析将是笔者下一步主要研究内容。
参考文献:
[1]魏丽,王雁苓.高校学生成绩分析数据仓库的建立[J].吉林省教育学院学报,2010(6):42-43.
[2] Jiawei Han,Micheline Kamber.范明,等,译.数据挖掘概念与技术[M].北京:机械工业出版社,2007.
[3]罗跃国.高校教务系统数据仓库的建模及应用[J].长江大学学报:自然科学版,2009(3):235-237.
[4]王丽珍,周丽华.数据仓库与数据挖掘原理及应用[M].北京:科学出版社,2005.
[5]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2006.
关键词:海量数据 NoSQL数据库 高并发处理
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)07-0000-00
1 引言
针对海量移动应用数据构建一套可行的统计分析系统,从基本的数据统计,到深入的数据分析、挖掘,可以为移动互联网企业提供全方位的海量数据解决方案,帮助开发者更好的了解市场动向,了解用户的使用习惯和需求,从而创造出更有价值的移动应用。
2 系统分析设计
本系统的用户为移动应用开发者,系统的最终目的是为开发者们提供一个应用数据的统计分析平台,为开发者提供实时的用户统计数据和应用统计数据,开发者可以利用这些有价值的数据对应用进行调整,从而更好地适应不断变化的市场需求。系统主要完成应用趋势分析,版本分析,渠道分析,用户参与度分析和终端属性统计五部分。应用趋势分析提供对新增用户、活跃用户、留存用户和应用启动次数的统计分析功能,开发者从这些数据中了解当前应用的用户情况,判断出未来趋势。版本分析提供对当前应用所有版本的统计分析,开发者可以从中了解目前市场上的版本分布情况,从而可以对版本的更新迭代做出调整。渠道分析提供对当前应用各市场下载量的统计分析数据,开发者可以从中分析出各市场的推广情况如何,从而有针对性的调整应用的推广策略。
系统分为数据服务器、移动终端和WEB展示端三部分来完成,其整体的功能结构图如图1所示。在实现的过程中充分考虑解决海量数据处理的问题。通过使用非关系数据库NoSQL,Epoll技术及数据库优化技术解决高并发请求,有效地缓解了海量数据对整个系统的压力。系统整体在Linux系统下完成开发,综合运用当前主流高效的开发工具和技术。
数据服务器部分是整个系统的核心部分。数据接收模块负责从移动终端获取用户数据和应用数据,数据缓存模块用于缓存接收到的数据,数据存储模块负责向数据库从存储基础数据,数据统计分析模块负责对基础用户数据进行统计分析操作,处理后的数据用于网站端显示。移动终端部分用于获取数据。基于XML语言对Android界面进行设计,通过对系统函数和XML解析获取用户数据和应用数据,后将数据通过TCP/IP协议发送给服务器端,若网络不允许则将数据临时缓存,等待下一次发送请求。网站展示端向开发者展示最终的统计分析数据。页面设计模块使用CSS对整体风格进行控制,绘图模块使用highcharts,使用php和javascript向highcharts填充数据。
3 系统总体设计与实现
本系统分为数据处理服务器,移动终端,WEB展示端三部分来完成。其中移动终端负责采集用户数据和应用数据,将采集到的数据通过网络传输给数据处理服务器。数据处理服务器一遍负责存储数据,一遍对数据进行统计和分析。统计和分析的结果通过相应WEB端网站的请求反馈给开发者。整体的开发都在Linux系统下完成,移动终端部分使用Android平台,使用Java语言进行开发。数据服务器使用Python进行开发,数据接收部分使用Linux下GCC库,使用C++编写,数据库使用MongoDB。WEB展示端使用PHP语言进行开发,整体风格使用Bootstrap框架。同时使用Git作为版本控制工具,用GitHub作为版本容器,方便团队协作和代码更迭。
3.1 数据处理服务器架构
数据处理服务器需要实现数据接收、数据缓存、数据存储和数据处理四部分功能。
数据处理服务器负责接收移动终端发送过来的用户数据,通过高并发处理手段缓存到本地。数据库处理程序负责从缓存文件中读取数据插入到数据库中。数据库处理程序同时需要对基础数据进行统计和分析处理,存储到相应集合空间去。数据接收部分需要解决高并发请求。移动终端与服务器之间的通信使用TCP/IP协议,使用非阻塞的Socket连接来轮询用户请求。整体的底层架构使用Epoll库,能够很好的支持万级别的并发量。数据缓存部分使用文件直接缓存。为了避免文件同时读写的锁定问题,文件缓存按照一定的时间间隔写入不同的文件中去。使用脚本文件拷贝写入完成的数据文件到另外的文件夹用于向数据库中写入,写入完成之后再将文件删除。脚本使用python语言编写。数据写入部分也使用python进行编写,数据采用非关系数据库MongoDB。非关系数据库在解决海量数据处理的问题上有着独有的优势,降低了程序与代码的耦合度,同时还保证了数据存储的可靠性。使用python处理数据写入时需要用到MongoDB的python语言驱动,一般用pymongo即可。数据处理部分也使用python编写。程序从MongoDB中读取完数据之后,按照业务逻辑的要求对数据经行统计和分析。比如统计出某一应用一天的启动次数。将这些统计数据存入到新的集合中去,留作网站展示端进行检索。这样可以大大减少网站端实时搜索对数据服务器造成的压力。
3.2 移动终端架构
移动终端分为数据获取、数据缓存、数据传输和界面设计四部分。移动终端整体架构使用MVC设计模式。前端界面设计使用XML进行配置,控制层将获取到的数据一部分送至前端显示,一部分送至数据服务器进行存储。数据缓存使用SQLite保存未能发送至服务器的用户数据。数据获取指获取用户设备参数和用户应用数据,设备参数包括设备的型号、分辨率、入网方式、内容服务商、系统版本号等,用户应用数据包括应用的包名、版本号、启动时间、使用时长、渠道信息、页面访问路径等。数据缓存部分主要为了保证数据的完整性,因为用户的设备并不能时刻保持网络接入。当用户处于离线状态时,使用SQLite保存用户信息。当用户再次启动时检测是否有网络接入,当发现网络接入时将上一次的数据发送出去,同时清空SQLite数据库。数据传输使用TCP/IP协议向数据库服务器发送数据包。因为数据库采用NoSQL数据库,NoSQL数据库的存储格式为BSON(BSON是对JSON格式的二进制化),因此在数据发送之前需要将数据序列化为JSON格式。数据发送时需检测数据是否正常发送,如果没有正常发送则进行重发操作。界面设计采用Android标准开发模式,使用XML文件配置界面。顶部使用Google官方库ActionBar,中间部分为ListView组件,ListView的每个Item都为一个数据,表示移动终端获取到的某个变量。
3.3 网站展示端
网站展示端包括前端设计、数据处理和数据报表三部分。
前端设计以美观大方为目标,使用twitter前端开源框架Bootstrap。Bootstrap提供了优雅的HTML和CSS书写规范,它由Less写成,Less是一种优美的动态CSS语言。使用Ajax、jQuery、Javascript等前端技术,融入最新的HTML5、CSS3结构设计,优化UI的整体表现。数据处理使用PHP和 javascript。使用PHP语言的MongoDB驱动连接数据库,获取数据库中相应的数据,格式化成json数据之后再送给前端的javascript层。Javascript与前台界面经行交互,控制前台界面的展示效果。数据报表部分是整个网站展示端的核心,主要用户想用户展示各种类型的统计分析数据。包括柱状图、折线图、饼图等。图形的绘制使用开源项目Highcharts。Highcharts是一个使用纯javascript编写的图标库,可以便捷的在WEB网站显示交互性的图表。
参考文献
[1] 谭磊.New Internet:大数据挖掘[M].北京:电子工业出版社,2013(2):13.
[2] 艾荣荣.基于电信统计分析平台的关键性指标分析系统设计与实现[D].西安:西安电子科技大学,2010.2-4.