前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据分析方向主题范文,仅供参考,欢迎阅读并收藏。
[关键词]财政收入;GDP;面板数据
中图分类号:F01 文献标识码:A 文章编号:1006-0278(2013)02-024-01
在计量经济学中,我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析,但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中,截面数据回归分析会遗漏掉数据的时间序列特征,例如在分析某年中国各省的GDP增长数据时,单纯的截面数据回归分析无法找出各省GDP随时间变化的特征,使得分析结果没有深度。而如果只用时间序列分析,则会遗漏掉不同截面间的联系与区别,例如在分析中国单个省市的GDP随时间增长的数据时,无法找出各个省市之间经济增长的联系与区别,因而同样无法满足我们的需要。而面板数据,是一种既包括了时间序列数据,也包括了相关截面数据的复合数据,是近年来用得较多的一种数据类型。
下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。
一、GDP与财政收入关系的经济学模型
财政收入是保证国家有效运转的经济基础,在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快,财政收入不断扩大,而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系,把握财政收入与经济增长之间的相互影响,发挥财政收入对经济发展的调节和促进功能,对于完善财税政策,深化财税体制改革,实现财政与经济之间的良性互动,具有重要的现实意义。文章就将从中国各省的面板数据出发研究,中国不同地域间财政收入和GDP之间的关系。
二、实证分析
(一)单位根检验
Eviews有两种单位根检验方法,一种在相同根的假设下的检验,包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下,包括IPS,ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设,因此序列GDP和CZSR均为一个2阶单整序列。
(二)协整检验
如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。
在最终的结果中,Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设,同样Kao和Johansen检验方法也都拒绝原假设,因此,上述检验结果表明,我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的,因此可以在此基础上直接对进行回归分析,此时假设方程的回归结果是较精确的。
三、建立模型
混合模型:如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。
我们根据混合模型的回归结果,得到财政收入和GDP之间的回归方程为:
CZSR=227.3123+0.103224*GDP
(26.47637)(0.002839)
R2=0.810995 F=1321.587
显然从模型的回归结构来看,R2的值达到了0.81,有了比较好的回归解释力,同时,GDP的回归系数为0.103224,表明各省的财政收入平均占到了国民收入的10.3%左右。
变系数模型:显然,在中国各省之间由于处在不同的地区,因而拥有不同的区位优势,那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化,此时在进行模型回归的时候,我们就有必要考虑变系数模型。
在回归结果中,R2的值达到了0.97,比混合模型拥有更好的回归解释力,而在变系数模型回归结果中,GDP的回归系数大于0.5的只有、青海、宁夏三个省份,也就是说这三个省份的财政收入占到了GDP的50%以上,他们同处于经济并不是很发达的西部地区,由此可以看出,处在经济发达地区的财政收入占GDP的比重要低,而不发达地区则要高。
四、结论
通过以上的分析检验,我们发现针对于中国财政收入和GDP的面板数据,我们应建立起变系数模型,并通过模型分析,我们可以得出这样的结论,中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同,造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们,我国西部地区的财政收入占GDP的比例要明显高于东部地区,地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此,这为我们改善我国落后地区的经济发展提供了一定的新思路,就是对一地区的税收征收可以适当放缓,而将GDP中以前政府占用的部分归还于民众和企业,因为,按照发达地区的经验表明,财政收入所占比重过高,经济发展的活力或者就不会很高,对于进一步刺激财政收入的增加也没有任何帮助。因此,我们应该适度降低财政收入占GDP的比重,从而增加经济活力,使西部地区以及落后地区及早的跟上东部发达地区的发展步伐,从而消除我国经济发展的地域不平衡。
参考文献:
[1]谢识予,朱洪鑫.高级计量经济学[M].复旦大学出版社,2005.
[2]张晓峒.Eviews使用指南(第二版)[M].南开大学出版社,2004.
一.羊毛党分工
他们内部有着明确的分工,形成了几大团伙,全国在20万人左右:
软件制作团伙:专门制作各种自动、半自动的黑产工具,比如注册自动机、刷单自动机等;他们主要靠出售各种黑产工具、提供升级服务等形式来获利。短信代接平台:实现手机短信的自动收发,其实一些平台亦正亦邪,不但提供给正常的商家使用,一些黑产也会购买相关的服务。账号出售团伙:他们主要是大量注册各种账号,通过转卖账号来获利;该团伙与刷单团伙往往属于同一团伙。刷单团伙:到各种电商平台刷单,获取优惠,并且通过第三方的电商平台出售优惠,实现套现。
二.“羊毛党”从业特点这些黑产团队,有三个特点:
专业化:专业团队、人员、机器来做。团伙化:黑产已经形成一定规模的团伙,而且分工明确;从刷单软件制作、短信代收发平台、电商刷单到变卖套现等环节,已经形成完整的刷单团伙。地域化:黑产刷单团伙基本分布在沿海的一些经济发达城市,比如,北京、上海、广东等城市,这或许跟发达城市更加容易接触到新事物、新观念有关。
三.对抗刷单的思路
对抗刷单,一般来讲主要从三个环节入手:
注册环节:识别虚假注册、减少“羊毛党”能够使用的账号量。在注册环节识别虚假注册的账号,并进行拦截和打击。登录场景:提高虚假账号登录门槛,从而减少能够到达活动环节的虚假账号量。比如,登录环节通过验证码、短信验证码等手段来降低自动机的登录效率,从而达到减少虚假账号登录量、减轻活动现场安全压力的目的。活动环节:这个是防刷单对抗的主战场,也是减少“羊毛党”获利的直接战场;这里的对抗措施,一般有两个方面:1)通过验证码(短信、语音)降低黑产刷单的效率。 2)大幅度降低异常账号的优惠力度。
本标准的认知内容是交通运输方式和布局的变化对聚落空间形态和商业网点布局的影响,主要包含四部分内容,一是交通运输方式的变化对聚落空间形态的影响,二是交通运输布局的变化对聚落空间形态的影响,三是交通运输方式的变化对商业网点布局的影响,四是交通运输布局的变化对商业网点布局的影响。涉及的概念是“聚落空间形态”,指人类聚居地的外部形态,包括水平方向和垂直方向。
本标准的行为动词是“分析”,属于“理解”层次的水平要求,即分解、剖析之意。先静态理解在不同交通运输方式(交通站点、交通线路、综合交通网)影响下的聚落空间形态,以此为基础动态理解交通运输方式和布局变化影响聚落空间形态的一般过程,掌握其影响的一般规律及本质原因;某个城市在某个时期依赖的交通运输方式发生兴衰变化,必然会带来相应城市空间形态的扩张或者停滞甚至萎缩。从形成条件(即组织商品和聚集消费人群)认识商业与交通运输的关系,理解交通运输是影响商业网点区位、规模、密度等的重要因素,交通运输的发展会带来商业网点布局的新形式和新变化。分析的结果都要落实到地域联系上,城市空间形态的改变是交通带来的人员和物资流动体现的地域联系,商业网点布局的变化也是如此。理解交通是影响聚落空间形态和商业网点布局变化的重要因素之一,自然、经济、历史人文都是影响因素。
本标准的行为条件是“结合实例”,是对学生“学习过程与方法”的要求,要求分析过程应从实例中来,分析得出的结论要能运用到实例中去。教师要选取交通运输方式和布局变化影响聚落空间形态和商业网点布局的典型实例,引导学生正确分析实例,发现规律,认识本质。训练学生掌握从分析实例到概括规律再到认识本质的学习方法,逐渐学会从特殊到一般、从具体到抽象的思维方式。
二、知识体系分析
常见的五种交通运输方式在前一内容标准中已经涉及,因此,在实施本内容标准时可以将这五种交通运输方式进行适当处理,按照运输线路所处空间将其分为三类,即陆路运输、水路运输和航空运输,这种划分方法能更直观地通过空间属性,将运输方式与聚落空间形态和商业网点布局联系起来。三种运输类型的比较如表1。
由表1可以看出,三种运输类型的区别在于线路所处空间不同,共同点是站点所处空间都在陆地上。由于聚落和商业都是布局在陆地上,因此,聚落的空间形态与三种运输类型的站点、陆路运输和内河航运的线路所在位置及布局密切相关,这是分析其影响过程的知识基础。陆路运输的站点、线路和内河航运的线路对聚落空间形态有影响,海上运输和航空运输只有站点能影响聚落的空间形态。有一个特殊的例外,即管道运输的线路是封闭的,它对聚落空间形态影响不大。
聚落空间形态按方位划分为水平形态和垂直形态。商业网点按空间位置可分为城区的商业街和商业小区、郊区的购物中心和乡村的零售商店。
在影响城市空间形态的众多自然和社会经济因素中,交通运输是一个很重要的因素。商业形成的两大条件――畅通的顾客流和商品流,都离不开交通运输。交通运输是影响城市空间形态和商业网点的最具地理特色的因素,体现了地域联系。
交通运输方式对聚落空间形态的影响,包括站点和线路以及综合交通运输网带来的影响。受单一交通站点影响,城市空间形态呈点状(在小比例尺地图上观察),多属于城市发展早期,可见于部分欠发达的村镇聚落。受单一交通线影响,城市空间形态呈条带状(在小比例尺地图上观察),多属于城市发展中期,可见于部分小城镇聚落。受综合交通网影响,城市空间形态呈面状或星状。它们在发展中综合,在变化中体现影响。既要从某一时刻的静态去把握,又要从时间演替和空间差异中去分析。
交通运输方式和布局的变化对聚落空间形态和商业网点的影响中,“变化”表明了两层含义:一是指时间变化,不同时代有不同的生产力水平和主流运输方式,受其影响的聚落空间形态和商业网点特征不同,交通繁忙时城市空间形态和商业呈扩张状态,交通衰落时则呈停滞甚至萎缩状态;二是指空间变化,即空间差异,不同区域的自然环境不同,以此为基础形成的生产力水平和主流运输方式也不同,聚落空间形态和商业网点特征各异。“变化”的产生还存在两种情况:一是自发的变化,一是人为的变化即规划。这两种情况下的聚落空间形态和商业网点特征也不尽相同。在这里,交通运输方式和布局是“因”,聚落空间形态和商业网点的特征是“果”。
交通运输方式和布局、聚落空间形态和商业网点都属于人类活动的组成部分,它们都以自然地理环境为基础,应遵循因地制宜的原则,即要达到先天具备条件、满足人类需要、保护自然环境的要求,在此基础上方能实现可持续发展。
三、能力层次分析
“结合实例,分析……”,意味着落实本标准的认知方式是从特殊到一般,即先有实例,后有规律原理。这样要求,不仅降低学习难度,还培养地理学习兴趣。
交通运输方式对聚落空间形态的影响,遵循的一般规律是:其影响过程是由“点”到“线”再到“面”的发展,即城市空间形态首先是在交通站点(也称节点)形成点状形态,然后沿交通线延伸成线状形态,最后在多条交通线和多个站点的引导下发展成面状,在形成面状之前还可以形成放射状或星形的形态。在城市发展的自发状态下,这一过程体现十分明显。遵循的原理是:交通通达性提高,土地价值增大,土地利用方式由乡村用地转变为城市用地,城市空间形态随之改变。
商业的发展离不开便捷交通带来的大量消费人群和商品流。交通运输方式对商业网点布局的影响,遵循的一般规律是:商业点一定是布局在交通便捷的位置,交通越便捷,商业点规模越大,交通网密集,商业网点也密集。布局商业网点要遵循交通便利原则。遵循的原理是:交通为商业提供了源源不断的商品和消费人群,是商业发展的主要动力。
在规划城市空间形态和商业网点时,除了要适应当地的自然和社会经济条件外,还应遵循城市空间形态发展的“点线面”规律和商业网点布局的交通便利原则,选择适宜的交通运输方式是前提,布局好城市交通运输的站点和线路、形成合理的城市空间形态和商业网点,是方便人们生产生活和建设宜居城市的现实需要。
四、教学价值分析
本标准的教学价值体现在四方面:一是对现实世界聚落空间形态和商业网点的解释价值;二是对聚落空间形态未来发展的规划价值;三是科学合理选择商业点区位的实用价值;四是提升学生地理素养的教育价值。
对于任何一个城市的空间形态,都能解释其由来,理解一个城市为何会形成现在的空间形态。关键是掌握分析城市空间形态的方法,主要从交通运输方式和布局的角度着手,便利的交通有利于居民出行和货物流通,提高土地价值,变乡村用地为城市用地,形成城区。理解一个商业中心或商业点为何选择现在的位置,也要从便利的交通能够带来大量消费人群和商品流的角度去分析。
城市空间形态对城市管理和发展意义重大。在城市规划时,必须选取适宜的交通运输方式,进行合理布局,在可预期的时期内,形成合适的城市空间形态,方便城市的管理,促进城市的持续发展。
关键词:基尼系数 居民收入 分配方式
基尼系数自1922年提出至今,计算方法已较丰富,近年又有一些发展。程永宏(2006)建立了城乡混合基尼系数的新算法,并给出新的分解形式,还提出并论证了度量城乡差距的新指标。该分解形式具有明确的经济含义和理论意义,且不依赖于“城乡收入分布不重叠”的假定,在其后的研究中进一步论证了一种适合多亚组的基尼系数组群分解新方法。王祖祥等(2009)采用城乡收入分配统计分布的构造方法,利用《中国统计年鉴》(1995 - 2005)的收入分配数据估算了我国的基尼系数。陈建东(2010)介绍了按不同分组分解基尼系数的各种方法,探讨了它们之间的内在联系,在此基础上根据按城乡分解基尼系数的方法计算了自1996 年至2007 年的中国基尼系数。段景辉(2010)利用《中国城乡居民生活综合调查》(2004年)的有关家庭收入抽样调查数据,首次考察发现全国和各地区城乡家庭人均收入的对数服从由Pareto分布、正态分布和指数分布构成的混合分布。与通常的利用分组数据计算基尼系数不同,他综合了全部抽样家庭的人均收入信息,应用分布函数法对全国、各省(市、自治区)以及东、中、西部地区的城镇基尼系数、农村基尼系数和城乡混合基尼系数进行了测算,进一步对城乡混合基尼系数进行城乡分解,得到了城镇和农村内部收入差距以及城乡收入差距对混合基尼系数的贡献大小。徐映梅(2011)利用1978-2007年我国居民收入分配的分组数据测算了多个基尼系数,采用参数和非参数多种方法估计了基尼系数的分布服从渐近正态分布,基于大样本渐近特征我国基尼系数警戒水平的估计值。
以上文献从各种不同的角度对基尼系数的估算方法进行了研究,但计算过程都比较复杂。胡祖光认为在收入五分法下,基尼系数的计算可用最高收入组与最低收入组各自所占的收入比重之差来计算,这在一定条件下可以简化基尼系数的计算。同时,他还推导出基尼系数的理论最佳值为三分之一。本文在此基础上进行分析。
基尼系数的理论最佳值
基尼系数是反映财富分配是否平等的指标,过大和过小都不是经济发展的最佳状态。收入分布过于悬殊,表明社会财富分配严重不合理,容易引发社会矛盾。收入分布过于平均,不仅会影响社会的生产效率,而且会影响社会产品的更新换代,这可以从生产与消费相适应的角度来分析。如果某国或地区的收入分布平均化趋势十分明显,通常会导致一种可称之为居民消费的“排浪”现象出现,即当一种新消费品一个人能买得起时,大多数人都已到了能买得起的阶段,就会迅速形成消费浪潮。当该类消费品成为一种时尚或成为消费偏好的主要对象时,以追逐这类消费品为目标的“排浪”现象就会出现。此时,该商品供不应求,生产该类消费品的厂家就会频频告急,但等到“排浪”过去后,该类消费品又会供大于求,直至最后无人问津。显然,这是一种收入分布过于平均所导致的对社会生产有着明显不利影响的情况。另外,由于社会需求变化要求消费品不断更新,收入分布平均化的“排浪”现象会致使下一轮的“排浪”需求排斥上一轮的热点消费品。这样一来,原先被需求所刺激而生产出来的大量消费品只能积压在仓库中,居民家中的二手货也不易处理,从而出现了根植于收入分布平均化而导致的社会生产和消费的低效率的情况。
既然收入过于平均有损于效率,过于悬殊又影响公平,这就要求社会收入分布必须呈阶梯状。这种收入分布能维系一种与人们的消费水平对应的循序渐进的消费模式。这种消费模式能使一种失去时尚偏好的、价格看跌的耐用消费品由较高收入阶层转入次级收入阶层,避免了出现“排浪式”的消费对生产的冲击,而且当一个阶层的居民要想更新消费品时,会有下一个阶层的居民来接手。这样不仅不会产生社会财富的浪费现象,还能使相对较为贫穷的阶层居民能买到价廉物美的物品。那么,对于这样一种循序渐进的消费秩序反映在基尼系数上会对应着一个怎样的数值呢?这个数值就应该是基尼系数理论上的最佳值。
洛伦兹曲线是反映社会收入分配不平等程度的几何直观表示,它的横轴表示收入从低到高的累计人口数占总人口数的百分比,纵轴表示累计收入占总收入的百分比。根据社会经济的现实,洛伦兹曲线具有明显的单调递增及向下的凸性特征,如图1 所示。图1 中,曲线OA1 A2 An是洛仑茨曲线。若记S1为直线OAn与曲线OA1 A2 An之间的面积,S2为曲线OA1 A2 An与直线OBn和An Bn所围曲边三角形OA1 A2 An Bn的面积,S为ΔOAn Bn的面积,显然S= 0.5,由基尼系数的定义,G=S1/S=S1/0.5=2S1=2(S-S2)=1-2S2。因此,要求基尼系数,只要求出曲边三角形OA1 A2 An Bn的面积S2即可。
为求曲边三角形OA1 A2 An Bn的面积S2,把OBn分成n等份,每份长度即为1/n,并从B1,B2,…Bn作横轴的垂线B1 A1,B2 A2,…Bn An,显然这些垂线的长度表示收入的累计百分比,记为P1,P2,…Pn,分别表示n个阶层收入在总收入中的比例,则 :
这样,曲边三角形OA1 A2 An Bn被分割成n个高为1/n的曲边梯形或曲边三角形之和,可以计算其面积为:
,则:
,
其中Ii表示第i个人的收入,I表示全社会所有成员的收入之和。假设该地区共有n=m+1个人,他们的收入呈等差数列,其中最低者的收入为a元,按收入从低到高排序,后者收入比前者依次高d元,即收入分别是a,a+d,a+2d,…,a+md,于是有:
由于d和a是常数,当m充分大时,该式等于0.33,即G=0.33,这就是基尼系数的理论最佳值。
最佳值对应的居民收入分配方式分析及分配现状研究
居民收入分配格局有金字塔形、哑铃形、倒丁字形及橄榄形,其中橄榄形是一种相对公平的分配格局。2010年4月在《求是》杂志撰文,提出要逐步形成中等收入者占多数的橄榄形分配格局。下面的讨论说明,如果居民收入按等差数列排列,将基本符合橄榄形分配格局。
设某地区有n个成员,全区总收入为I,每个成员的收入分别为,, …,。显然,每个成员的收入呈等差数列递增,公差为。容易计算:
由此可见,该区成员的收入分配按从低到高排列的累计收入占总收入的比值分别为。以该地区的累计人口所占总人口的比例为横坐标,相应人口的累计收入占总收入的比例为纵坐标,所得坐标点为,,,这些点的坐标都满足函数y=x2。由于n足够大,可以认为所有点组成了一条连续的曲线,容易算出该函数y=x2在(0,1)之间与x轴所围面积为 :。
于是,该值恰好等于基尼系数的理论最佳值。因此,若收入分布所拟合的洛伦兹曲线与抛物线y=x2在(0,1)之间的图像越接近,基尼系数就越接近最佳值。另外如果照此分配个人收入,那么可以计算最低收入的20%人口占有社会总收入的4%,最高收入的20%人口占有总收入的36%,中间收入60%的人口占有总收入的60%,基本符合橄榄形分配结构的特征。
因此,该函数y=x2在区间(0,1)上的曲线就是基尼系数最佳值所对应的洛伦兹曲线的最佳拟合。
表1是2000年和2010年我国居民分城乡按收入等级五等分调查人口的人均收入及所占比例。从表1可以看出,2000年城镇居民人均收入呈现一个比较好的态势,中层收入者占有55%左右的财富,基本符合橄榄形分配结构的特征。但到了2010年,高收入者所占收入比例剧增,达到了40%以上,超过前面分析的36%的界限,而相应的其他阶层都有不同程度的下降,说明城镇收入分配越来越不平等,财富更多地集中在少数富人手里。2010年农村人均收入结果也表明,中低收入者基本呈现等差数列的排列方式,但由于高收入的20%人口占有42%的收入,使得中低收入者的人均收入偏低,与橄榄形分配方式有着较大差距。
完整的数据分析主要包括了六个既相对独立又互有联系的阶段,它们依次为:明确分析目的和思路、数据准备、数据处理、数据分析、数据展现、报告撰写等六步,所以也叫数据分析六步曲。
明确分析目的和思路
做任何事都要有个目标,数据分析也不例外。经常有一些数据分析爱好者,向数据分析高手请教以下问题:
这图表真好看,怎么做的?
这数据可以做什么样的分析?
高级的分析方法在这里能用吗?
需要做多少张图表?
数据分析报告要写多少页?
为什么这些数据分析爱好者会提出这些问题呢?原因很简单,就是他们没有明确的分析目的,为了分析而分析,而且一味追求高级的分析方法,这就是数据分析新手的通病。
如果目的明确,那所有问题就自然迎刃而解了。例如,分析师是不会考虑“需要多少张图表”这样的问题的,而是思考这个图表是否有效表达了观点?如果没有,需要怎样调整?
所以在开展数据分析之前,需要想清楚为什么要开展此次数据分析?通过这次数据分析需要解决什么问题?只有明确数据分析的目的,数据分析才不会偏离方向,否则得出的数据分析结果不仅没有指导意义,甚至可能将决策者引入歧途,后果严重。
当分析目的明确后,我们就要对思路进行梳理分析,并搭建分析框架,需要把分析目的分解成若干个不同的分析要点,也就是说要达到这个目的该如何具体开展数据分析?需要从哪几个角度进行分析?采用哪些分析指标?
同时,还要确保分析框架的体系化,以便分析结果具有说服力。体系化也就是逻辑化,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑关系。如何确保分析框架的体系化呢?可以以营销、管理等方法和理论为指导,结合实际业务情况,搭建分析框架,这样才能确保数据分析维度的完整性、分析框架的体系化、分析结果的有效性及正确性。
营销方面的理论模型有4P理论、用户使用行为、STP理论、SWOT等,而管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。
明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据收集、处理以及分析提供清晰的指引方向。
数据准备
数据准备是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。这里所说的数据包括第一手数据与第二手数据,第一手数据主要指可直接获取的数据,如公司内部的数据库、市场调查取得的数据等;第二手数据主要指经过加工整理后得到的数据,如统计局在互联网上的数据、公开出版物中的数据等。
数据处理
数据处理是指对采集到的数据进行加工整理,形成适合数据分析的样式,保证数据的一致性和有效性。它是数据分析前必不可少的阶段。
数据处理的基本目的是从大量的、可能杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。如果数据本身存在错误,那么即使采用最先进的数据分析方法,得到的结果也是错误的,不具备任何参考价值,甚至还会误导决策。
数据处理主要包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法。一般拿到手的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。
数据分析
数据分析是指用适当的分析方法及工具,对收集来的数据进行分析,提取有价值的信息,形成有效结论的过程。
在确定数据分析思路阶段,数据分析师就应当为需要分析的内容确定适合的数据分析方法。到了这个阶段,就能够驾驭数据,从容地进行分析和研究了。
由于数据分析大多是通过软件来完成的,这就要求数据分析师不仅要掌握各种数据分析方法,还要熟悉主流数据分析软件的操作。一般的数据分析我们可以通过Excel完成,而高级的数据分析就要采用专业的分析软件进行,如数据分析工具SPSS、SAS等。
数据展现
通过数据分析,隐藏在数据内部的关系和规律就会逐渐浮现出来,那么通过什么方式展现出这些关系和规律,才能让别人一目了然呢?一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。
常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、瀑布图、漏斗图、帕雷托图等。
多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析师所要表达的观点。一般情况下,能用图说明问题的,就不用表格,能用表格说明问题的,就不用文字。
报告撰写
数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,以供决策者参考。所以数据分析报告是通过对数据全方位的科学分析来评估企业运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力。
一份好的分析报告,首先需要有一个好的分析框架,并且层次明晰,图文并茂,能够让读者一目了然。结构清晰、主次分明可以使阅读对象正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于读者更形象、直观地看清楚问题和结论,从而产生思考。
另外,分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。
①大数据分析
②大数据可视化
③BI商业智能分析
④大数据检索
⑤产品大数据分析
⑥大数据预测、咨询
⑦大数据服务支撑平台
⑧机器学习技术
“大数据分析、可视化及BI领域——
虽然这三个领域在功能及应用范围上各有千秋,但实质上可以说是相辅相成:通过大数据的基础分析工具,研究人员可以获得数据内部的逻辑及结果表现,但通常这些结果过于复杂并缺乏合理的表达形式,使数据科学家及企业的管理者无法快速领会并对经营活动进行调整。
因此大数据的可视化方案应运而生,多数可视化方案都作为数据分析工具的延伸而存在,但也有少部分公司另辟蹊径,采用非传统方式将数据的可视化更加贴近需求。BI则是大数据分析和可视化与业务场景的结合,作为企业内部管理工具,使企业的价值有了极大的增长,成为了大数据应用领域重要的一环。
{ 1 }大数据分析领域,在朝向易用、简单化发展
大部分大数据分析企业的现状,可以说是将数据的分析、可视化及数据的采集、治理、集成进行了一体化,以大数据的分析平台形式存在。例如Fractal Analytics除了具备数据分析功能外,还提供自动化数据清理及验证服务,能够返回标准化的结构化数据;Voyager Labs则能够实时采集、分析遍布世界各地的数十亿个数据点,帮助用户进行预测。
上述典型公司主要面向大型企业进行定制化全流程服务,客单价有时高达千万美元级别,例如Fractal Analytics的客户就包括飞利浦、金佰利等大型公司,其高昂的价格及服务令小型企业望尘莫及。
但随着大数据技术的逐渐普及,SaaS化的大数据分析服务将是一个明确的发展方向,而其使用门槛也将大幅降低,从而将大数据分析的能力逐步赋予给中小企业,以真正的实现其基础资源的价值。同时确保企业数据安全的数据脱敏、数据保护市场也会随着SaaS化的到来而逐步拓展出新的市场空间。
目前大数据技术简化、低成本、易用的趋势已经在部分公司的产品策略上有所体现,例如大数据分析公司Domino的产品让数据科学家只需专注于自己的分析工作,而不用关注软硬件基础设施的建立及维护,Datameer更进一步开发出的产品屏蔽了复杂的大数据分析底层技术,通过类似电子表格的可视化数据分析用户界面,让企业的员工能够快速上手使用,RapidMiner Studio可零代码操作客户端,实现机器学习、数据挖掘、文本挖掘、预测性分析等功能。
在大数据分析能力普及的同时,提升数据分析性能、优化数据分析结果的技术研发也在快速进展中。例如SigOpt通过自主开发的贝叶斯优化(Bayesian Optimization)算法来调整模型的参数,获得了比常见的网格搜索(grid searching technique)解决方案更快、更稳定、更易于使用的结果,目前SigOpt的产品不仅可以让用户测试不同变量,还能够提供下一步的测试建议,以帮助用户持续优化改善数据分析结果。
令人感到欣喜的是,在大数据分析领域还存在着一些颠覆了传统数据分析理论,采用独特方式方法进行数据分析的公司。这类公司的技术对传统数据分析方法进行了很好的补充,在特定领域有着成功的应用。
这类公司中的典型之一是由三位全球顶尖的数学家创立的Ayasdi,它利用拓扑数据分析技术和上百种机器学习的算法来处理复杂的数据集,不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类,这种方法目前在基因与癌症研究领域大显身手,例如一位医生利用Ayasdi的数据分析技术发现了乳腺癌的14个变种,如今Ayasdi已经在金融服务和医疗保健行业中获得了相当数量的客户。
{ 2 }可视化技术,逐步实现了自动化、智能化
大数据可视化是连接数据分析结果与人脑的最好途径,因此可视化技术的高低也成为了左右大数据企业获客能力的重要因素。目前可视化的发展方向同大数据分析一致,都是朝着简单、自动化、智能的方向在努力。
典型企业如Alteryx是一个提供一站式数据分析平台的初创公司,旨在让用户在同一个平台上完成数据输入、建模以及数据图形化等操作,将数据运算与精美的图像完美地嫁接在一起,并能够和SAS和R语言一样进行数据的统计和分析。
通过可视化帮助用户实现真正的管理能力提升也是重要的功能之一,德国大数据公司Celonis通过流程挖掘技术,从日常记录中提取数据、发现关键因素,并最终揭示公司在业务中的执行情况,能够帮助客户公司提高30%的工作效率。
发展到如今,可视化技术已经不局限于传统的分析结果展示,而是能够直接转换文本、图片等非结构化的数据并直观展现,例如Quid利用机器智能读取大量文本,然后将该数据转换为交互式视觉地图,以节约过去通常会耗费在阅读检索中的大量时间。Origami帮助营销人员将CRM、社交媒体、邮件营销和调查报告等跨平台的数据整合并进行有效分析,使其简单化、直观化、视觉化,人人都能够高效实用。
同时数据分析及可视化对硬件应用的革新也在进行中,开发GPU关系数据库服务的Kinetica获得了5000万美元A轮融资,采用同一技术路线的MapD也已经能够做到比传统计算内核快100倍的速度对大数据进行查询与可视化。
{ 3 }BI技术摆脱"鸡肋",实时便捷普惠政企效率提升
BI技术的发展已经有了较长的历史,但由于技术因素此前一直被限制于企业内部采集与应用,实际发挥的效果有限并且使用率不高。如今在数据采集与应用范围普及与大数据分析、可视化技术的推动下,通过数据仪表板、智能决策等方式提升企业运营效率利器的BI再次获得了资本市场的青睐,Tableau作为BI的代表性企业已经顺利IPO目前市值超过48亿美元,另一家代表性企业DOMO估值也达到20亿美元,成长速度远超传统商业软件公司。
相比于可视化技术,BI更偏重于实际的应用,通过模板化、SaaS化及去代码等方式,BI应用范围不再局限于数据科学家及企业高管,可预见未来企业内部每个员工都可以通过BI工具获知自己及所处部门的各项数据,并能够有针对性的改进工作方式与方向。
已经累计融资1.77亿美元的Looker令用户能够使用自然语言进行查询,降低了查询大型数据集的门槛;GoodData为企业提供大数据分析SaaS服务,其所有的数据分析服务实现了100%云化,企业可以将公司已有数据导入GoodData的云平台,再对数据做跟踪、切分、可视化、分析等处理。
BI领域一个有意思的应用案例是Qlik公司的产品受到了中国海关总署的高度赞扬。海关总署每天都需要进行庞大的数据分析,Qlik则通过图形化数据展示,使海关管理人员不再受平台和时间的限制,能够多视角长跨度的分析,实现了对于现有海量数据的业务的快速展示,极大地促进了稽查效果。
“企业大数据检索、产品大数据分析、大数据咨询预测、大数据平台及机器学习领域——
企业大数据检索能够充分挖掘并释放企业数据的潜力;产品的大数据分析使用户行为成为了产品设计与运营环节的重要参考因素;大数据技术与咨询业务的结合则对咨询行业形成了很大的影响,数据技术导向的咨询业务将极有可能成为未来行业的主流选择;大数据服务支撑平台类企业则为大数据技术的普及和实用化做了很大的贡献,是大数据技术生态中不可或缺的一环;最后是机器学习,作为大数据分析的底层技术方法也逐渐开始得到广泛应用。
首先将企业大数据检索、产品大数据分析、大数据咨询预测、大数据平台和机器学习这五个领域的典型企业列举如下,接下来将分版块进行详细介绍。
{ 4 }企业大数据检索
移动互联网的普及与SaaS服务的兴起令企业沉淀的数据量呈指数级上升,但目前对企业数据价值的挖掘仅仅停留在较浅层面,真正的大数据分析能力还尚未应用。因此如何做好企业内部数据信息价值的发掘成为了关键的第一步。
提升企业数据挖掘检索能力,并将检索的技术门槛降低的典型企业有Algolia,目前其产品具备关键字输入智能容错功能,并提供搜索排名配置,能够让普通员工也能按需要找到自己所需的数据信息。同时Algolia还为移动设备提供了离线搜索引擎,其C++ SDK可以嵌入到应用服务器端,这样即便没有网络连接应用也能提供搜索功能,适用范围很广。
而在SaaS化服务兴起的同时,企业采用多种软件导致内部数据不联通而形成了数据孤岛。根据互联网女皇Mary Meeker的分析,不同行业的公司平均使用SaaS服务的数量从最低25个至高达91个,需要跨平台数据检索分析服务。Maana开发的数据搜索和发现平台Maana Knowledge Graph,其长处便是收集来自多个系统或者"孤岛"的数据,并将其转换为运营建议,可广泛应用于多个行业。
{ 5 }产品大数据分析
产品大数据分析相对其他应用来说关注度稍低,但其能够发挥的功能并不少。通过收集用户的浏览、点击、购买等行为,不单从宏观上能够察觉用户群体的喜好变化提前应对,微观上还能够构建用户画像,从而做到定制的产品推荐与营销,能够有效的提升用户的消费水平与满意程度。
Mixpanel便是一家提供类似产品的公司,其让企业用户跟踪用户的使用习惯提供实时分析,其产品有用户动态分析(Trends)、行为漏斗模型(Funnels)、用户活跃度(Cohorts)及单用户行为分析(People)等几个模块,全面的覆盖了可能发生的用户行为与场景。
{ 6 }大数据咨询预测
如今大数据技术的发展为事件分析和预测提供了可能,并且准确度和处理速度已经具备了很大竞争力,传统咨询公司的处境类似于现在面对AI威胁的华尔街分析师,或许不久之后就将会被替代。因此随着逐渐出现大数据咨询公司的同时,传统咨询企业也纷纷与大数据技术公司合作,甚至成立了自己的数据业务部门。
Opera Solutions便是一家依托大数据分析的咨询公司,其创始人是咨询行业资深人士,曾创办了商业咨询公司Mitchell Madison和Zeborg。
目前Opera致力于金融领域的数据分析类咨询,通过建模、定量分析给客户提供建议,解决客户的商业问题。例如其计算机系统可以一次性采集数十亿条数据,包含从房产和汽车价格到经纪账户和供应链的实时数据等,通过分析从中获得有关消费者、市场和整个经济体系将如何行动的信号或见解。其客户包含了咨询机构及花旗银行等公司,最近还为摩根士丹利提供了帮助经纪人团队给其客户提供投资建议的业务。
新技术、机器学习与咨询预测行业的结合,相比于仅使用大数据分析技术能够获得更好的效果,也成为了行业内的一个小热点。例如基于社会物理学原理的Endor能够依托少量数据生成统一的人类行为数据集,并比传统海量数据分析方式更早的做出模式识别与判断。在甄别facebook上受ISIS控制的账号的实验中,根据已知少量ISIS账号特性,Endor高效分辨出了新的ISIS疑似账号并且准确度令人满意。
{ 7 }大数据服务支撑平台
目前围绕着大数据技术与大数据产业生态链发展的,还有许多是平台服务型的公司,这类公司具备一定的技术水平,但主要通过服务大数据技术公司及科研人员而存在,是技术生态中不可或缺的一环。
Dataiku创建了一个云平台,旨在使数据科学家和普通员工更容易获得公司收集的大数据,并通过机器学习库缩短了专家以及数据分析师所需要的时间。
Algorithmia的平台上提供包括机器学习、语义分析、文本分析等通用性算法,一旦用户找到想用的算法,只需添加几行简单的算法查询代码到应用中,Algorithmia的服务器就会与应用连接,避免了开发者的重复劳动。
目前部分向开发者社区业务发展过渡的平台型企业,因其资源已经得到行业巨头的青睐,被Google收购的Kaggle便是一例,通过举办数据科学周边的线上竞赛,Kaggle吸引了大量数据科学家、机器学习开发者的参与,为各类现实中的商业难题寻找基于数据的算法解决方案。同时Kaggle为其社区提供了一整套服务,包括知名的招聘服务以及代码分享工具Kernels。
{ 8 }机器学习
机器学习,是模式识别、统计学习、数据挖掘的技术手段,也是计算机视觉、语音识别、自然语言处理等领域的底层技术,在附件的介绍中大家可以看到,微软Azure、Google云平台及AWS都推出了自己的机器学习产品,而众多的机器学习创业公司则通过提供有特色的技术或服务进行差异化竞争。
已累计获得了7900万美元融资的Attivio专注于利用机器学习技术通过文本进行情绪分析,提供有监督的机器学习与无监督机器学习两种技术,帮助企业通过识别企业语料库中的文档进行情绪建模与分析。思科通过Attivio的智能系统令销售人员能够在与客户合作时依据对方的情绪、消费能力等数据推荐合适产品,从而节省了数百万的销售运营费用,同时节约了销售团队15-25%的时间。
关键词 医院医保管理 大数据分析
就目前市场来看,我们身处于一个不断发展不断进步的时代,相比改革发展前后,整个国内社会朝着生活水平整体有所提高的方向发展,而国家的众多政策也更加关注国民的各方面关怀,比如国家提高了对整体医疗水平的要求与投入,为特殊职业的医疗保证提供特别关怀,以及增加百姓医疗方面的报销比例,力求向实现人人能够看得起病的水平发展。这就使得每年国家在医保费用的花费上不断增加,这使得相关部门必须采取一定的措施来调整整体管理发生,把不合理的费用增长扼杀在摇篮里。因而根据实际的数据分析问题出现的关键,并以此为切入点进行有效改善成为了不可忽视的问题。
为了跟随时展,整个社会发展已经进入了国际化,多元化,数字化的模式,我国的医疗建设水平也一直紧跟时代的步伐。目前相关医院的信息整体构架相对完整,在几十年的积累中,积攒了数量和真实性均着实可观的大数据内容,而目前的科技发展使得这些大数据得以被整体分析,以得出更加完善的结论体系,直接影响医院医保的管理工作。
一、大数据定义
我们想要对一件事情所带来的影响进行研究,就要从最基本的方向出发。既然要研究大数据在医院医保管理中的应用,我们就应该简单了解下大数据的概念,根据前人的发展以及对目前整体市场的结合,我们认为,大数据是有别于传统海量数据的,能用相关方法及设备进行整合分析,抽样操作的资料内容。其具有涵盖内容多,数据基数大,及时性强等特点。这些特点使得大数据能够在整体管理过程中提供有效的数据支持,是我们得以对面对的情况进行更好的分析与改动。
二、大数据分析应用的优势
根据既有的研究以及我们对课题的进一步调查与讨论可以看出,在医保办不断努力改善管理体制的同时,依旧存在很大的弊端,比如医保局审核标准的多样,使后续工作难以进行。而相应的审核人员又不能做到素质,经验程度的整体统一,这也使得最终审核管理结果有所区别。最为严重的问题就是“及时性”不够,大量的相关信息堆积在一起,使得整理信息内容都产生了滞后性,不能做到及时的反馈与处理。对待以上的这些弊端,医院医保管理中的大数据分析就起到了极大的改善作用,我们将整体医院医保管理的方向转向对大数据分析的正确应用与结合,是未来发展的主流前景。
将大数据分析应用到医院医保的管理中,是实现医保管理精确化,科学化,可持续化的有效途径,将大数据分析的过程与成果应用到医院医保的管理中。可以使得我们将整个管理体系推向了智能辅助审核和及时化监控的发展方向上,将提升医保综合管理水平为目标,规范整个医疗保险行业,及时发现问题,不断完善。
三、大数据分析应用的具体细节
(一)关键技术及数据处理
整体要求对整个医院医保管理环节所产生的各色数据实现及时储存与处理,使之能够在相应的时间内进行相应的数据分类,汇总,等相关操作。
同时满足数据仓库具有相对独立性,能够有效保证与其他医院业务间不发生相互干扰。尤其值得强调的是,在实现医院医保管理中应用大数据分析的过程里,要保证对历史数据处理的合理性,这一点作为大数据分析应用的特点,使得更加有效地将相应信息数据化、价值化。
(二)系统功能和流程设计
谈及大数据分析在医院医保中的应用,就应提及大数据指导下的管理系统及相应流程。根据一定的数据显示,医院医保扣款的较大部分比例并非来自于正当合理的途径,而是因为各个部门的实际工作人员没有打破传统的观念,不能及时跟上时代,了解相应的医保政策,因为在整个系统构建管理中,我们应当使临床工作者真正的理解当今的国家医保政策,根据具体实际情况而做出相应的调节与调度。
这不仅要求相关部门根据已有数据的分析,在每个经营周期的初始时间对整体管理进行控制,然后再根据各个部门和科室,将相应的指标进行细化。再者,在对相关在岗人员进行一定的课程培训等,具体针对性指导交流的同时,也要求在临床医生为患者开立各项内容时,医保知识相关的数据衔接内容可以及时对不合理或者不按照要求进行的步骤予以指出,并合理修改。
(三)应用效果分析
在我们使用大数据分析进行应用管理的同时,我们所构建起来的管理系统是相对多维化的。比如在医生做出一定的诊断处理时,整个管理系统可以自动并智能的进行相应的核对,校准,对正确的数据进行确认,并对有问题的部分及时作出反应与调整。
最终可以实现对大数据的分析,而不断找到问题的根本,从最终的费用数据,追究到相应的部门,到相关的操作人员,再到相应的患者自身,从而确保整体医保管理中不会出现不合理的现象。反过来,以最终的结论为切入点,可以进一步采取措施对医院医保的管理进行相应的改进与完善。
依靠大数据分析的支持,得以使整个医院医保管理过程更加科学化,系统化,改变了传统的理念与方法,也就消除了原始模式存在的弊端与漏洞,使整个医院医保管理更加合理有效。
四、对大数据分析应用的成果
对于整个医院医保管理工作来讲,大数据分析的出现使提高整个管理效率的极大福利。首先,依靠大数据分析应用中的智能辅助过程,可以保证每一个不合理的信息内容被不断抽提出来,将不合要求,不合规矩的部分完整的筛查取出,避免了漏洞盘查的失误所导致的不必要损失,使整个医院医保管理更加细致化,准确化。再者,从传统人力管理的方式转变到智能审核管理的过程,可以使现有资源更加的价值化,使我们能够在有限的资源中挖掘出更多信息含量的内容,以增加整体管理及审核的效率,保证了信息的时效性,减轻医院经济环节不必要的压力。同时,整齐平等的标准让更多管理工作得以顺利展开,使得临床医生可以不再拥有过多顾忌,而一心将工作放在治疗患者的方向上。
最后,大数据分析在医院医保管理中的应用所带来的良好回馈,刺激了各个部门与科室间的相互交流以及自我监督,促进整体医疗服务水平的提升,对现有弊端的改正起到积极推动作用。
五、结语
通过对医院医保管理中大数据分析的应用,可以看出,我国现在的医保费用管理着实需要一定的基本保障与支持,而大数据分析技术就可以帮助整个管理系统构建相对完整的框架,使得医院在医保管理的方向上实现效率提升,并且可以及时发现相关问题,做出相应对策准备。
(作者单位为四川大学华西第四医院)
参考文献
[1] 夏新,⒉,王珏,陈潇雨,朱建成.大数据分析在医院医保管理中的应用研究
[J].中国数字医学,2017(01):9-11.
关键词:大数据 金融业 优势 发展方向
互联网的飞速发展,导致相关数据量呈现爆炸式增长,海量数据将会为各大行业带来新一波技术红利。对于金融业这个对数据极度敏感的行业,数据运用的重要性不言而喻,能够高效运用海量数据的金融机构,必定会在未来的竞争中脱颖而出。
一、迎来大数据时代
伴随着互联网的飞速发展,大量数据正通过我们周围的设备不断产生,社交网络、在线购物、支付平台等等都在收集着数据。我们每天产生的数据量正在以指数级增长,2015年全球大数据储量达到8.61ZB,而今后十年,用于存储数据的全球服务器总量还将增长十倍。大数据正在以惊人的速度、数量和品种于各行各业中产生,大数据时代迎面而来。
作为又一个充满创新、竞争和生产力的高科技前沿,大数据以其多源、海量、异构的特性冲击着我们身边的每一个领域,已然成为继云计算、物联网之后信息技术领域又一次颠覆性的技术变革。对大数据合理、有效地运用不仅会改变生产和消费的商业行为模式,同时也会引起信息数据在数量、频度和运用等方面的巨大变革。通过对大容量数据的收集、整理与分析,发掘新的内容,创造出新的价值,带来“新知识”与“大发展”,大数据将开启一次崭新的、重大的时代转型。
二、大数据时代下金融业的优势
金融业作为一个与数据极度关联的行业,能够在当前环境中抓住机遇,积极适应大数据时代的金融机构将会得到更好的发展,进而实现自身竞争力。面对大数据时代,需要我们运用全新的逻辑与思维,以数据化的方法解决我们遇到的问题,运用大数据提升洞察力,拓展知识的广度与深度,进而帮助金融机构识别趋势并利用这些数据来获得竞争优势,创造可观的经济价值。就大数据时代而言,金融业具有得天独厚的发展优势,这主要源于以下三点:
(一)数据运用传统行业
金融业从最早的信用评级模型到后来的市场营销模型,直到现在的各类投资收益模型,近些年其对数据分析的实践操作经验将极大地辅助其向“大数据”分析跨越。
(二)相关人才集中行业
金融业作为一个信息密集型服务产业,其信息技术等部门拥有大量的IT技术开发与应用人才,并逐年增加对信息系统的投资力度,使得其对数据的挖掘、应用能力不断提升。
(三)数据收集多源行业
金融机构自身拥有大量结构化数据来源,如客户的账户信息、资金交易记录、证券交易记录等,与此同时还拥有网上银行交易记录、电商平台交易记录、证券投资收益曲线等非结构化数据。这些多维度的统计数据极大地便利了金融业对数据的挖掘,也体现出金融业强大的数据收集能力。
三、大数据时代下金融业的发展方向
大数据时代金融业的发展方向将发生巨大改变,需要金融机构迎合时代浪潮,以谋求长远发展,从而在新一轮的竞争中获得一席之地。对于金融机构未来发展方向的展望,本文归纳为以下五点:
(一)单一数据源向多数据源转变
对于传统金融机构而言,其数据来源大多为自身结构化的金融信息,如财务信息等,但在当前时代,金融机构的数据来源急速增长,引入投资者交易行为、客户评分、公共事业缴费记录等多方面、多维度的数据,从而可以更精确、更有效、更客观地进行分析评价。所以对于各金融机构而言,获取更多源、更强有效的关联数据变得越来越重要。
(二)基础数据分析向复杂数据分析转变
对海量数据的分析,不同于之前简单的数据分析,它需要更复杂的统计技巧来获得准确的结果。金融机构目前对于结构化数据的利用率较低,面对非结构化数据则更缺乏基本的处理机制和系统化的挖掘方法,所以加快建立大数据分析体系,充分挖掘数据资源价值,创建大数据时代新的数据分析方法,这将成为未来金融机构的数据深研方向。
(三)群体营销模式向个体营销模式转变
在大数据时代,通过对客户在社交媒体、多媒体终端等渠道产生的各类非结构化信息进行解析,金融机构可以将每一个客户数据化,进而可以为客户构建崭新的360度数字画像,分析粒度由群体精细为个体,从而可以分析个体客户需求,并及时提供与之匹配的金融产品和个性化服务,提升客户满意度。
(四)传统决策模式向数据决策模式转变
大数据使得决策模式发生转变,由传统的“基础数据+经验”决策模式向“数据证据”决策模式转变。大数据更强调决策建立在牢固的证据基础上。传统的决策模式依赖于简单数据分析和高层管理经验,而大数据时代全量数据分析使得分析结果更具客观性和决策支持性,所以金融机构未来的决策过程将会以数据为核心,围绕客观数据进行决策判断。
(五)传统风险评估向数据风险评估转变
大数据的运用使得金融机构的风险评估系统更加全面、客观。传统风险评估可能只是来源于对财务报表的研究,但是大数据时代下,金融机构可以利用企业的多角度关联数据进行参考评估,比如对于某家物流企业,银行可以通过第三方平台对其客户满意度、货物运输量、物流效率等方面进行了解,从而客观评价其经营状况。所以目前也有越来越多的股份制银行主动与阿里巴巴、腾讯等企业进行合作,进而以大数据思维建立起自己的新型风险评估体系。
四、结束语
大数据的时代已经到来,对于金融业而言,未来的发展势必聚焦在创新、复杂的业务方向,所以必须转变现有思维模式,重新审视自身核心竞争力,主动投身于互联网大数据,将大数据的收集与挖掘作为企业经营的核心资产,提高资源分配效率,从而使自身在未来的竞争中能够脱颖而出。
参考文献:
[1]雷晨宁.大数据时代金融业面临的机遇和挑战[J].商场现代化,2015(13):164-164
随着互联网科技日益成熟,各种类型的数据增长将会超越历史上任何一个时期。用户想要从这庞大的数据库中提取对自己有用的信息,就离不开大数据分析技术和工具。中国有句老话:“工欲善其事,必须利其器!”可见,一个好的工具不仅可以使我们的工作事半功倍,也可以让我们在竞争日益激烈的云计算时代,充分挖掘大数据价值,并及时调整战略方向。
在本文中,作者整理了中国境内在大数据分析领域最具话语权的企业,它们有的是计算机或者互联网领域的巨头,有的则是刚刚创办不久的初创企业。但它们有一个共同点,那就是它们都看到了大数据分析技术带来的大机会,于是毫不犹豫地挺进了数据分析领域。(如表单所示)
通过表单,可以了解到相应厂商备受青睐的大数据分析产品。众所周知,在大数据分析领域,当家花旦非Hadoop莫属,Hadoop已被公认为是新一代的大数据处理平台,IBM、Intel、Microsoft、 Oracle以及EMC都纷纷投入了Hadoop的怀抱。对于大数据来说,最重要的还是对于数据的分析,从里面寻找有价值的数据帮助企业作出更好的商业决策。Hadoop和MapReduce等开源工具则使企业能够以一种全新的方式来管理和跟踪大数据。对于中小企业而言,鉴于IT预算的考虑,大多都是从开源的大数据分析工具着手,此时Hadoop就是首选。
当前,大数据分析主要集中在商业智能、预测分析、数据挖掘和统计分析等方面。据Bain and Company报告显示,那些使用大数据分析的公司的领导者们要远远比不使用大数据的公司领导者有优势,他们能够比普通领导者快出五倍的速度进行决策,并且这些决策往往都是正确的。
随着IT和互联网巨头们不断攻破大数据分析领域的各种难题,投放到市场的产品种类越来越繁多,那么企业要如何选择更适合自己的分析产品呢?以下是笔者总结的选型方案:首先要求企业像剥洋葱一样层层剥开,依靠他们有良好关系的供应商,要求查看他们大数据分析平台的演示;其次推荐企业也要学习研究业界其它厂商的案例使用情况;还有企业也应依靠内部的 IT 部门及更有技术悟性的员工,来帮助做一些甄选;但最重要的是企业应该清楚什么是真正的需求,供应商的产品如何能满足这些需求,毕竟理解业务需求比拥有出色的技术更重要。
随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。因此,大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。当下,我国大数据技术仍处于起步阶段,进一步地开发以完善大数据分析技术仍旧是大数据领域的热点。
中国大数据分析厂商TOP50排行榜
分项得分(10)
排名 厂商 综合评分(10) 创新能力 服务能力 解决方案 市场影响力
(35%) (20%) (30%) (15%)
1 IBM 9.1 10 8.5 8.5 9
2 Oracle 8.7 9 8 8.5 9
3 Google 8.6 9 8 8.5 8.5
4 Amazon 8.5 9 8 8.5 8
5 HP 8.4 8.5 8.5 8.5 8
6 SAP 8.2 9 8 7.5 8
7 Intel 8.1 9 8 7.5 7.5
8 Teradata 8.0 8.5 8 7.5 8
9 Microsoft 7.9 8 7.5 8 8
10 阿里 7.7 8.5 7 7 8
11 EMC 7.6 8.5 7.5 7.5 6
12 百度 7.5 8.5 5.5 7.5 7.5
13 Cloudera 7.4 7.5 8 7.5 6
14 雅虎 7.2 8.5 7 6 7
15 Splunk 7.1 8.5 7.5 6 5.5
16 腾讯 7.0 7 6 7 8
17 Dell 6.6 7 6.5 7 5
18 Opera Solutions 6.3 7 5.5 6.5 5
19 Mu Sigma 6.2 7 5 6 6
20 Fusion-io 6.1 7 5.5 5.5 6
21 1010data 6.0 6.5 6 5 6.5
22 SAS 5.9 7 4.5 5.5 6
23 Twitter 5.8 5 6 6 7
24 LinkedIn 5.7 6 4.5 6.5 5
25 华为 5.6 5 5.5 6 6
26 淘宝 5.5 6.5 4 6.5 3
27 用友 5.4 6 4.5 5.5 5
28 曙光 5.3 6 4.5 5.5 4
29 东软 5.2 6 5.5 4.5 4
30 MapR 5.1 5.5 6 4.5 4
31 金蝶 5.0 5.5 5 4 5.5
32 Alpine 4.9 5.5 5 4.5 4
33 高德 4.8 5.5 6 3 5
34 Fujitsu 4.7 5 5.5 4 4.5
35 华院数云 4.6 5 5 4 4.5
36 博康智能 4.5 5 4 4.5 4
37 九次方金融数据 4.4 4.5 5 4 4
38 永洪科技 4.3 4 5.5 4 4
39 集奥聚合 4.2 4 4 4 5
40 国双科技 4.1 4 3.5 4.5 4
41 百分点 4.0 3.5 5 4 3.5
42 荣科 3.9 3 5 4 3.5
43 博雅立方 3.8 3.5 4 4 4
44 亿赞普 3.7 3 3.5 4.5 4
45 InsideSales 3.7 3 4 4 4
46 众志和达 3.6 4 4 3 3.5
47 颖源科技 3.5 3 4 4 3
48 星环科技 3.4 3 3.5 4 3
49 拓尔思 3.3 3.5 3 3.5 3
50 国云数据 3.2 3 3 3.5 3.5
代表产品
InfoSphere BigInsights
Oracle Big Data Appliance
BigQuery
Kinesis
Vertica
HANA
Hadoop发行版
AsterData
SQL Server
采云间
GreenPlum
百度统计
Cloudera Apache Hadoop
Genome
Splunk Analytics for Hadoop
腾讯云分析
Big Data Retention
Opera Solutions
Mu Sigma大数据分析
Fusion ioMemory平台
1010data大数据分析平台
SAS Visual Analytics
Storm
LinkedIn数据分析模型
FusionInsight
知数宝
UAP平台
曙光XData大数据一体机
东软经营分析系统
Drill
金蝶KBI
Alpine Miner
高德地图
Fujitsu M10
Hadoop+Postgresql架构
博康智云大数据一体机
九次方大数据分析平台
Yonghong Data Mart
DataQuate
Web Dissector
百分点数据管家
医疗大数据分析平台
cubesearch平台
亿赞普大数据分析平台
InsideSales大数据平台
SureSave BDP1000
股市情绪分析软件
Transwarp Data Hub