公务员期刊网 精选范文 数据分析分析技术范文

数据分析分析技术精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据分析分析技术主题范文,仅供参考,欢迎阅读并收藏。

数据分析分析技术

第1篇:数据分析分析技术范文

关键词:联机数据分析;处理数据;分析和转换数据

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)03-0006-03

为了提升大学物理公共课程的教学水平,更好地了解学生的学习情况,需要引用联机数据技术,通过科学建立模型对教学数据进行处理和分析。维度模型的建立是为了能够全方位地剖析数据。

1 建立数据模型

建立模型是为了更加直观地表达数据和事实。对于同一批数据,人们总是会以不同的角度对其进行观察,这就是维度。维度模型从不同的角度分析数据,最终得出一张事实表。

如图1所示,维度模型包括了教材维度表,学期维度表,教师维度表,学生维度表和教学事实表。为了更好地分析教学效果,维度模型从四个不同的角度进行分析,每一张维度表上都注明了详细的数据内容。最后,在总结四张维度表的基础上,概括了最终的教学事实表。

2 OLAP技术

2.1 数据的采集

原有的Visual和SQL数据库上储存了学生的信息,教师的信息以及教学的数据等等。如图二所示,教务数据库中包含了课程信息表,学生信息表以及选课成绩表。DTS工具能够从不同的数据库中自动抽取需要进行分析的数据,并且将其全部集中在一个新的数据库中。新的SQL数据库既可以储存信息,还能够对信息进行管理。联机分析处理技术从不同的角度分析数据,有助于全面了解学生的学习情况和教师的教学质量。

2.2 数据分析的结构

从图2中可以看出,数据分析的结构包括了四层,其中最底层的是各种信息数据库和文本文件,在此基础上建立数据ETL,然后建立相应的维度模型,最后利用联机分析技术对数据进行分析。采集数据和转换数据是使用联机分析技术的基础,也是必不可少的一步。多维度分析是该结构中的最后一步,最终的结果将会把数据转换成图表的形式呈现出来。

2.3 转换数据

由于不同数据的语法可能存在差异,因此,把不同的数据转换成相同的结构显得尤为必要。在联机分析技术应用的过程中,转换数据是关键的一步,能否成功转换数据,决定了维度模型的建立是否具有科学性与全面性。转换数据是为了解决语法,语义结构不同引起的问题。

和数据语义不同相比,处理不同语法的数据显得更为简单。如果数据本身和目标数据之间存在语法结构不同的问题,那么只需要通过函数对其进行转换即可。一般来说,数据本身的内容并不会影响转换过程,只要建立原数据和目标数据之间的对应关系,就能解决数据名称存在冲突的问题。例如,学生数据库本身的信息包括了学生的ID和班级,这就相当于最终目标数据中学生对应的名称和班别。如果数据类型不同,可以运用相应的函数对其进行转换,例如trim()函数就能完成数据的转换。下面是利用函数对原数据中学生的ID,专业以及院名进行转换的过程,其转换代码如下:

Function Main()

DTSDestination(“ID”)=trim(DTSSourse(“名称”))

DTSDestination(“专业”)=cstr(DTSSourse(“专业”))

DTSDestination(“院名”)=trim(DTSSourse(“学院”))

Main=DTSTransformStat_OK

End Function

转换不同语义结构的数据是一个复杂的过程,它需要重视数据本身的信息和内容。因此,仅仅通过一步完成数据转换的过程是几乎不可能的,它需要将原数据进行一次次转换,才能得到最终的目标数据。例如每一个教师都有以及开展项目,在原数据中只能看到项目的名称和论文的名称,如果需要将其转换成教师的论文数量和项目数量,则需要经过两步的数据转换。

2.4 数据结果分析

原数据从SQL中提取出来,然后通过函数对其进行转换,最后利用联机分析技术进行数据管理和分析,从不同的角度研究数据,从而全面分析学生的学习情况和教师的教学情况。数据分析的方法有很多种,其目的都是为了全方位地剖析数据。

2.4.1 高校教师教学质量的对比分析

在教师维度表中,我们已经按照教师的从业年龄,学历以及职称对其进行划分,不同职称的教师,其教学质量有着明显的区别。教师的学历不同,教龄有所差异,这都和教学效果息息相关。

2.4.2 不同时期对教学质量的影响分析

联机分析处理技术能够从多角度分析数据,教学质量不可能是一成不变的,它与多个因素密不可分,时间也是其中一个因素。在不同的时期,由于政策的变动和外界因素的影响,教师的教学质量也会随之而受到不同程度的影响。

2.4.3 教学质量和其他因素息息相关

除了时间和教师的水平会对教学质量造成一定的影响,还有其他因素同样会影响教学效果,例如:学生的学习能力,学校选用的课本等。综合考虑各个因素对教学效果的影响,有利于教育部门更好地作出相应的政策调整。

3 计算机分析处理技术中的数据处理方法分析

无可置疑,计算机技术的出现颠覆了人们传统的思想和工作模式。如今,计算机技术已经全面渗透到我们生活中和工作中的各个方面。不管是在工业生产还是科研数据处理中,计算机技术都发挥着不可替代的作用。如今我们需要处理的数据正与日俱增,这就意味着传统的数据处理方法已经无法满足人们的需求了。仪表生产和系统控制要求数据具有高度精确性,这些数字在显示之前,都必须经过一系列的转换,计算以及处理。首先,数据会以一种形式经过转换器,然后变成另一种新的形式,只有这样计算机才能对数据进行处理和分析。处理数据是一个复杂多变的过程,它的方法并不是单一的,根据数据处理的目标不同,需要选择不同的数据处理方法。例如,有的数据需要进行标度转换,但有些数据只需要进行简单计算即可,计算机技术的不断进步是为了更好地应对人们对数据处理新的需要。

计算机数据处理技术的应用离不开系统,它比传统的系统更加具有优越性:

1)自动更正功能,计算机系统在处理数据时,对于计算结果出现的误差能够及时修正,确保结果的准确度。

2)传统模拟系统只能进行数据的简单计算,而计算机系统则能够处理复杂多变的数据,其适用范围和领域更加广。

3)计算机系统不需要过多的硬件,只需要编写相应的程序就能够完成数据的处理,在节省空间的同时也降低了数据处理的成本。

4)计算机系统特有的监控系统,能够随时监测系统的安全性,从而确保数据的准确度。

对于不同的数据,往往需要采用不同的处理方式,处理数据的简单方法包括查表,计算等。除此之外,标度转换,数字滤波同样是应用十分广的处理技术。

3.1 数据计算

在各种数据处理方法中,计算法是最为简单的一种,利用现有的数据设置程序,然后直接通过计算得出最终的目标数据。一般来说,利用这种方法处理数据需要遵循一个过程:首先,求表达式,这是计算法最基本的一步;其次,设计电路,在此之前必须将转换器的位数确定下来;最后,利用第一步已经求出的表达式运算数据。

3.2 数据查表

3.2.1 按顺序查表格

当需要搜索表格中的数据时,往往需要按照一定的顺序和步骤。首先,明确表格的地址和长度,然后再设置关键词,最后按照顺序进行搜索。

3.2.2 通过计算查表格

这是一种较为简单的方法,适用范围并不广。只有当数据之间表现出明显的规律或者数据之间存在某种关系时,才能够使用这种方法查表格。

3.2.3 利用程序查表格

相比于上述的两种方法,利用程序查表格是一种相对复杂的方法,但是这种方法的优点在于查找效率高,并且准确度高。

3.3 数据滤波处理

采集数据并不难,但是确保每一个数据的真实性却十分困难,尤其是在工业系统中,数据的测量难以确保绝对准确,因为在测量的过程中,外界环境对数据的影响往往是难以预估的。为了提高数据处理的精确度和准确率,需要借助检测系统对采集的数据进行深加工。尽可能地让处理的数据接近真实的数据,并且在数据采集的过程中最大限度地减少外界因素对其的影响,从而提高计算结果的准确度。

滤波处理技术的应用首先要确定数据的偏差,一般来说,每两个测量数据之间都会存在一定的误差,首先需要计算数据与数据之间可能出现的最大误差。一旦超出这一数值,可以认定数据无效,只有符合偏差范围内的数据,才能进行下一步的处理。

为了减少由于外界影响导致数据失真的情况,利用程序过滤数据是很有必要的。滤波技术有几种,根据不同的需要可以选择相应的数据处理技术,每一种数据滤波技术都有其适用范围和优点。数据滤波技术包括算术平均值滤波,加权平均值滤波,中值滤波,限幅滤波,限速滤波以及其他类型的滤波技术。

3.4 转换量程和标度

在测量数据的过程中,每一种参数都有相应的单位,为了方便数据处理,需要使用转换器把数据转换为统一的信号。标度转换是必不可少的,为了加强系统的管理和监测,需要不同单位的数字量。转换方法包括非线性参数标度变换,参数标度变换,量程转换,这几种转换方法在数据处理的过程中较为常见。当计算过程遇到困难,可以结合其他的标度转换方法进行数据处理。

3.5 非线性补偿计算法

3.5.1 线性插值计算方法

信号的输入和输出往往会存在一定的关系。曲线的斜率和误差之间存在正相关关系,斜率越大,误差越大。由此可见,这一计算方法仅仅适用于处理变化不大的数据。当曲线绘制选用的数据越多,曲线的准确程度越高,偏差越小。

3.5.2 抛物线计算方法

抛物线计算方法是一种常用的数据处理方法,只需要采集三组数据,就可以连成一条抛物线。相比于直线,抛物线更加接近真实的曲线,从而提高数据的准确度。抛物线计算法的过程,只需要求出最后两步计算中的M值,就能够直接输入数据得出结果。

3.6 数据长度的处理

当输入数据和输出数据的长度不一,需要对其进行转换,使数据长度达到一致。由于采集数据所使用的转换器和转换数据所选择的转换器不同,因此,当输入位数大于输出位数,可以通过移位的方法使位数变成相同。相反,当输入位数少于输出位数时,可以使用填充的方法将其转换成相同的位数。

4 结语

本文对联机分析技术进行了详细的论述,该技术的应用对于评价教学效果有着重要的意义。在物理公共课程中,教学数据数量巨大,如果利用传统的方法对其进行分析,将会耗费大量的人力物力,而采用OLAP技术则能更加快速准确地分析处理数据。数据分析是评估教学质量必经的过程,而使用QLAP技术是为了能够多层次,全方位地分析各个因素对教学质量的影响,从而更好地改进高校教育中存在的不足。除了分析物理课程数据,联机分析技术同样适用于其他课程的数据处理和分析。

参考文献:

[1] Ralph kimball,Margy Ross.The Data Warehouse Toolkit:the Complete Guide to Dimensional Modeling[M]..北京:电子工业出版社,2003.

第2篇:数据分析分析技术范文

【关键词】用电信息采集系统 数据分析 处理技术

随着时间的推移,用电信息采集系统中存储的数据总量会线性递增,庞大的信息储备在反映信息愈加全面的同时增加了信息分类和处理的难度,所以其分析和处理技术需要随着时代的发展不断深化。

1 用电信息采集系统数据分析

由于用电信息采集系统内的信息会随着时间的推移而不断增多,所以需要通过分类处理的形式对庞大的信息量进行逐层处理,这样才可以提升系统对数据库的处理效率,目前用电信息采集系统以时间为划分标准,将信息分为以下三类:1类数据实时数据不具有时间序列属性,通常只针对其更新而很少查询,由于数据量庞大,其通常只具有15分钟的实效,总加数据、测量点数据、终端数据是其主要形式,在存储的过程中应根据其不同的物理对象选择与其相应的存储表;2类数据其主要显示用电户在过去一段时间内的用电信息,为预付费管理、用电情况统计等工作提供数据支持,其与1类数据不同具有时间序列属性,而且更新少而查询多,15分钟至1小时,1日、一个月等都可根据实际需要作为周期,其在存储的过程中也可以根据不同的物理对象,选择不同的存储表;3类数据包括参数丢失或变更、回路异常、电能表显示出现偏差等情况,由于其不同时间的发生频率、使用方式等都存在差异,所以在存储的过程中应单独分表,将用电信息按照属性进行划分极大地提升了采集系统的工作效率。

2 用电信息采集系统数据处理技术

用电信息采集系统其要同时对多种通信通道和终端进行管理,从而实现对用电户用电信息管理、负荷及预付费控制,所以其并非单一计算机节点可独立完成,需要以下技术辅助其实现如图1所示。

2.1 集群技术

主要应用于系统中的核心部位,例如数据库、数据采集等,其主要是将多个独立但都处于高速网络中的计算机连接成一个整体,并通过单一系统对整体进行管理控制,利用集群技术可以实现大运量计算,目前主要应用的集群技术主要有主/主和主/从两种状态,其主要区别是当一个节点处于正常工作状态时是否需要有另一个节点处于备用状态,利用集群技术大幅度的提升了系统对数据的计算能力,从而提升了系统的数据处理效率及准确性。网络负载均衡技术,在实际操作中系统要处理大量的数据,用户等待系统反应的时间通常较长,而网络负载均衡技术的出现实现了对大量并发访问、数据流量合理均等的分配至多台节点设备,从而实现多台设备同时进行数据处理,使原本复杂的数据处理任务被合理分化,不仅缩短了处理时间,而且有效的降低了系统在处理过程中出现信道堵塞的概率,提升了系统数据处理的性能,在响应请求方面得到优化。

2.2 内存数据库技术

是优化系统数据处理能力的重要途径,内存数据库技术实现了采集的信息直接在内存中存储,从而利用内存随机访问的特点,在信息读写速度方面进行优化,使数据信息的访问性能得到提升,此项技术在数据缓存、数据算法等方面进行了针对性的设计,使系统的信息处理速度提升十倍以上,为实时查询提供了可能,极大地促进了后付费和预付费的融合,使系统数据处理性能得到完善。批量数据处理技术,由于在实际工作中由于系统需要对大量的数据进行分类处理,逐个信息处理的可行性非常低,需要对大批量数据进行集中处理,但在应用批量数据处理技术的同时要对数据库的表结构、SQL语句进行优化处理并对数据库中的数据表合理管理,例如将个体数据表的数据量限制在2GB以内,确保其访问性能不受影响;将数据按照分类存储于不同的磁盘,保证查询质量;在优化SQL语句时尽量保证带有参数等,只有数据库性能良好,批量数据处理技术才可以应用,不然会适得其反。

2.3 SAN存储技术

随着系统采集数据量的增加,以服务器为中心的处理模式会严重影响网络性能,从而影响系统对数据的处理效率,所以将备份和传输不占用局域网资源的SAN技术引入到系统处理中非常具有现实意义,其以光纤通道为途径,使信息存储不再受距离和容量的限制,系统的信息采集性能得到有效提升。ODI技术,在实际工作中有时需要对某一类信息进行集中处理,而系统中的数据复杂散落不易处理,所以需要将同类信息按模块分类存储,ODI存储技术恰好是以模块或储存库为核心而展开的应用技术,它将系统的数据库分为一个主存储库和多个有关联的工作存储库,数据处理人员利用ODI存储技术可以根据实际情况制定存储模块或对存储模块内部信息进行更改,从而实现批量数据处理脚本的集中管理,使批量处理的效率大幅度提升。

3 结论

目前电力用户用电信息采集系统不仅要实现准确、全面、及时的采集数据,而且要高效、准确的对采集的信息进行计算处理,以供相关部门的查询和应用,所以在优化系统存储空间的同时,要加大系统对数据处理的能力。

参考文献

[1]朱彬若,杜卫华,李蕊.电力用户用电信息采集系统数据分析与处理技术[J].华东电力,2011,12(10):162-166.

[2]董俐君,张芊.数据处理与智能分析技术在用电信息采集系统中的应用[J].华东电力,2013,12(27):255-256.

[3]况贞戎.用电信息采集系统中主站采集平台设计与实现[D].成都:电子科技大学,2014.

第3篇:数据分析分析技术范文

关键词:数据仓库;数据挖掘;教务数据;深度挖掘

中图分类号:TP393 文献标识码:A

1 引言

在信息时代,信息技术的快速发展对社会各个领域都产生了一定的影响,在电子商务中反映尤为突出。对于学校教务系统的应用相对较晚,但教务数据对学校而言,是最基本的数据,这些数据的保留是学校运作的根本。对教务数据的分析也是对学校教学效果的评定,能够从庞大的教务数据中挖掘出更潜在的信息,既是对学校运行状况的更深入了解,又有利于学校对未来发展方向的决策。

2 教务管理状况分析

教务管理不仅是处理学校的日常事务,它更重要的作用体现在可以反映学校的教学效果和分析学校培养方向的正确性,并以此帮助学校向更好的方向发展。教务数据分析的处理到目前为止经历了人工和计算机处理的两大阶段。

2.1 人工处理阶段

为了反映较大范围教务情况的整体特征,教务部门通常要付出庞大的人力和物力收集和分析大量数据。这个数据的收集通常要经历一个较长的时间,间隔一段时间还必须重复执行。比如开课计划、学生成绩、教室使用情况等。然而,分析收集来的海量数据更是教务部门头疼的一件事。

还没有出现计算机前,光靠人工来处理数据有时还会面临这样的窘境:上一期的数据结果还没分析出来,下一期的数据收集又要开始了,因此整个数据收集和分析工作变得没有任何意义。另外,有些数据需要间隔一段时间重新收集,然后进行短期和长期的分析数据。比如成绩分析,若按照4年制本科为一个分析周期。首先,每学期教务部门要进行一次短期成绩分析。其次每学年教务部门就需对即将毕业的本科前4年的所有成绩做一次中长期成绩分析。然而,如果学校还需了解长期以来各级学生的学习情况,则还必须知道近10年、20年、50年甚至更长时间的成绩发展趋势,那么光靠人工去翻阅以前的数据就是件很困难的工作了。所以人工处理数据阶段,有许多教务数据分析工作受到很大限制。

2.2 计算机处理阶段

自计算机出现后,许多领域的工作发生了翻天覆地的变化,教务管理同样也不会忽略如此有效的技术手段。20世纪80年代以来,我国一直关注信息化在各领域的应用,教务管理信息化的发展大致经历了以下三个阶段:面向数据处理的第一代教务管理、面向信息处理的第二代教务管理、面向知识处理的第三代教务管理。在前两个阶段中,许多教务工作确实提高了效率,但是教务海量数据中隐含的价值仍不能被有效发掘与利用。正如在一大座金山中,获取更有价值的黄金还需更细致更有效的清理和挖掘。

虽然在前些年,学校各级部门具备了一定的信息化基础设施,为构建信息化教务系统奠定了基础。但是,由于缺乏统一的规划,学校各子系统或多或少存在“信息孤岛”的问题,也没有有效的方法从海量数据资源中快速挖掘更有价值的知识信息。因此,耗费成本收集的数据没有利用就被弃置了,教务数据分析仅停留在表面。

由于信息技术的发展,信息化时代逐渐进入第三展中,即有效应用数据仓库和数据挖掘技术挖掘知识。

3 DW和DM技术

数据仓库(DataWare,即DW)是指一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策[1]。当大量的数据被整合在一起后,从用户分析角度来看,使用这些数据的手段是多方面和多层次的。面向知识处理的教务系统应能够自动剔除掉不需要的数据,按照用户的要求整合杂乱的数据资源,获取某些可用的属性。而且,学校的决策通常是经过观察长期发展的状况而制定的。其间,需要分析5年、10年,甚至几十年的大量相关数据资源。因此,教务数据需要被长期且稳定的存储。在日常收集数据和整理数据时,利用数据仓库的思想来进行,有利于我们充分发挥数据挖掘技术进行知识的挖掘。

数据挖掘(Data Mining,即DM)是指从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。数据挖掘就是从大量数据中提取或“挖掘”知识。

首先,我们要确定数据挖掘的对象有哪些。数据资源可以从多方面获得,如系统分析设计人员向不同范围的业务对象调研获得,或反之业务对象主动向系统设分析设计人员提出;在互联网时代,从网络中获得数据资源更快更多了。

其次,要有效地应用数据挖掘技术,就要遵循科学的应用流程。一般的挖掘流程是:(1)确定挖掘对象;(2)数据准备;(3)数据挖掘,即模式提取;(4)结果分析,即模式评估。[2]

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。数据挖掘功能以及它们可以发现的模式类型包括:class/concept description、Association analysis、Classification and prediction、Clustering、Outlier analysis等。

4 建立面向知识处理的教务数据分析系统

按照上述数据挖掘的基本流程,以教务系统中成绩分析为例介绍如何让教务系统实现面向知识的处理。

4.1 构建教务系统的数据仓库

这部分主要分为四个任务:确定教务系统中的数据源;Web数据的预处理;多维Web数据模式的建立;应用OLAP技术。

4.1.1确定教务系统中的数据源

教务系统的数据主要从两个方面获得:

(1)各学院开课计划、学校学计划;

(2)教师提交的各门课程的成绩。

第一方面的数据主要由学校、各学院按照培养计划每学期提交,包括各专业班级的课程安排、授课教师、课时、学分等。这部分数据主要以Excel表格形式提交,教务部门对这部分的数据收集与存储大部分停留在文档形式。

第二方面的数据主要在学期末由授课教师分专业班级和课程提交。目前,这部分的数据收集有的以纸质文档形式收集,有的以Excel文档形式收集,也有的实现了数据库收集存储。

在进行数据挖掘之前,首先要将这两方面的数据完全实现数据库收集与存储。随着教务数据与日俱增,还需使用数据仓库来管理这些数据。

目前,有许多学校实现了在线登录成绩的信息化。那么如何对庞大的Web数据建立数据仓库呢?

4.1.2 Web数据的预处理

通过Web收集的数据称之为原始数据,管理员可根据需要用某些字段记录相关数据。如:专业班级名称,教师登录名,课程名称,成绩比例,分数,提交时间等。对Web数据的预处理包括两步。第一步:清除噪音,即去掉对知识挖掘无关的数据。第二步:转化数据,即将原始数据按照挖掘需求,通过重新组织或简单计算转换成规范模式。

4.1.3多维Web数据模式的建立

分为三步进行。第一步,选取维。多维数据便于我们从多个角度、多个侧面对数据库中的数据进行观察、分析,以深入了解包含在数据中的信息和内涵。N维数据矩阵用C(A1, A2, . .., Am ,count)模式表示,其中Ai代表第i维,i=1,2,...,n, count是变量,反映数据的实际意义。

数据单元用r[A1:a1,...,An:an,count]模式表示,即为维Ai选定一个维成员ai,i=l,…,n,这些维成员的组合唯一确定了变量count的一个值。通常,需要了解成绩的分布情况,可以选取专业班级维、时间维、课程维构建数据矩阵,以形成多维视图。

第二步,构造多维视图。先选取Date维(按学期组织)、Class维(按专业班级组织)用二维形式表示每个专业班级各学期的成绩状况。然后加入第三维Course维(按课程组织),进一步构建成绩分布的三维视图。视图显示的事实是Course_Class_Analyse(课程专业学习情况)。

第三步,创建多维数据模式。最流行的数据仓库数据模型是多维数据模型。最常见的模型范例是星型模式。

4.1.4应用OLAP技术

OLAP,即在线联机处理。应用OLAP技术可以很方便地从Web数据矩阵中作出一些简单的结论性分析,如回答一些问题:(1)哪些专业班级学习情况较好,哪些较差?(2)哪些专业课程成绩较高,哪些较低?我们可以充分利用多维数据模型上的OLAP操作,如下钻(drill-down)、上卷(roll-up)、切片分析(slice)和切块分析(dice)等技术对问题进行求解。

4.2 挖掘模式的有效应用

应用数据挖掘技术可以自动发现学生学习倾向和专业发展趋势。

4.2.1数据挖掘技术应用的范围

虽然现在已有很多学校都建立了自己的教务管理网站,但教职工与学生仅仅只在Web上进行成绩的登录和查询。这样的教务网站只是提供了收集数据的快捷途径,并没有从根本上体现本身应有的应用价值。教务系统希望能够从其门户网站中收集大量原始数据,并依此发掘更深入的服务信息。同时,学校高层也希望能从教务系统中发现学生的学习情况,课程计划的实施效果等。这些都需要从海量的教务数据中应用特定的挖掘模型反映出来。基于此,对于下一次培养计划的修订才有现实的数据支撑。

4.2.2应用挖掘模式提取和分析知识

根据不同的应用要求,在数据挖掘模式中选择合适的方法进行计算,提取有效数据,得出知识。对于教务系统而言,可以应用聚类方法确定特定不同成效的学生与课程的分布,从而识别出一些问题:

(1) 对于某个专业班级,哪些课程学习效果较好;

(2) 对于学习效果较好的课程,是因为教学效果好,还是开课计划恰当;

(3) 对比同一门课的不同专业班级,以辅助各学院分析培养计划的适应性。

5 结束语

关于DW and DW 技术对教务数据分析的应用,还有许多值得继续深入研究。但是,不论从哪个方向进行研究,都必须要以提高教务处理能力为宗旨,让教务资源发挥最大的辅助决策价值。

参考文献:

[1] Colin White. Data Warehousing: Cleaning and Transforming Data [M], InfoDB, 2002.

[2] 林宇. 数据仓库原理与实践[M],北京: 人民邮电出版社, 2003.

第4篇:数据分析分析技术范文

一、工程概况

无锡市轨道交通1号线江海路站~火车站站区间线路长1300m,出江海路站后,在通顺桥前以350m(右线360m)曲线半径向东南偏转,于通顺桥和废弃水闸之间下穿庆丰河(区间下穿段河面宽度22米),再下穿锡澄二村大片居民楼后转至规划海澄路,近距离经过康桥丽景小区后线路以400m(右线410m)曲线半径向西南方向偏转,先后下穿庆丰河(区间下穿段河面宽度27米)、北新河(区间下穿段河面宽度26.5米)、庆丰集团厂房、庆丰里居委会、庆丰小区,垂直下穿锡沪西路后进入无锡火车站站。线路中线间距为13.0~17.3m。隧道断面穿越土层大部分为粉质粘土、粘土层,部分断面上部位于粉土夹粉质粘土层。

本工程采用一台Ф6380的土压平衡盾构, 在江海路站北端头左线组装调试完成后,向广石路站推进,推进结束后调头到右线;在广石路站南端头再次组装调试后,向江海路站推进。

二、监测方案的设计

在地下工程中进行沉降监测,绝不是单纯地为了获取信息,而是把它作为施工管理的一个积极有效的手段,因此监测数据应能确切地预报破坏和变形等未来的动态,施工监测是一项系统工程,监测工作的成败与监测方法的选取及测点的布置直接相关。按以下5条原则进行监测方案的设计:

1、可靠性原则2、多层次监测原则3、重点监测关键区的原则4、经济合理原则5、方便实用原则

2.1监测点的布置

2.1.1地表沉降和隧道沉降

沿两个盾构隧道轴线按5m间距布设地表沉降测点。同时,按30m间距布设地表横向沉陷槽测点,每个断面约9~12个测点。每个联络通道在中间各布置一个断面,每个断面约9个测点,横向间距1~7m。在隧道开挖影响范围内(2倍洞径)的主要地下管线上方地表沿管线轴线按5~10m间距布设地下管线沉降测点。地表及地下管线沉降监测布点应使测点桩顶部突出地面5mm以内。

2.1.2地面建筑物沉降监测

在区间盾构隧道施工影响范围内的房屋承重构件或基础角点、中部及其它构筑物特征部位布设测点。

2.2监测频率和周期

2.2.1监测频率

根据“无锡市地铁一号线GD01TJSG-07标区间设计方案T-55区间隧道监控量测图”监测范围及频率如表5-1。

表监测频率一览表

在区间隧道盾构出洞前布设监测点,取得稳定的测试数据,在盾构出洞后即开始监测,30m范围内监测频率保持每天2次。盾构正常推进后,监测频率基本保持在每天1次。在整个盾构推进施工过程中监测频率可根据工程需要随时调整,以满足现场施工需要。监测测量的周期应满足观测到测点变形达到相对稳定时为止。

2.2.2监测周期

本车工程施工监测总工期以委托方要求的监测开工日期为起点,至隧道施工完毕或施工影响区域内的受影响的建(构)筑物沉降变形稳定为止。沉降变形稳定标准:参照《建筑变形测量规范》JGJ 8-2007相关内容确定,即“当最后100d的沉降速率小于0.01~0.04mm/d时可认为已经进入稳定阶段”。

三、监测结果及其分析

根据以往工程实例,我们把盾构施工引发地表沉降过程划分为如下五个阶段,并根据这五个阶段来对监测的数据进行整理和分析。

第一阶段:盾构到达前较远处盾构距离监测点20m外时,沉降主要为因盾构施工对土层的轻微扰动、路面车辆活荷载碾压以及地下水位下降引起的固结沉降。

第二阶段:盾构到达前较近处盾构距离监测断面20~10m时,因盾构推力对土体扰动影响的进一步加大、地下水位变化、施工参数(如土压、推力等)变化等多方面因素影响,地表产生轻微沉降或隆起。

第三阶段:盾构掘进阶段盾构切口到达监测点时,因盾构刀盘对土体的扰动和盾构参数的设置共同对其地表沉降造成的影响。

第四阶段:盾尾脱离监测点,沉降主要为浆液未及时充填、同步注浆量不足、施工中土体应力状态变化较大等多种因素引起地层损失,这是盾构施工过程中产生地表沉降最主要的组成部分。

第五阶段:固结沉降阶段由于盾构推进中的挤压作用和盾尾压浆作用等因素,土体骨架还会发生持续较长的压缩变形。在此土体蠕变过程中产生的地面沉降为施工后期沉降。

3.1纵、横向地表沉降分析

3.1.1横向地表沉降分析

经过实测数据分析,隧道中线上方沉降量最大,沿两侧逐渐减小,大部分沉降曲线形状基本符合PECK的正态分布曲线。如下图所示:

由上图分析得出,盾构掘进主要影响区域在隧道轴线8m范围内。沉降槽曲线基本沿隧道轴线点呈典型的正态分布,在轴线处的沉降值最大,在隧道洞径范围是沉降的主要范围(距轴线4m处的沉降分别是最大沉降的67%、51%、);距轴线4~8m为次要沉降区,距轴线6m处的沉降分别是最大沉降的25%、30%、) 距轴线10m外的沉降量小于1mm,12m外的沉降量小于0.5mm。

3.1.2纵向地表沉降分析

在敞开式掘进情况下,在刀盘切口前方约6m(约1倍隧道直径)以外,地面基本无沉降迹象,部分出现轻微隆起趋势(隆起量在2mm左右);在刀盘切口离开监测点约8m左右开始产生沉降,刀盘切口离开监测点5m至10m(约等于盾构机长度9m)是沉降主要发展阶段,这个范围的地层主要受盾构刀盘旋转及开挖面出土卸载影响,以及盾构机通过时盾壳对围岩扰动的影响,沉降量约占总沉降量的80%以上;刀盘切口离开监测点13~15m后沉降趋于稳定,在这个范围,盾构已通过,对地层的扰动消失,同时,盾尾脱出后产生的围岩与管片间的建筑空隙得到了盾尾同步注浆的及时同步填充,对地层产生了很好的支撑作用,有效地抑制了地层沉降的进一步发展。

3.2建筑物的沉降分析

本区间,盾构隧道主要下穿锡澄二村两栋六层民房,该民房建筑年代久远,为浅基础砖混结构,施工风险较大,这也对沉降监测提出了很高的要求。

锡澄二村房屋沉降统计表

盾构隧道通过锡澄二村产生的影响非常较小,累计沉降值普遍小于3mm,差异沉降不到1mm。由此可见,如果盾构掘进过程中的各项参数的选择合理,就能大大降低施工的风险,说明是可控的。

3.3沉降与掘进土仓压力的关系

(1)掌子面土仓压力的平衡状态变化对开挖面前方的地层影响不大,盾构掘进期间土仓压力总体控制较好。

由掌子面土仓压力的平衡状态变化引起的地表沉降在-3mm左右,沉降数值普遍很小,说明盾构土仓压力设置合理。从总体上看,地表绝大多数表现为下沉,这也说明盾构掘进时土仓压力仍可调整得大一些。一般情况下,盾构土压压力的设置应使盾构上方的地表有略微隆起为好。

⑵在掘进160米后,根据监测结果,修正了盾构掘进参数(土仓压力),建立有效土仓压力平衡,是控制地层损失、减小地层变位的有效手段。由上图可见,在同等条件下,土仓压力增大则地表沉降减小,甚至有略微的隆起,达到了较好的效果。

在城市盾构施工比例越来越大的今天,上述认识对于盾构隧道沉降监测设计、盾构施工等有使用价值。具有一定的优势以及广阔的应用前景。

第5篇:数据分析分析技术范文

在我国经济结构调整和转型升级的时代背景下,高等学校通过产学研合作服务社会的功能和实现方式迫切需要转型升级。如2015年通过的《中华人民共和国促进科技成果转化法》修订稿,2016年国务院出台的“实施《中华人民共各国促进科技成果转化法》若干规定等,表明国家对成果转化的高度重视,而技术合同经费作为技术转移转化的一个重要指标,该指标可以体现一个学校技术转移转化的活跃度及市场价值。本文试图以江苏涉农高校近3年技术合同经费情况以来找到我校与其他高校的差距,并提出方法与对策。

1 近3年统计数据(万元)

数据分析:

1)根据省技术市场提供的数据,高校纳入统计的学校共计41所,大部分是理工类的学校或综合性大学,涉农高校共4所,南农,南林、扬大、江南。综合3年来看,我们几年都逐年进步,但和江南大学和扬州大学差距还是比较大.在技术转让上,我校的数据并不落后,但在技术开发上差距较大,这点,我们和林大比较相似,主要数据贡献体现在技术咨询和技术服务上,也体现农业或林业技术的公益性强的特点。但我校的技术转让又远超过林大,说明我们科研实力还是远超对方的。

2)技术开发少,一个是项目少,二是单项开发合同额也少。项目少说明我校参与社会服务或者说与企业的合作还是小众行为的,合同额小说明农业技术开发相比工业技术来说要价更低,这也是体现了农业技术商品化的特点。主要原因,可能是我校对于合同科研没有进行一定的考量。相对于纵向经费来说,横向经费不仅难拿而且在项目实现过程中付出时间和其他成本更高。有能力从事社会服务或进行合同科研的团队往往优先可能会考虑申请纵向项目,而且普通科研教师,往往纵向和横向机会都很少。

3)从客观上讲,扬大和江南大学经过并校及所在城市的关系,都已经成为综合性大学,无论在师资、学科数及规模上都超过我们学校。扬大和江南大学都有不少理工科的学科,江南大学以前更是轻工类学科强校,除食品学院外,其余大部都是理工科,而且都拥有科技园。我校目前的发展方向中世界一流农业大学,行业性大学发展,这点和南林有点相似。

4)起步较晚,重视度不够。2012年执行新的对外服务管理方法后,我校的合同额无论从数量和总额上都有了明显的提高,从2012年占扬大总额1/7,到2014年也占到扬大的1/4左右。但经过这两年运作之后,也有一个明显的问题,就是后续无力,既无科技园又无孵化器。

5)在机构上,扬大有社会合作与服务处与科技处科技成果推广科统共同负责社会服务与产学研工作,科技处主要负责各类产学研相关的项目管理,社会处主要负责各类平台的搭建。江南大学在管理上项目管理主要科研院内成果处和江大技术工程公司,平台搭建主要在产业技术研究院。

2 方法与对策

1)机构整合,把产学研处和成果处进行整合,从成果的源头进行,实现专利申请、持有、转化一条龙服务。另外一种模式,推广与转化一体化。在新成果新技术的推广过程,完成转化的过程。

2)在成果转化上,尤其是需要有产出的产学研合作,就要加强与农药企业、肥料企业、饲料企业、种子企业、农机企业等合作,这类企业在生产中能做到标准化、规模化、技术保密性强、产品明确、科研投入大、知识产权交易清晰,技术投入对于的企业的经营有着明确的影响的。主要是有涉及生产工艺或生产线的农资类企业。

3)要设立种子基金或者概念证明基金,以解决科研成果与企业产品开发之间的“死亡之谷”因为大学与企业本质的不同,所以大学和企业在技术发展和推销阶段信息、动机的不对称以及科学、技术和商业企业存在的制度距离,构成了大学研究成果走向市场的障碍。这个目前国家主要通过孵化器和科技园及一些配套的政策来解决。但目前高校如果没有相应的孵化器或科技园。可以先通过种子基金来扶持一批有商业化前景的成果来进行深入开发。

4)成立涉农科技企业的孵化器。与工业或其他领域的孵化器相比。涉农科技企业有其独特的要求。对于土地或实验基地有着一定的要求。现在工业项目的孵化器比较多,专门为农业的很少。

5)尤其是大的学科组,设立兼职的技术经济人。进行一系列的培训。可以负责所在学科组或学院的成果挖掘和技术交易等相关事务,可以通过工作量或交易额提成的方式进行激励。

6)继续建立技术转移中心。利用地方的资源进行有效的布点,深入了解地方的企业科技需求状态。筛选有效信息,促进高校教师或学科团队与地方及企业的合作。促进学校科研成果的转化及获得更多科研经费投入。

7)充分利用网络平台,现在各类技术交易平台比较多,要选择一些比较活跃的、有政府背景平台,尤其针对农业技术和农业企业的更好,作为我们成果转化的有效平台。

8)转化模式要多样化。在知识产权管理方法的允许下,我们要更多以债权或股权的方式进行转化。和资产经营公司和各类投资公司合作,进行以商业化为目标的成果转化。

第6篇:数据分析分析技术范文

1应用威布尔分布法进行机械零件可靠性试验数据分析

威布尔分布法是当下进行机械零件可靠性试验及数据分析常用的方法之一。应用威布尔分布法进行机械零件可靠性试验数据分析的研究,主要可以将研究内容总结归纳为以下两点。1.1威布尔分布法的基本概念。威布尔分步法在当下已经被全面应用于可靠性工程的试验中。应用威布尔分布法,可以实现概率值的有效获得,进而实现各项数据参数的有效评估,从而为各种寿命试验的数据处理工作的有效开展奠定稳定的基础[1]。威布尔分布法概念中的几个重要参数为t、b、tG以及T,分别代表所测试的对象的应用年限随机变量、所测试的对象的形状特点以及其各项曲线分布情况、所测试的对象的基本位置信息以及其最低应用年限和尺度参数、失效概率为0.632时的特征寿命。威布尔分布法的公式如下:()1bttoTtoFte−−−=−(1)1.2威布尔分布法在机械零件各项参数估计工作开展中的应用。威布尔分布法在机械零件各项参数估计工作开展中的有效应用,主要是借助图解法和解析法。图解法的应用便捷易行,对于检测人员的技术操作熟练程度要求也相对较低,但无法实现对于机械零件各项参数的精确核算。解析法则可以将先进的计算机技术全面应用于机械零件可靠性试验数据测试工作的开展中,但对于检测人员的操作方法和技术性有较高要求。在试验过程中,若是需要对机械零件的各项参数进行明确掌控时,建议应用解析法,以实现对真实分布情况的可靠掌握[2]。明确威布尔分布法的基本概念后,进行威布尔分布法在机械零件各项参数估计工作开展中的应用研究。在开展机械零件可靠性试验数据评估工作中应用威布尔分布法,可以发挥先进的计算机技术优势,更加全面地发挥其优势[3]。

2应用回归分析法进行机械零件可靠性试验数据分析

回归分析法在当下也经常被应用于机械零件可靠性试验数据分析工作的开展进程。开展回归分析法在机械零件可靠性试验数据分析中的应用研究,主要可以将探究内容总结归纳为以下几点。2.1回归分析法的基本概念回归分析法的应用,主要是进行数据统计原理应用的进一步精确化。应用数据统计原理,对各项数据进行线性处理,建立自变量和因变量之间的相互关系式,进而可以以回归方程的形式进行分析内容的更加具体的体现。根据当下回归分析法的具体应用情况,主要可以将回归分析法分为一元回归分析法和多元回归分析法两大类。回归分析法在应用过程中,其方程为:y=bx+a(2)直线上,各点(x,y)到水平线的距离为:21niitybxa=b−−∑(3)2.2回归分析法在机械零件各项参数工作开展中的应用开展回归分析法在机械零件各项参数工作开展进程中的应用时,首先应当明确机械零件各项参数中的自变量和因变量,建立相应的x与y的回归方程,进而掌握机械零件各项参数的回归概念。同时,对于代表机械零件应用年限的参数t进行针对性分析,建立专门的参数t样本容量,以实现对机械零件的失效概率和失效年限的有效估计。开展应用回归分析法进行机械零件可靠性试验数据分析的具体研究可知,回归分析法在机械零件可靠性试验数据分析工作中的应用,可以实现对机械零件各项数据的变换的线性关系的有效掌控,进而实现对机械零件各项参数更加宏观、精确的掌控[4]。

3应用最大似然法开展机械零件可靠性试验数据的分析工作

最大似然法在机械零件可靠性试验数据的分析工作开展进程中的应用,可以有效实现机械零件可靠性试验数据分析方式的进一步优化。开展最大似然法的具体应用研究,主要可以将研究内容总结归纳为以下两点。3.1最大似然法的基本概念。最大似然法被称为最大估计法,这一参数统计法是由德国数学家首先提出的。最大似然法的应用,可以利用应用概率学,通过对被测试对象的随机抽查,进行整体样本情况的全面估计。最大似然法的应用方法和应用原理相对简单,具有较高的实用性,当下也被广泛应用于各项评估工作。3.2最大似然法在机械零件评估工作开展进程中的应用。应用最大似然法进行机械零件评估工作的全面开展,首先应当明确机械零件的设计变量,将SUMT内点法应用于设计工作中,可以建立明确的失效年限变量参数关系。应用过程中,最大似然法要注重数学模型的有效应用,数学模型可表示为:2221311313131min()lnxxnixtxtxFxe=xxxxxx−−=−−−−−∑(4)开展最大似然法在机械零件可靠性试验数据的分析工作开展进程中的应用探究,可以实现对评估结果精确性的进一步分析,从而提升评估结果的可靠性[5]。

4三种机械零件可靠性试验数据分析方法的总结

在进行威尔分步法、回归分析法以及最大似然法三种方法的应用研究后,开展三种机械零件可靠性试验数据分析方法总结工作,根据具体情况有选择性地选择不同的数据分析方法,有效提升机械零件数据分析工作的实效性。通过分析可知,威尔分步法和回归分析法具有较高的精确性,而最大似然法则具有较强的操作性。线性参数的有效应用以及计算机绘图技术的有效应用,可以实现机械零件可靠性试验数据分析结果的精确性。

5结语

根据当下机械零件可靠性测试实验开展的基本状况,主要是应用威布尔分布法进行机械零件可靠性试验数据分析和应用回归分析法。通过对机械零件可靠性试验数据分析以及应用最大似然法开展机械零件可靠性试验数据的分析,根据这三类方法的应用情况进行相应的评估结论总结。机械零件可靠性试验数据分析工作的有效开展,可以有效提升机械零件整体的精确性,促使我国机械行业获得更加广阔的发展空间和更加理想的发展前景,从而为我国社会的整体发展提供更加强大的推动力。

作者:范围广 单位:万向钱潮股份有限公司技术中心

参考文献

[1]卢昊.基于矩方法的相关失效模式机械结构系统可靠性稳健设计[D].沈阳:东北大学,2012.

[2]王新刚.机械零部件时变可靠性稳健优化设计若干问题的研究[D].沈阳:东北大学,2010.

[3]张锡清.机械零件可靠性试验数据的参数估计[J].机械设计,2016,(2):12-14,45.

第7篇:数据分析分析技术范文

关键词:试验数据分析 SPC 设计

中图分类号:TP274.2 文献标识码:A 文章编号:1007-9416(2016)11-0142-01

南京中车浦镇海泰制动设备有限公司是主要从事铁路客车、动车组、城市轨道交通设备制动系统及其零部件和试验装置的研发、设计、制造、销售、修理、租赁及技术咨询、试验检测和技术服务的高新技术公司。公司现有数十台各类非标设备用于产品的出厂试验,每台设备的试验类型、试验参数规格以及试验报告都不相同。

试验数据分析系统的目的就是需要将这些非标设备的试验数据进行集中统一上传存储,并提供统一的查询以及分析,使管理者或相关人员能迅速知晓产品性能参数,通过对试验数据的分析,了解产品的生产过程的结果,实时监控产品试验过程,对阶段性产品试验数据进行SPC分析。科学的区分出生产过程中产品质量的随机波动与异常波动,从而对生产过程的异常趋势提出预警,以便生产管理人员及时采取措施,消除异常,恢复过程的稳定,从而达到提高和控制质量的目的。

1 系统整体设计

系统整体框架结构包括三个部分:基于C/S的试验台应用配置系统 + 数据上传适配器中间件 + 基于B/S的试验台数据分析系统,如图1所示。

C/S的应用配置系统完成对不同类型试验台的应用配置,配置内容包括试验台的试验子项内容定义;试验子项的存储结构定义;试验子项的数据字典定义;试验子项的规格值定义;试验台试验报告单的报表格式及数据源定义。

数据上传适配器接口基于配置数据库中的配置实现将不同类型的试验台试验数据进行上传并存储。

B/S试验台数据分析系统基于配置数据库的配置,实现对不同类型的试验台试验数据进行显示以及分析。

2 数据上传接口设计

在试验过程中,每完成一个试验项目,则将当前试验项目的试验结果信息和参数信息通过调用Web Service接口上传并转储至服务器中的数据库中(如果遇到服务器故障的情况下数据本地保存)。

本地试验数据上传采用windows消息队列方式。原理如图2所示。

3 试验数据报表显示设计

由于试验数据分析系统需要显示不同试验平台下的试验数据报表。在设计中需要根据不同类型的试验台定义报表显示模版,定义模版中的数据源,最后将模版和数据源进行绑定并进行显示。设计结构如图3所示。

基于XML定义报表模版对应的数据源。XML文档格式设计如下:

4 结语

本文提出了多样性试验平台数据上传、集中存储、分析以及报表显示的设计解决方案,并对整体系统的构架做了详细的设计及实现,现系统正在稳定运行中。系统运行SPC分析图如图4所示。

第8篇:数据分析分析技术范文

关键词:信息化建设;大数据分析;煤矿安全决策

通过不断完善煤矿信息化应用,煤矿已具备大数据分析应用的建设条件,利用大数据分析为煤矿安全生产管理提供相应的数据支持,对提高生产效率和煤矿安全管理水平,降低煤矿事故发生概率具有重大意义。

1煤矿信息化建设

为满足煤矿安全生产的需要,目前煤矿已有的信息化系统包括井下人员定位系统、瓦斯监测系统、通风监控系统、供电监测系统、井下移动通信系统、设备运输监控系统、放炮作业监控系统、提升机监控系统、应急广播系统、排水监控系统和视频监视系统等。这些信息化系统在煤矿日常管理、安全生产监测和事故调查工作中发挥着重要作用。现阶段煤矿信息化系统虽已较为完善,但在数据采集、整理、分析应用方面仍然存在许多问题:(1)系统之间联通性不强。系统之间关联程度不高,仅较少系统之间存在一定的关联,大部分系统为独立运行系统。(2)各系统专业性较强。大部分系统仅限于极少数专业人员使用或个别部门使用,尚未普及或关注较少。(3)数据完整性差。由于系统故障等客观原因的存在,导致系统数据不够完整,缺失数据较多。(4)有效信息时效性差[1]。系统相对独立,大部分系统均由专业部室管理,系统状况或使用情况、监测情况大多不能直接或及时到达管理人员或业务人员手中,造成信息滞后。(5)系统功能未能充分利用[2]。大部分系统功能只使用了部分或关键的系统功能。(6)数据更新维护效率不高。系统的变化管理不到位,部分数据需及时更新,但实际情况明显滞后。(7)系统之间数据不一致。为满足不同需求方的要求,多套系统之间信息内容不一致。为解决以上问题,需要借助大数据分析手段,集成各个信息化系统,采集各系统数据,进行统一整理、分析,真正将信息化的作用充分发挥[3]。

2大数据分析应用规划

大数据分析需要将煤矿已有的安全监测监控、人员定位、煤炭产量监控、工业视频和矿压监测等系统进行集成,并结合3DGIS(三维地理信息系统)技术进行直观地展现和交互,实现各业务系统综合监控、统一调度、报警联动,并对数据进行分析,建立安全评价模型,提高安全管理水平。总体架构自下而上分别为数据采集层、数据传输层、数据存储层、大数据分析建模层和表现交互层[4],如图1所示。(1)数据采集层是对系统所需实时动态数据和非实时静态数据两方面的数据进行采集。①非实时静态数据是各实体的地测信息数据,即实体的地理位置、长宽高等几何状态,采集目的是用来构建实体的三维模型,此类数据一般可从地测资料中获取,少部分可人工现场测绘;②实时动态数据是指井下环境参数、设备状态和人员位置等的动态数据,这类数据一般通过传感器或摄像头获取。(2)数据传输层是将采集到的原始数据传输至系统进行后续处理。非实时静态数据主要通过人工录入和导入(电子表格),实时动态数据主要通过工业以太环网传输。矿已有部分系统将传感器数据实时传输至井下分站,然后再传输至OPC服务器,这类系统只需从OPC服务器读取实时数据即可。(3)数据存储层是将得到的原始数据进行过滤、解析、转换和存储。删除无用或冗余数据,统一数据格式,对数据字段和含义进行解析和转换,最终存储到数据仓库。监测数据可按统一的OPC协议获取方式从各系统的OPC服务器读取,根据厂商提供的数据格式进行解析存储。(4)大数据分析建模层是对数据仓库中的数据分析和建模,为上层功能提供理论模型和算法支持。①三维建模功能,利用成熟的三维建模软件,根据采集到的实体对象的静态数据进行建模,最终形成矿区整体的三维模型;②空间分析是对于地理空间现象的定量研究,在三维建模基础上对点、线、面等地理实体进行分析,进行几何量算、最短路径计算等;③预警模型[5],建立煤矿安全统一预警指标体系和模型,实现预警信息的智能分析与及时推送,包括煤与瓦斯突出预警模型、自然发火预警模型、水害预警模型、冲击地压预警模型;④联动模型是传感器和各设备之间的关联配置,实现各系统间的关联展示;⑤风险评价分析模型能实现对矿井和下属各部门的总体安全评价与考核;⑥态势预测分析是运用云计算、数学、统计学理论,充分利用海量样本数据(历史数据),对安全形势进行预测。(5)表现交互层是对系统功能进行展现和交互,可直接从数据库中获取数据进行统计分析,也可对大数据分析结果进行展示。在三维建模的基础上,实现各专业的综合信息展示,直观了解自身关注的重点实体和状态信息。对重要设备、传感器等实体可进行交互查看,达到与到现场相似的效果;在安全评价模型的支持下,展示各实体发生危险的理论值,协助决策;在预警模型的支持下,当发现传感器的数值超过设置的阈值时,系统进行声光报警,并通过短信或微信方式通知相关人员;当发生险情时,根据人员定位信息,可规划避灾线路,统一调度救援;对数据进行统计,可导出各专业相应的电子图表;充分利用碎片化时间的优势,将PC端的部分功能同步到移动端(如安全环境监测、人员定位、产量监控、综合查询等),通过终端APP实现移动查看。

3系统建设预期效果

(1)实现矿井安全管理的综合化和可视化。将矿井安全管理中的元素整合在一起,实现矿井各个生产环节的可视化,分析整个生产链条上的数据,以识别生产问题、管理问题、质量问题、跟踪生产和安全。(2)安全管理信息的动态化管理,即时报警、信息推送。将一部分PC端的功能开发到移动端,可随时随地查询和接收安全信息,掌握矿井安全生产状况。(3)实现自定义配置。根据矿井安全生产管理的实际状况,配置重点关注信息。例如雨季可重点显示水文监测信息,对于管理层可显示矿井宏观性指标信息和异常信息,对专业人员可显示本专业相关信息。(4)实现应急联动。当某一系统警戒值超过规定阈值即出现紧急情况时,则相关联的系统、设备进行相关动作。(5)按系统、时间段进行数据统计分析,图形化显示,为领导层提供安全管理决策依据。。(6)通过三维建模,实现不同模式的场景展示。(7)提高工作效率。用户只需要登录一次就可以访问所有集成的业务系统。数字化与自动化可使操作人员和技术人员快速获取重要信息,轻松管理关键数据,加快决策制定、故障排除,并提升设备性能与效率。

第9篇:数据分析分析技术范文

理性选择理论对行为主体“认知”问题的学术处理,从“经济人”到“理性经济人”并没有显著的变化。古典经济学框架下的理性选择理论以完全信息假设为前提,将行为主体(个人)界定为无本质差异和不涉及个体间行为互动,不受认知约束的单纯追求自身福利的“经济人”(约翰·伊特韦尔等,1996)。新古典经济学的理性选择理论将行为主体界定为“理性经济人”,它同样以完全信息假设为前提,研究了被古典经济学忽略的选择偏好,通过对“偏好的内在一致性”的解析,论证了个体能够得知选择结果的抽象认知(Von Neumann and Morgenstern,1947;Arrow and Debreu,1954)。这里所说的抽象认知,是指行为主体没有经历具体认知过程而直接关联于效用函数的一种认知状态,这种状态在新古典理性选择理论中的存在,表明“认知”是被作为外生变量处理的。

现代经济学的理性选择理论开始尝试将“认知”作为内生变量来研究。现代主流经济学从人的有限计算能力、感知、意志、记忆和自控能力等方面研究了认知形成及其约束(Salvatore, 1999;Schandler,2006;Rubinstein,2007),认为认知是介于偏好与效用之间,从而在理论研究上处于不可逾越的位置,只有对认知进行研究,对偏好和效用的研究才能接近实际。现代非主流经济学注重于运用认知心理学来研究人的认知形成及其约束(Kahneman and Tversky,1973,1974,1979;Smith,1994),它通过实验揭示了一些反映认知心理进而影响选择行为的情景,如确定性效应、锚定效应、从众行为、框架依赖、信息存叠等,以论证传统理论忽视认知分析而出现的理论与实际之间的系统性偏差。

但是,经济学理性选择理论对认知的分析和研究,是在预先设定规则的建构理性框架内进行理论演绎和推理的,它们对认知的解释,通常表现为一种规则遵循。例如,新古典理性选择理论关注个体应怎样符合理性(最大化)的选择,而不是关注个体的实际选择,它对认知的学术处理是从属于效用最大化的(Harsanyi,1977)。现性选择理论所关注的,或是在忽略认知的基础上建立解释和预测实际选择的理性模型来说明实现效用最大化的条件,以阐释个体如何选择才符合理性(Edgeworth,1981);或是通过行为和心理实验来解说实际选择的条件配置,以揭示实际选择的效用函数(Kahneman and Tversky,1973,1974,1979;Smith,1994),因而对认知的学术处理同样是从属于效用最大化的。基于选择的结果是效用,而认知与偏好都内蕴着效用形成的原因,我们可以认为,经济学在将个人追求效用最大化视为公理的同时,也在相当大的程度上表明理性选择理论对效用函数的描述和论证,不是依据数据分析而是一种通过理论预设、判断和推理得出的因果思维模式。

因果思维模式在信息完全和不完全情况下的效应是不同的。在信息不完全状态下,如果研究者以信息完全预设为分析前提,依据自己掌握的部分信息对问题研究做出因果逻辑判断和推论,则其不一定能得到正确的认知。在信息完全状态下,研究者不需要有预设的分析假设,也不需要依赖逻辑判断和推论,而是可以通过数据高概率地获取正确的认知。经济学的信息完全假设对认知研究的影响是广泛而深刻的。例如,新古典经济学假设选择者拥有完全信息,能够实现效用最大化,它对偏好与认知以及认知与效用之间因果关系的逻辑处理,是通过可称之为属于该理论之亚层级预设的“给定条件约束”实现的(信息完全假设是第一层级预设)。在该理论中,偏好被规定为是一种处于二元化的非此即彼状态,认知在“选择者知晓选择结果(效用)”这一亚层级预设下被跳越。很明显,这种因果思维模式有助于使其建立精美的理性选择理论体系,但由于没有对认知阶段作出分析,它很容易严重偏离实际。

现代主流经济学的理性选择理论偏离现实的程度有所降低,原因在于开始重视认知的研究。半个多世纪以来的经济理论研究文献表明,现代主流经济学的理性选择理论正在做逐步放弃完全信息假设的努力,它对偏好与认知以及认知与效用之间因果关系的逻辑处理,是在质疑和批评新古典经济学偏好稳定学说的基础是进行的,该理论用不稳定偏好取代偏好的内在一致性,解说了认知的不确定性,以及不完全信息和心理活动变动等如何对认知形成约束,以此质疑和批评新古典经济学的期望效用函数理论,并结合认知分析对个体选择的效用期望展开了深入的讨论。相对于新古典经济学的理性选择理论,虽然现代主流经济学的理性选择理论仍然是因果思维模式,但它有关偏好与认知以及认知与效用之因果链的分析衔接,明显逼近了实际。

现代非主流经济学的理性选择理论不仅彻底放弃了完全信息假设,而且彻底放弃了主流经济学中隐性存在的属于新古典理论的某些“给定条件约束”。具体地讲,它对偏好与认知以及认知与效用之间因果关系的论证,不是基于纯理论层次的逻辑分析,而是从实验过程及其结果对这些因果关系做出解说。至于效用最大化,该理论则认为认知与效用最大化的关联,并不像先前理论描述的那样存在直接的因果关系。现代非主流理性选择理论通过实验得出一个试图取代传统效用函数的价值函数(Kahneman and Tversky,1979),该函数体现了一种以实验为分析底蕴的不同于先前理论的因果思维模式,开启了以实验数据作为解析因果关联的理论分析先河。但由于现代非主流理性选择理论毕竟还是一种因果思维模式,因而同先前理论一样,在理论建构上它仍然具有局限性。

从理论与实践的联系看,经济学理性选择理论的因果思维模式之所以具有局限性,乃是因为它用于分析的信息是不完全和不精确,甚至有时不准确,以至于造成认知不正确和决策失误。当研究者以不准确或不精确的信息来探寻因果关系时,极有可能致使认知出现偏差;而当认知出现偏差时,理论研究和实际操作就会出问题。诚然,因果思维模式本身并没有错,但问题在于,单纯从现象形态或单纯从结果所做出的理论判断和推论,不足以让研究者揭示真实的因果关系。人们对因果关系的理解过程伴随着认知的形成过程,在非数据支持的因果思维模式存在局限性的情况下,经济学家依据这种模式所构建的理性选择理论,难以得到符合实际的认知理论。那么,在未来世界是什么影响和决定认知呢?人类认知有没有可能达到准确化呢?我们把目光聚焦于大数据,或许能够找到问题的答案。

二 、运用大数据能获得正确认知吗?

在迄今为止的经济理论研究文献中,经济指标或行为指标所选用的样本数据,不是互联网和人工智能时代所言的大数据。大数据具有极大量、多维度和完备性等特征,极大量和完备性表明大数据有可能提供完全信息,多维度意味着信息可以通过大数据的相关性得到甄别和处理。广而论之,人类的行为活动表现为一个庞大的数据堆积,个别行为所产生的数据只是这个庞大数据的元素形式。如果我们以人们的投资和消费活动作为考察对象,对大数据蕴含的因果关系以及由此得出的认知进行分析,那么,我们可认为投资和消费不仅在结果上会产生大数据,而且在运作过程中也会产生大数据。换言之,投资行为和消费行为在“结果”上显示极大量数据的同时,也在“原因”上留下了极大量数据让人们去追溯。因此,人类要取得因果关系的正确认知,离不开大数据,而在样本数据基础上经由判断和推理得出的针对因果关系的认知,至少是不全面的,它不足以作为人们投资和消费选择的科学依据。

1、运用大数据分析因果关系的条件配置

人类认知的形成离不开因果关系分析,但运用大数据来分析因果关系以求获取正确的认知,必须具备以下条件配置:1、移动设备、物联网、传感器、社交媒体和定位系统等的覆盖面要足够大,以便能搜取到极大量和完备性的数据;2、需要探索对极大量(海量)数据的算法,能够对大数据进行分类、整合、加工和处理;3、需要厘清和区别数据的不同维度及权重,以至于能够运用大数据来甄别因果关系的内在机理。显然,人类从两百年前的工业革命到今天的信息革命,对数据的搜集、整合、加工和处理还不全然具备以上的配置条件,人类运用大数据来分析因果关系,还刚刚处于起步阶段。

联系经济学理论看问题,经济学家分析投资行为和消费行为以及对其因果关系的研究,主要是在抽象理论分析基础上运用历史数据来完成的。其实,对投资行为和消费行为的研究,不能只是从结果反映的数据来考量,即不能只是局限于历史数据分析,还需要从即时发生的数据,乃至于对未来推测的数据展开分析。这可以理解为是运用大数据思维来研究经济问题的真谛。从大数据观点看问题,投资和消费的因果关系应该是历史数据流、现期数据流和未来数据流等三大部分构成的。经济学实证分析注重的是历史数据流,很少涉及现期数据流,从未考虑过未来数据流,因此,现有经济理论文献的实证分析以及建立其上的规范分析,很难全面反映或揭示经济活动的真实因果关系。

2、未来几十年大数据揭示因果关系的可行性

在互联网悄然改变人类经济、政治和文化生活的当今社会,互联网的发展历史可理解为经历了三个阶段:从前期“人与信息对话”的1.0版本,经由中期“信息与信息对话”的2.0版本,近期正走向“信息与数字对话”的3.0版本,互联网版本的不断升级是大数据运用范围不断扩大的结果,这是问题的一方面。另一方面,随着互联网、移动互联网以及物联网技术等的广泛运用,人类各种活动的数据将极大量地被搜集,人们行为的因果关系也会以迂回方式通过数字关系显露出来。特别地,若互联网在将来发展成“数字与数字对话”的4.0版本,这样的发展方向则明显预示着数字关系将取代因果关系,或者说,数据思维将取代因果思维,人类将全面进入大数据和人工智能时代。

如果我们把互联网版本的不断升级以及大数据运用范围的无边界扩大,看成是未来几十年运用大数据来分析因果关系的重要配置条件,那么,如何对大数据的整合、分类、加工和处理,以及如何通过大数据的完备性和相关性来获取因果关系的真实信息,则是另外两个重要的配置条件。工业革命后的人类科学文明对因果关系揭示的主要方法和路径,是先利用掌握的信息再通过抽象思维建立复杂模型,然后在实验室通过试错法来设置能反映因果关系的参数使模型具有操作性;但这种方法和路径涉及的数据,是样本数据而不是大数据。在大数据和人工智能时代,智慧大脑是使用“数据驱动法”来设置模型和参数的(吴军,2016)。具体地讲,是用云计算集约化及其运算模式来整合、分类、加工和处理大数据,通过数据之间的相关性来探寻在样本数据基础上无法判断和推论的信息;同时,对模型的处理,不是建立复杂模型而是建立许多简单模型,并通过数以万计的计算机服务器对模型进行优化和设定相应的参数,以至于完完全全地运用大数据来揭示因果关系。

有必要说明的是,数据驱动法使用的数据不仅包括“行为数据流”,而且在某些特定场景中,还包括“想法数据流”;前者是指历史数据和当前发生的数据,后者是指从已知数据的相关性所推测的未来数据。社会物理学认为,人们实际行为与“想法流”之间有着可以通过大数据分析而得到的可靠数量关系,这种关系会通过互联网成为一种改变人们选择行为的重要因素(阿莱克斯?彭特兰,2015)。诚然,在未来几十年,数据驱动法是否能成功地成为解析因果关系的有效方法,尚有待于大数据运用的实践,特别是有待于它在人工智能运用上之成效的检验。不过,数据驱动法作为解析因果关系的一种重要方法,无疑是智慧大脑的人机结合在大数据思维上的重要突破,它至少在如何展开大数据思维上打开了解析因果关系的窗口。

3、运用大数据分析因果关系所获取的认知,包括对历史数据分析的历史认知,对现期数据分析的现期认知,以及推测未来数据而形成的未来认知

经济学家运用大数据来研究经济现象的因果关系,对经济现象原因和结果关联的解读,只有以极大量、多维度和完备性的数据为依据,才是大数据意义上的思维。大数据思维较之于传统逻辑思维,最显著的特征是它可以通过对不同维度数据之间相关性的分析,得到比传统逻辑思维要精准得多的信息。这里所说的精准信息,是指由大数据规定且不夹带任何主观判断和推测的信息。例如,经济学家要得到特定时期某类(种)产品的投资和消费的认知,其大数据思维过程如下:1、搜集、整理和分类前期该类产品的投资和消费的极大量和完备性的数据;2、加工和处理业已掌握的数据,并在结合利润收益率、投资回收期、收入水平和物价水平等的基础上解析这些不同纬度的数据;3、根据不同纬度数据的相关性,获取该类产品投资和消费的精准信息,从而得出如何应对该产品投资和消费的认知。当然,这只是在梗概层面上对运用大数据分析而获取认知的解说,现实情况要复杂得多。

然则,现有的关于投资和消费的模型分析以及建立其上的实证分析,主要是以非大数据的历史数据作为分析蓝本的,因此严格来讲,经济学对投资和消费的因果关系分析所形成的认知,属于典型的对历史数据分析所形成的历史认知。众所周知,自经济理论注重实证分析以来,一直存在着如何“从事后评估走向事前决策”问题的讨论。由于经济学家对投资和消费展开实证分析所使用的数据,几乎完全局限于(样本)历史数据,这便导致对投资和消费的因果关系分析对现期认知和未来认知的缺位,它不能解决“从事后评估走向事前决策”问题。国内一些著名的成功人士指责经济学家不能解决实际问题。在我们看来,不熟悉大数据的成功人士的这种指责是可以理解的,但深谙大数据的成功人士带有调侃风味的指责就不公允了。经济学家要在理论上立竿见影地解决实际问题,必须能得到现期数据和未来数据(而不仅仅是历史数据),这需要计算机学家的配合和支持,否则便不能在精准信息的基础上分析投资和消费的因果关系,但经济学家又不是计算机学家,因此,经济理论的科学化需要大数据挖掘、搜集、整合、分类、加工、处理、模型和参数设置、云计算等技术及其手段的充分发展。

历史数据是存量,目前计算机对其处理的能力已绰绰有余,难点是在于模型和参数设置;现期数据是无规则而难以把控的流量,对这种流量数据的挖掘、搜集、整合、分类、加工和处理,取决于移动设备、物联网、传感器、社交媒体和定位系统的覆盖面,以及云计算的集约化的运算能力;未来数据是一种展望流量,它依赖于对历史数据和现期数据的把握而通过大数据思维来推测。如果说经济学家对投资和消费的因果分析以及由此产生的认知,主要取决于历史数据和现期数据,那么,解决“从事后评估走向事前决策”问题,既要依赖于历史数据和现期数据,也离不开未来数据。也就是说,在“历史数据 + 现期数据 + 未来数据 = 行为数据流 + 想法数据流”的世界中,经济学家要解决实际问题,其理论思维和分析手段都受制于大数据思维,经济学家运用大数据分析因果关系而得到正确认知的前提条件,是必须利用历史数据、现期数据和未来数据以获取精准信息。

就人类认知形成的解说而论,现有的社会科学理论是以信息的搜集、整理、加工、处理、判断和推论,作为分析路径来解释认知形成的。当认知被解释成通过数据的挖掘、搜集、整合、分类、加工和处理而形成,对认知形成的解释,就取得了大数据思维的形式。大数据思维是排斥判断和推论的,它否定一切非数据信息,认为产生精准信息的唯一渠道是大数据。在现有的社会科学理论中,经济学的理性选择理论对人类认知的分析和研究具有极强代表性,经济学家对投资选择和消费选择的解释,便是理性选择理论的代表性运用。基于人类认知形成和变动的一般框架在很大程度上与理性选择理论有关动机、偏好、选择和效用等的分析结构有很强的关联,我们可以结合这个理论来研究大数据思维下人们对经济、政治、文化和思想意识形态等的认知变动。事实上,经济学关于动机、偏好、选择和效用等关联于认知的分析,存在着一种可以通过对大数据思维的深入研究而得以拓展的分析空间,那就是大数据思维会导致人类认知的变动。

三 、大数据思维之于认知变动的经济学分析

我们研究这个专题之前有必要指出这样一个基本事实:大数据思维可以改变人的认知路径,可以改变不同阶段或不同场景下的认知形成过程,但改变不了影响认知的动机、偏好、认知和效用等的性质规定。如前所述,传统经济学理性选择理论在完全信息假设下,认为个体选择的动机和偏好以追求最大化为轴心,传统理论的这个真知卓见从未被后期理论质疑;但由于传统理论的完全信息假设存在着“知晓选择结果”的逻辑推论,因而认知在传统理论中是黑箱,也就是说,传统理论无所谓认知的形成和变动问题。现代主流经济学尤其是现代非主流经济学在不完全信息假设下开始重视对认知的研究,在他们看来,认知形成过程是从理智思考到信息加工和处理的过程;他们特别注重从心理因素来考察认知变动(Schandler,2006;Rubinstein,2007;),注重通过实验且运用一些数据来分析和研究认知(Kahneman and Tversky,1974,1979;Smith,1994),但这些分析和研究不是对极大量、多维度和完备性的数据分析。因此,经济学理性选择理论发展到今天,还没有进入对大数据思维改变人类认知问题的讨论。

1、经济学家能否对选择动机、偏好和效用期望等进行数据分析,决定其认知分析是否具有大数据思维的基础

经济学关于人类选择动机、偏好和效用期望等反映人们追求最大化的基本性质分析,以及从这三大要素与认知关联出发,从不同层面或角度对认知形成的分析,主要体现在理性选择理论中。但这方面显而易见的缺憾,是不能对动机、偏好、认知和效用等展开数据分析。现实的情况是,在大数据、互联网、人工智能和机器学习等没有问世或没有发展到一定水平以前,经济学家对这些要素只能做抽象的模型分析。经济学理性选择理论要跳出抽象模型分析,必须选择具有解释义或指示义的指标对动机、偏好和效用期望等进行数据分类分析,以便给认知的数据分析提供基础,显然,这会涉及抽象行为模型的具体化和参数设计的具体化,需要得到大数据和云计算集约化运算模式的支持(吴军,2016)。作为对未来大数据发展及其运用的一种展望,如果经济学家能够围绕最大化这一性质规定来寻觅动机、偏好和效用期望等的特征值,并以之来设置参数和模型,则有可能对直接或间接关联于动机、偏好和效用期望的大数据进行分析,从而为认知分析提供基础。

大数据的极大量和完备性有可能消除信息不完全,这给认知的数据分析提供可行性。诚然,选择动机、偏好和效用期望等只是反映人们选择的现期意愿和未来愿景,其极强的抽象性决定这样的数据分析还有很大困难,但由于选择动机、偏好和效用期望等会通过实际行为迂回地反映出来,因而我们可以找到解决这一困难的路径。例如,人们在准备投资和消费以前,一般有各种调研活动,即对影响投资和消费的信息进行搜集、整合、分类、加工和处理,值得注意的是,这些调研活动会在移动设备、物联网、传感器、定位系统和社交媒体中留下大数据的痕迹,这些数据痕迹会从某个层面或某个角度显现出投资者和消费者选择动机、偏好和效用期望的倾向或意愿。

智慧大脑依据什么样的标准来数据化这些倾向或意愿,从而对选择动机、偏好和效用期望以及进一步对认知展开数据分析呢?这里所说的标准,是指通过云计算和机器学习等对人们实际行为的数字和非数字信息进行相关性分类,把反映选择动机、偏好和效用期望的具有共性特征的倾向或意愿进行整理和归纳,以确定符合选择动机、偏好和效用期望之实际的参数。如果智慧大脑能够利用大数据、互联网、人工智能和机器学习等完成以上工作,根据认知是偏好与效用的中介这个现实,智慧大脑便可以对认知进行大数据分析。如果经济学家能够利用智慧大脑提供的大数据分析成果,经济学理性选择理论将会随着信息不完全假设前提变为信息完全假设前提,选择动机、偏好和效用期望的抽象分析变为数据分析,认知的抽象框定或心理分析变为数据分析而发生重大变化。以上的分析性讨论,是我们理解大数据思维改变人类认知之经济学解释的最重要的分析基点。

2、运用大数据思维进行偏好分析会改变认知形成的路径,使经济学理性选择理论接近现实

现有的理性选择理论有关动机和偏好的分析和研究(这里集中于偏好的讨论),主要集中于偏好如何界定和形成以及如何随认知和效用期望调整而发生变动等方面,并且这些分析和研究是采用“个体行为”为基本分析单元的个体主义方法论。在大数据时代,虽然个人、厂商和政府的选择偏好仍然是追求最大化,个体选择行为仍然是整个社会选择的基础,个体主义方法论仍然在一定程度和范围内存在合理性,但互联网平台改变了选择偏好的形成过程和机理。具体地说,现今人们的选择偏好已不是经济学理性选择理论意义上的选择偏好,而更多地表现为是一种以最大化为底蕴的具有趋同化特征的偏好。例如,某种产品投资或消费的介绍会和研讨会,对某种产品投资或消费的点赞和评价,中央政府和地方政府关于某种产品投资或消费的统计数据,专家和新闻媒体对某种产品投资或消费的评说和报道,等等,都会成为人们选择偏好出现一致性的催化剂。因此,经济学理性选择理论跳出抽象模型分析,已经在偏好分析上具备了大数据思维的条件和基础。

智慧大脑与非智慧大脑的区别,在于能对人们消费和投资的偏好展开大数据分析,能通过大数据的搜集、整合、加工和处理,运用云计算得到来自不同维度数据之间相关性的精准信息,以至于能获取建立在大数据分析基础之上的认知。从理论上来讲,偏好会影响认知但不能决定认知。就偏好影响认知而论,它主要是通过利益诉求、情感驱动、身心体验和时尚追求等对认知产生诱导或牵引作用。但在非大数据时代,这些诱导或牵引作用无法数据化,于是经济学家对偏好影响认知的研究便只能以抽象模型来描述。大数据思维对偏好影响认知的处理,是使用以许多简单而相对具体的模型取代高度抽象的单一模型,运用数据驱动法来设置参数和模型,对利益诉求、情感驱动、身心体验和时尚追求等偏好特征进行解读,这样便实现了很多非数据化信息的数据化,从而使以偏好为基础的在理论上对认知变动的研究有了新的分析路径。

阿里巴巴公司正在奋力打造的线上和线下相结合的“新零售”模式,是以大数据分析和运用的阿里云平台为背景和依托的。这个模式试图通过充分搜集、整合、分类、加工和处理已发生的历史消费数据,正在发生的现期消费数据和有可能发生的未来消费数据,捕捉人们消费偏好的动态变化,以期构建符合大数据思维的全新商业业态。撇开新零售模式在运营过程中的诸如数据处理、机器学习和人工智能运用等技术问题,仅以该模式对人们消费行为的系统梳理、分级整合及相关处理来说,它无疑会在引领人们消费行为的同时促动消费趋同化偏好的形成。尤其值得关注和研究的是,随着该模式运营所积累的数据量全然达到大数据的标准,人们的消费认知将会在消费趋同化偏好的导引下发生变化,这种情形不仅会发生在消费领域,投资领域也会出现投资趋同化偏好。很明显,趋同化偏好具有共性特征,它在很大程度上是对个体选择偏好的否定,对于这种偏好所导致的认知应该怎样理解呢?这个问题需要进一步研究。

3、在大数据时代,趋同化偏好会改变认知形成过程,消费者和投资者的认知不再是自己独立思考和理智判断的产物,而是在趋同化偏好驱动下对智慧大脑认知的认同

厂商的投资选择偏好是追求利润最大化,这一永恒的事实不妨碍或排斥投资趋同化偏好的形成。一般来讲,大数据发展初期的互联网平台对选择趋同化偏好形成的作用力,在消费领域要比投资领域来得更加直接和迅速。究其原因,是两大领域的机会成本和风险程度不同的缘故。但随着大数据、云计算和机器学习等的充分发展,智慧大脑有可能对历史、现期和未来的大量投资数据进行搜集、整合、加工和处理,有可能通过云计算集约化模式来分析不同维度数据之间相关性而获得精准信息,同时,智慧大脑会根据市场“行为数据流”折射出“想法数据流”而产生预见能力,寻觅和遴选出高收益的投资方向和投资标的。若此,智慧大脑投资选择的胜算率(利润率)将会大大提高,厂商会效尤智慧大脑进行投资选择,从而出现投资趋同化偏好。经济学曾经对诸如“羊群效应、蝴蝶效应、从众行为、信息重叠”等现象有过许多研究(罗伯特?希勒,2001),但严格来讲,这些研究是描述性的,不是联系偏好和认知等的分析性研究。

消费和投资的趋同化偏好主要是针对消费者和投资者的选择行为方式而言的,它不改变消费和投资选择偏好的追求效用最大化的性质规定,这是问题的一方面。另一方面,在将来大数据充分发展的鼎盛时期,消费和投资的趋同化偏好会改变认知形成过程,这可以从两种意义上来理解:1、从原先通过对信息进行搜集、整合、分类、加工和处理来获取认知,转变为通过对数据的搜集、整合、分类、加工和处理来获取认知;2、消费者和投资者的认知不再是自己独立思考和理智判断的产物,而是在趋同化偏好的驱动下认同智慧大脑的认知。关于第一点,大数据思维的认知之所以会取代独立思考和理智判断的认知,乃是因为它能够运用云计算集约化模式将消费和投资的历史数据、现期数据甚至未来数据进行分类处理和相关性分析,能够运用数以万计的计算机服务器对特定事物的因果关系展开深度机器学习,从而通过分类和归纳不同维度数据而得到精准信息(精准医疗就是基于此原理)。人类对因果关系探索的手段和路径发生变化,认知的形成过程及其机理就会发生变化。

关于第二点,消费者和投资者在未来放弃对信息的搜集、整合、分类、加工和处理,认同和效尤智慧大脑的认知来进行选择,这可理解为是他们进行效用比较(投入与收益)时的“幡然悔悟”。尤瓦尔?赫拉利(2017)有关一切有机和无机实体都可以运用算法来解构的前景预期,(吴军,2016)关于未来制造业、农业、医疗、体育、律师业甚至新闻出版业都将由大数据统治的观点,凯文?凯利(2014)以大数据和人工智能为分析底蕴对新经济十大重要准则的论述,均认为具有大数据思维且不作出主观判断的智慧大脑将是未来世界的操控者,而Master和AlphaGo战胜世界顶级围棋高手的实践,则显露了人工智能完全有可能战胜人脑的端倪。现实中的普通消费者和投资者通常只是依据有限或不准确的信息进行消费和选择,经济学家也只是根据有限或不准确的信息进行因果关系分析而得出认知,因此,相对于智慧大脑的选择效用,消费者和投资者是相形见绌,经济学家的理论见解和政策主张往往不吻合实际。

智慧大脑是运用大数据思维而超越一般智人大脑的大脑。不过,从性质上来讲,极少数拥有智慧大脑的人通过对数据的搜集、整合、分类、加工和处理所得到的认知,仍然属于人的认知。需要强调指出的是,这种认知不同于经济学理论及其他社会科学理论所阐述和论证的认知,它是在大数据思维驱动下的人类认知。对于这种新型认知的理解,如果我们结合经济学理性选择理论对其展开解说,则有着基础理论的分析价值。

4、在未来,智慧大脑的认知将引领非智慧大脑的认知,其结果是导致认知趋同化

熟悉经济学理性选择理论的学者知道,无论经济学家是从信息的搜集、整合、分类、加工和处理获取认知,还是通过心理分析或行为实验获取认知,他们都是在不完全信息或有限理性约束下进行的,这不仅存在着以不精准信息推论认知的问题,而且存在认知形成过程的主观判断问题。智慧大脑运用大数据思维所形成的认知的最大特点,是在接近完全信息基础上获取认知的,并且不夹带任何主观判断。现代未来学家曾分别从不同角度和层面对大数据、互联网和人工智能展开了许多讨论,他们的共同见解是认为大数据的极大量、多维度和完备性将有可能解决信息不完全问题(包含信息不对称),并且能够给人类选择提供精准信息。倘若如此,人类的认知问题便完全成为智慧大脑对数据的搜集、整合、分类、加工和处理问题,一旦人类可以通过大数据思维获取精准信息和完全信息,经济学理性选择理论将会在根基上被颠覆。

智慧大脑只有极少数人才具备,绝大部分人(包括智人)都是非智慧大脑。在未来世界,智慧大脑将引领非智慧大脑进行选择。这一引领过程是由前后相继的两个阶段构成:一是智慧大脑运用大数据对偏好进行分析,通过互联网将偏好传送给具有从众心理和从众行为倾向的非智慧大脑,形成非智慧大脑的趋同化偏好;另一是智慧大脑运用大数据分析获取认知,同样是通过互联网让非智慧大脑效尤智慧大脑的认知,形成趋同化认知,从而使非智慧大脑以智慧大脑的认知为认知来选择。这些情形表明,未来人类智慧大脑将决定非智慧大脑的偏好和认知,进一步说,则是智慧大脑将影响非智慧大脑的选择行为。这里有一个极其重要问题须讨论:对绝大部分非智慧大脑而言,他们在选择过程中是否还存在认知?事实上,无论是趋同化偏好还是趋同化认知,非智慧大脑的偏好和认知并没有彻底消失,只是形成的路径和内容发生了变化。关于这个问题的讨论,联系经济学的认知理论进行比较分析,或许会有更深的理解。

如前所述,传统经济学以完全信息为假设前提,将认知作为理性选择模型的外生变量,“认知”是被理论分析跳越的。现代经济学以不完全信息为假设前提,在理性选择模型中,努力通过心理和实验分析把认知作为内生变量,易言之,“认知”被解释为个体对信息进行搜集、整合、分类、加工和处理的结果,显然,以上分析在分析对象、分析方法和分析路径上,是与大数据思维不同的。现代经济学理性选择理论所分析的个体,是通过逻辑推论所抽象出来的芸芸众生;虽然智慧大脑也可以看成是个体,但人数极少,是具有大数据思维之共同特征的个体。现代经济学理性选择理论是借助于偏好分析来研究认知的,虽然认知已在一定程度上被视为内生变量,但分析方法和路径仍然是逻辑判断或推论为主;大数据思维对认知分析将会采用的方法和路径,是搜集、整合、分类、加工和处理数据,试图从极大量、多维度和完备性的数据中获取精准信息以得出认知。因此,尽管认知出现了趋同化,人类在大数据思维下仍然存在认知,只不过是非智慧大脑放弃自己的认知而统一于智慧大脑的认知罢了。

总之,偏好和认知的趋同化显示了大数据思维的魅力,这种魅力根植于大数据能够经由智慧大脑而产生精准信息。其实,智慧大脑如何设置参数和模型,如何运用云计算集约化模式,如何利用互联网以及寻觅广泛使用人工智能的方法和途径等,主要是计算机运用层面上的技术问题。我们研究大数据思维下人类认知变动需要重点关注的,是非智慧大脑究竟还有没有认知,其效用期望会呈现什么样的格局?既然非智慧大脑只是没有独立认知而不是完全跳越了认知,那么非智慧大脑便存在着效用期望,关于这种效用期望,我们可以联系效用函数来解说。

四 、认知结构一元化与效用期望变动的新解说

经济理论对选择行为与效用期望之间动态关联所建立的基本分析框架,展现出一幅“偏好认知选择效用期望”的图景。各大经济学流派的理性选择理论对这幅图景中的 “”有不同的解说和取舍(前文有所涉及),概括来说,或侧重于分析这些箭头前后要素之间的相互关联,或侧重于分析这些箭头前后要素之间的影响和决定作用。但就人们选择动机和目的与效用之间的关联而论,几乎所有理论都不怀疑“追求自身利益最大化”的公理性,于是,“最大化”在成为效用函数核心变量的同时,也在一定程度上被作为理性选择的判断标准。以上图景的逻辑分析链是建立在信息不完全分析假设上的,各大经济学流派的理性选择理论对这条逻辑分析链各环节的不同解说所产生的理论分歧,可归结为是在信息不完全假设分析框架内的分歧。值得学术界关注的是,当大数据在未来有可能提供完全信息时,这些分歧将会让位于新的理论探讨。

经济学家对效用函数的研究是与认知分析紧密相联的。但无论是传统经济理论还是现代经济理论,他们对效用函数以及最大化问题的研究存在着共性,即这些研究都是建立在抽象的认知结构一元化基础上的。具体地说,传统经济理论在完全信息假设上认为,选择者可以得到“获悉选择结果的认知”,从而主张用“最大化”来描述选择者的效用函数。现代主流和非主流经济理论在不完全信息假设上认为,选择者受有限理性约束不可能得到“获悉选择结果的认知”,从而主张不可用“最大化”来描述选择者的效用函数。这里所说的抽象认知结构一元化,是指不是以具体的认知主体作为分析对象,而是把整个人类描述为一个同一的抽象主体,让“最大化”问题成为效用函数的核心问题。在大数据思维的未来世界,随着信息有可能出现完全化,“最大化”问题将会成为不是问题的问题。

诚然,智慧大脑对大数据进行搜集、整合、分类、加工和处理,并通过云计算、机器学习乃至于根据人工智能实践来选择参数和设置模型,仍然没有越出追求自身利益最大化这一效用函数的性质规定,但由于智慧大脑的认知形成过程是建立在具有极大量、多维度和完备性的大数据基础之上的,大数据能够提供完全信息的特点有可能会让智慧大脑取得效用最大化。人类绝大部分选择者是非智慧大脑者,从科学意义上来讲,大数据对他们可谓是长期的黑箱,而他们依据自己认知所做出的选择又不可能实现效用最大化,于是,非智慧大脑者将以智慧大脑者的认知作为自己认知而做出选择,这便形成了大数据时代实际意义上的一元化认知结构。如果说我们划分智慧大脑和非智慧大脑是对人类选择主体的一种新界定;那么,我们揭示这两大选择主体实际意义上的一元化认知结构,则是对大数据时代人类认知问题的一种新解说。

大数据背景下人类实际意义上的认知结构一元化,将是未来发展的一种趋势,相对于经济理论抽象意义上的认知结构一元化,它容易把握和理解。但它在将来能否成为一种固定化趋势,取决于智慧大脑在经济、政治、文化和思想意识形态等领域进行选择时获得的效用函数值。对于该效用函数值的预期,大数据思维下的智慧大脑是具备这种能力的。从经济理论分析看,对效用函数值的讨论,将涉及内蕴且展示效用函数的效用期望问题的讨论。传统经济学的期望效用函数理论,是一种运用数学模型论证选择者能够实现最大化的理性选择理论((Von Neumann and Morgenstern,1947;Arrow and Debreu,1954),现代非主流经济学是在分析风险厌恶和风险偏好的基础上,用一条S型的价值(函数)曲线取代传统的效用函数,并通过相对财富变动对选择者感受的分析,解析了选择者的效用期望会不断发生调整的情形(Kahneman and Tversky,1979)。那么,大数据时代选择者的效用期望会发生怎样变动呢?

人类社会发展的历史表明,人的主观期望与实际选择结果之间会发生经常性偏离。选择者的效用期望能否实现最大化,一是取决于选择者能否得到完全信息,另一是取决于选择者认知过程的科学化。事实上,现代经济学对传统经济学以最大化为核心的效用函数的质疑和批评,主要是围绕信息不完全和忽略认知过程展开的。大数据时代存在着提供完全信息的可能性,而智慧大脑利用互联网和运用云计算、机器学习和人工智能等手段,正在实现着认知过程的科学化,这便提出了经济学必须回答的两大问题:1、大数据思维下的人类选择是否可以实现最大化,2、大数据思维下选择者的效用期望会不会发生调整。这是现代经济学没有提及的两大问题,但当我们分别从智慧大脑和非智慧大脑来讨论这两大问题时,结论或许会让笃信经济学经典理论的学者大跌眼镜。

在未来世界,随着互联网平台的日新月异以及移动设备、物联网、传感器、社交媒体和定位系统等搜集大数据手段的覆盖面的日益扩大,大数据的极大量、多维度和完备性给人类选择提供了完全信息的基础。智慧大脑在云计算、机器学习和人工智能等的支持下,以数据分析为基础的认知过程也越来越科学化,于是,智慧大脑便可以知晓选择过程的结果,有可能实现最大化,这说明智慧大脑不存在效用期望的调整问题。另一方面,非智慧大脑以智慧大脑的认知为自己的认知,其效用期望完全依附于智慧大脑的效用期望。具体地说,非智慧大脑不对数据进行搜集、整合、分类、加工和处理,跳越了认知过程,同样不存在效用期望的调整问题。非智慧大脑效用期望完全依附于智慧大脑效用期望的情形,或者说,非智慧大脑以智慧大脑效用期望为自己效用期望的情形,统一于智慧大脑与非智慧大脑的认知结构一元化。如果要追溯非智慧大脑效用期望的变动,那就是从原先属于自己的效用期望转变成了智慧大脑的效用期望。

智慧大脑有可能实现最大化,以及不存在效用期望调整是一回事,但智慧大脑能否在所建模型中给定效用期望值却是另一回事。效用期望作为一种主观预期或判断,它不会在互联网上留下可供大数据分析的历史数据流、现期数据流和未来数据流,也就是说,不会在互联网上留下可供大数据分析的行为数据流和想法数据流,这在决定智慧大脑难以跟踪、模拟和推论效用期望值的同时,也给非智慧大脑放弃认知而效尤智慧大脑提供了某种聊以。推崇人工智能可以替代人脑的学者,好用Master和AlphaGo战胜世界顶级围棋高手的事实作为这种替代的立论依据,但无论我们怎样在大数据分析、机器学习和人工智能运用等方面进行深度挖掘,也找不到智慧大脑能在所建模型中给定效用期望值的科学依据。智慧大脑不能确定效用期望值,也就规定了非智慧大脑不能确定效用期望值。这又提出了一个在理论上有必要回答的问题:非智慧大脑还有没有效用期望?

在经济社会,智慧大脑和非智慧大脑的投资和消费选择的效用期望都是追求最大化,这一点是永恒的。但问题在于,非智慧大脑以智慧大脑的认知为自己认知,以智慧大脑的选择作为自己选择的情形,会使自己的效用期望完全停留在期望智慧大脑选择结果的形式上,这可以解释为大数据时代非智慧大脑的效用期望的一种变动。但对于这样的效用期望的理解,与其说它是一种效用期望,倒不如说它是一种效用期待。社会经济的精英是人数极少的智慧大脑群体,但推动投资和消费的是占人口绝大多数的非智慧大脑群体。因此,非智慧大脑群体的偏好、认知、选择和效用期望,应该是理性选择理论研究的重点。关于这一研究重点的逻辑和现实的分析线索,是大数据思维趋同化偏好趋同化认知认知结构一元化最大化效用期望。不过,这条分析线索包含着许多本文或有所涉及或尚未涉及的交叉性内容,它需要我们在继续研究大数据思维改变人类认知这一理论专题时,做出进一步深入的探讨。