公务员期刊网 精选范文 统计学大数据分析范文

统计学大数据分析精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的统计学大数据分析主题范文,仅供参考,欢迎阅读并收藏。

统计学大数据分析

第1篇:统计学大数据分析范文

关键词 泛在学习 学习生态 有效学习 英语学习 大数

近年来,移动互联网、大数据等信息技术发展日新月异,已经成为推动教育变革的重要力量。移动通信终端的普及为学生营造了泛在英语学习环境,大数据技术开启了个性化智能教育时代,翻转课堂、MOOC、微课等新型教学模式层出不穷,虽然它们不能取代传统教学模式,但英语教师必须与时俱进,重视信息技术对传统英语课堂的改造和提升,以全新的视角思考英语教学的变革方向。

一、研究理论概述

1.泛在学习理论

泛在学习是指任何人在任何时间和任何地点都可以通过泛在网络实现任何知识内容的学习。泛在网络和泛在计算技术为人类实现随时随地的泛在学习提供了技术保障,信息技术和教育技术的融合发展正深刻改变着知识的传播方式和学生的学习方式,不断重构着教育和学习的生态环境。一方面,移动通信终端的多元化发展解除了传统英语学习对地点的约束,翻转课堂、MOOC等新型教学模式使学生可以自由地选择学习时间、进度、内容和学习方式。另一方面,传统教学设备正在向数字教学设备变迁,教育领域信息基础设施建设有效地推动跨区域教学资源整合,海量的多媒体教学内容必须和学生的碎片化时间有效结合,教师需要针对不同学情的学生进行精准施策和差异化施策。

2.学习生态理论

学习生态是由学习群体及其所处的环境共同构成的生态系统。系统由信息技术、多媒体教学设施等支撑,通过以合作、交流、共享、互动为特征的教育实践,实现知识信息传递和有效学习,从而促进系统的不断优化。学生与学习环境、学生和学习群体之间密切联系、相互作用,通过知识的吸纳、内化、创新、外化、反馈等过程实现有效学习[1]。在泛在学习的背景下,学习生态研究的是教育信息、学习主体、教师、教育信息环境之间相互作用的生态系统,需要从教育信息化建设和应用的视角研究各个生态系统成员之间的相互作用规律,维护生态系统的平衡发展。

3.有效学习理论

有效学习是指学生在教师的指导下,针对学习内容采取适合自己的学习策略,积极主动地参与到学习过程中,高效率地完成知识建构,从而实现学习目标并优化自身知识结构的学习行为。有效学习是对学习内容、学习方法、学习过程、学习结果的价值追求[2],学生可以实现对知识的深层次理解和灵活应用。学习内容的优化在大数据背景下表现为对海量学习内容的筛选、清洗与转化[3],使之满足学生的学习需要。学习方法调整是建立在对学生学习情况进行多元评价的基础上,根据学生个人学习偏好、认知习惯、学习方式、情感态度因素、学习内容的变化而动态进行的。学习过程的积极参与是指学生能够积极主动地学习,充分和师生进行合作、交流,善于提出问题、分析问题和解决问题。学习评价是学生改变学习计划、优化学习方法的重要手段,对学生学习可以起到引导、激励、启示和教育作用。

二、当前英语泛在学习模式存在的主要问题

1.传统课堂教学和线上教学环节缺乏有效衔接

首先,魍晨翁媒萄Ш拖呱辖萄г诮萄Ы谧唷⒅识范围上没有有效衔接。例如,学生不知道如何在线上学习课堂上没有掌握的知识点,或者在线上环节重复学习课堂中已经掌握的知识点。其次,缺乏对课堂英语学习和个性化英语自主学习的融合创新设计。在传统课堂教学中,整齐划一的教学标准无法满足英语学习分层分级的差异化教学要求。不同学情的学生对学习时间、空间、内容、方式的需求不尽相同,教师在教学中没能和学生线上学习的大数据分析结果进行有效的融合对接,仅根据自身的教学经验和主观判断作为实施因材施教的依据,因此其决策缺乏精准性和稳定性。

2.泛在学习缺乏生态性系统设计,学生英语泛在学习的用户黏性不高

当前泛在学习过程特别是在线学习过程缺乏师生互动性、社交互动性、线上线下互动性。泛在学习仅停留在将文字、图像、视频等教学资料数字化、网络化、集成化和泛在化的阶段,这在某种程度上增加了学生英语学习的选择性和便利性,但缺乏针对不同学生的学习黏性设计,因此泛在学习效果并不理想。

3.英语泛在学习体系缺乏具有“参与感”和“现场感”的语言学习环境

建构主义理论认为,知识的获得是在学习环境的特定情境作用下,借助教师的帮助与学习伙伴的协作,通过意义的建构过程实现的。因此在英语泛在学习过程中,必须增强学生在特定情境下的沟通和交际活动的参与性[4]。例如,如果在英语课程设计和在线学习设计环节,鼓励学生广泛参与学习内容、学习方法、学习偏好的设计,就会让学生感受到教师对学生的爱与尊重,从而增强学生学习的主动性和积极性,使不同学情的学生都能在学习过程中体验自我实现感,实现自主学习。另外,教师缺乏对学生多元需求的感知和把握,缺乏语言锻炼的“现场感”设计,使学生无法在接近真实生活情境的语言环境中得到语言交际锻炼。

三、基于大数据分析的英语泛在学习生态系统

移动通信和大数据分析技术的发展为有效解决当前英语泛在学习模式存在的问题提供新的方式和途径。基于大数据分析的英语泛在学习生态系统以学生的英语学习需求、特征、习惯、喜好等大数据挖掘为切入点,联合学校、互联网教育机构、教材编写人员、教师、信息化支撑机构、教育管理机构、在校学生和在职学员等生态系统成员共同把泛在学习落实到教学环境、模式设计、资源开发、评价机制和管理机制等工作中,不仅仅是教育内容资源和信息的共享空间,而且是实施素质教育和个性化学习的公共服务平台。因此,本文构建了基于大数据分析的英语泛在学习生态系统,主要包括大数据采集、大数据存储、大数据分析、大数据应用四个子系统,并构建了系统体系结构模型(图1)。

1.大数据采集子系统

首先,大数据采集子系统要实现数据、文字、图像、音频、视频、多媒体等结构化数据和非结构化数据采集,实现跨区域、跨机构、跨教学环节的数据互联互通和数据采集功能,解决教育数据资源配置效率不高的问题。其次,实现英语教学设计、教学实施、课程内容建设、网络学习内容资源建设、语料库建设、学生学习认知过程监控、学生学习情感态度监控和学习评价等全教学链条的数据采集功能,为生态系统成员之间的共生发展提供良好的数据资源基础。

英语教学设计数据主要采集教师按照教学大纲和教学目标要求对不同学生制定的学习内容、学习进度、学习路径等数据,厘清学生在课堂上和网络上分别学什么、在哪学、怎么学的问题。教学过程数据主要采集教师在教学中帮助学生解决英语学习问题的经验、做法和策略,包括情感态度、认知因素的调控、语言情境的构建、师生的有效互动等。课程内容数据主要是采集教师、学校、互联网教育机构课程教学内容数据,包括教材内容、课件、题库、案例等授课内容资料,以及以上资料经过碎片化处理的数据资料。

网络资源数据库主要采集互联网、校园网上英语学习方面的相关资料。英语语料库数据主要采集中国学习者英语语料库、美国当代英语语料库等语料库内容,以及英语教材、英美小说、散文、演说词、电影剧本、新闻稿等英文自然语料。学习行为数据库主要采集学生课堂学习行为和线上学习行为数据。课堂学习行为包括是否预习、复习等,线上学习行为数据采集学习日志、学习习惯、学习时长和学习路径等。学习评价数据主要采集教师或者在线学习系统对学生的学习能力、学习方法、学习策略运用、学习过程和学习结果的评价数据。学习情感态度数据主要是通过问卷、访谈等方式采集影响学生英语语言习得的动机、态度、焦虑、自信等指标。

2.大数据存储子系统

大数据存储子系统主要实现对大数据采集子系统采集的海量结构化、非结构化数据进行数据清理、归档、压缩,实现一体化数据存储。可以实现跨区域、跨系统的英语泛在学习数据的融合,解决不同教学机构、数据结构、操作系统带来的信息孤岛问题。英语学习数据仓库是指集成了大数据分析子系统和应用子系统决策分析所需的泛在学习数据,这些数据是按照一定的英语学习主题进行组织,是在对原有分散的各类英语泛在学习数据库数据进行加工、汇总和整理后得到的,有效地消除了各类源数据中的不一致性,所以英语学习数据仓库的信息均是关于学生英语泛在学习全局情况的一致性信息。数据仓库的这些全局性信息同r通过网络云平台实现英语泛在学习数据的云端存储,可以直接由大数据应用子系统调用。

3.大数据分析子系统

认知因素和情感因素是影响英语习得效果的两个重要方面。大数据分析子系统首先结合学生应该达到的学习目标对学生个体的英语学习认知行为和学习的情感态度进行数据挖掘,分析学生的动机、态度、焦虑、自信、兴趣等情感因素,以及学习毅力、能力、习惯、方法、英语水平和常犯错误等认知行为因素,对数据挖掘结果进行聚类运算和分类处理,根据学生的学习认知行为和学习态度情况将学生细分,以识别不同学生之间相似的泛在学习需求,以及某个学生个体在不同学习阶段泛在学习需求的差异性。同时,大数据分析子系统会对学生的学习过程和学习结果进行动态综合评价,并根据学习评价结果判断学习方案的优劣,有针对性地进行线上和线下学习方案的调整。

4.大数据应用子系统

大数据应用子系统包括学习信息推送系统、学习信息定制系统、在线互动学习系统、语言情境仿真系统、知识关联推荐系统、知识精准搜索系统、知识树形管理系统和娱乐在线学习系统等应用。学生可以通过学习终端连接到相关应用系统进行英语语言知识的有效学习。学习信息推荐系统自动推荐给学生的学习信息是学生应掌握而目前未掌握的英语知识。学习信息定制系统可以满足学生根据自身学习需求而定制某类主题的学习信息。学生一方面通过在线互动学习系统可以和辅导教师进行交流互动,解决学习中遇到的问题,另一方面可以通过社交软件实现和其他学习者的沟通和交流,共享英语学习经验。

语言情境仿真系统可以实现某类主题的英语学习情境的在线仿真,让学生在接近真实环境的英语语言情境中进行英语交际锻炼。知识关联推荐系统是根据学生所学知识点,自动关联推荐对应的拓展知识点。知识精准搜索系统可以帮助学生快速实现英语知识的精准有效搜索,从而进行有针对性的学习。知识树形管理系统可以实现学生已掌握知识和未掌握知识的树形目录管理,实现线上学习和课堂学习知识管理的无缝链接。

基于大数据分析的英语泛在学习生态系统有利于充分发挥信息技术对传统英语教育的改造提升作用,可以有效促进信息技术与教学过程、内容、方法和教学评价体系的深度融合。在生态系统的价值取向上注重以促进学生全面健康发展为中心,注重需求导向的个性化学生培养模式。在学生习得效果评价体系上注重加强学习过程评估,强调过程评估和结果评估相结合。系统注重充分挖掘学生的个体差异,充分挖掘学生的学习潜能,围绕学生英语学习习惯的形成和学习情感态度的培养,以现代信息技术为辅助手段,将英语语言知识进行碎片化、情境化、可视化处理,通过采取教育信息推送、关联推荐和定制化相结合的方式实现知识的在线传播,给学生提供个性化、定制化的英语学习信息服务,带给学生全新的英语泛在学习体验。

参考文献

[1] 张豪锋,卜彩丽.略论学习生态系统[J].中国远程教育,2007(4).

[2] 曹贞.以有效学习为目标的大学课堂教学[J].教育与职业,2007(26).

[3] 陈明选,陈舒.论信息化环境下大学生的有效学习[J].高等教育研究,2013(9).

第2篇:统计学大数据分析范文

关键词:大数据时代;统计学;影响

随着大数据时代的到来,各企业采用了新的策略,获得了更多的利润。对于统计专业来说,改变发展策略,使培养出来的专业人才能够适应大数据背景的需求是其主要任务。目前,高校统计学专业逐渐认识到大数据时代综合性人才培养的重要性,并对专业建设进行了相关改革。

一、大数据时代对统计学的影响

大数据时代的到来对现代统计专业的发展造成了新的冲击,要确保培养出来的人才能够起到应有的作用,首先要了解大数据时代对统计专业所造成的影响。

(一)大数据时代使数据结构和数据性质发生变化

网络技术以及基于网络技术的电子商务等新的数据记录模式标志着大数据时代的到来。大数据时代,不再依赖于抽样调查的记录模式,网站浏览、视频监控都将形成大量数据。传统的数据结构甚至是数据性质发生了变化。大量的数据信息对于需求者来说,如何甄别其可用价值成为关键。传统的数据可以二维表格显示和整理。但大数据时代所产生的数据具有多样化和复杂化特征,往往包含了大量的音频、视频、HTML等。这要求大数据的收集具有较强的目的性,才能实现其价值。

(二)大数据时代要求统计分析方法和统计思维更新

大数据时代的主要特征为数据多且复杂,数据分析要求分析者对总体进行分析。在这一背景下,参数统计不再具有意义,假设检验法也随着总体分析而失去价值。数据的复杂化对传统大数据统计思维造成了巨大的冲击,要求统计者具有活跃的思维。只有对传统数据的改变进行分析,并且树立新的统计方法。

二、大数据时代下的统计学发展新策略

为适应大数据时代的需求,统计学专业的发展势必要对传统模式进行改革。目前,多数高校统计学专业已经认识到大数据对于其发展带来的冲击。为此,本文提出了以下策略,以及能够帮助统计学取得更好发展。

(一)加强统计应用性教学

根据大数据时代数据的总体分析特征,数据分析人员应掌握全面的分析方法。在人才培养过程中,应致力于培养实践分析能力,提高数据和资料收集能力,并且培养其强烈的数据价值观,使其能够从众多数据中找到所需的。另外,对传统模式进行改革,增加大数据统计内容,以适应时代的需求。基于大数据的结构特点,实施资料透视化教学,提高分析者对复杂数据的分析能力。

(二)培养大数据统计思维

在人才培养过程中,新的统计思维的培养具有重要意义,即强调数据分析实践能力的提高。统计思维的培养有助于数据分析者对复杂的数据进行区分,从而整理有效信息。在大数据时代,不仅要以传统的平均思维、动态思维和变异思维为基础,还要注重基于整体分析的大数据思维。另外,还要培养数据分者的复杂性思维,以应对复杂的数据库。总之,大数据时代需要数据分析者具有全面的、创新性的思维。

(三)强化基础性统计知识

统计学自身具有复杂性,其改变多且抽象。基础的统计知识是进一步掌握大数据分析思维的基础,可见学习基础性统计知识的重要性是不言而喻的。为此,应该采取深入浅出的方法,利用多媒体等方式使复杂的数据统计清晰化、简单化。结合具体的案例使数据分析者正确认识统计概念、掌握统计原理和方法。此外大数据分析不再是一种专业,而是更倾向于一种技术,这要求我们将大数据分析与统计学以外的相关知识相互联系。注重真实相关与伪相关的讲解,强调商务智能的开发和分析。只有具有坚实的基础,才能确保数据分析者大数据分析思维的养成,适应现代社会的需求。

(四)加强复合型人才培养

为适应大数据时代的需求,复合型人才的培养是关键。所谓复合型人才,是指其不但要具有专业的数据分析能力,还要相应的具备管理以及其从事专业的技术。大数据时代,高校应建立全面的人才培养模式,注重培养人才的数据分析能力、编程能力等,使其真正了解大数据,懂得如何利用大数据对其所处的行业起到积极作用才是关键。总之,大数据时代对综合性人才具有更高的需求,大数据时代不仅培养的是一种能力,而且是一种思维,是对全新模式下的数据的分析和利用。高校作为人才培养的重要基地,其教学模式的改革、对大数据时代所需教学模式的认识是高校的主要任务。

三、总结

统计学是经济学的基础课程,传统的统计人才培养具有定向性。而随着大数据时代的到来,数据产生的形式多样,且具有复杂性。大数据分析不仅是作为一种专业存在,而是应以一项必备的技术而存在。大数据时代,传统的统计思维和统计方法发生了改变,统计人才培养方式的改革也就势在必行。(作者单位:海南师范大学)

参考文献:

[1] 朱怀庆.大数据时代对本科经管类统计学教学的影响及对策[J].高等教育研究,2014(3).

[2] 姚寿福.经济管理类本科专业统计学课程教学改革思考[J].高等教育研究,2012(3).

[3] 孙耀东.大数据背景下统计学专业课程教学探究[J].廊坊师范学院学报(自然科学版),2015(06).

第3篇:统计学大数据分析范文

统计学研究的对象是数据,数据科学顾名思义也是以数据为研究对象,这产生一种直观的错觉,似乎数据科学与统计学之间存在某种与生俱来的渊源关系。Wu(1998)直言不讳,数据科学就是统计学的重命名,相应地,数据科学家替代了统计学家这个称谓。若此,那是什么促成了这种名义上的替代?显然仅仅因为数据量大本身并不足以促成“统计学”向“数据科学”的转变,数据挖掘、机器学习这些概念似乎就已经足够了。问题的关键在于,二者所指的“数据”并非同一概念,数据②本身是一个很宽泛的概念,只要是对客观事物记录下来的、可以鉴别的符号都可以称之为数据,包括数字、文字、音频、视频等等。统计学研究的数据虽然类型丰富,如类别数据、有序数据等定性数据,定距数据、定比数据等定量数据,但这些都是结构化数据;数据科学所谓的数据则更为宽泛,不仅包括这些传统的结构型数据,而且还包括文本、图像、视频、音频、网络日志等非结构型和半结构型数据,即,大数据。大数据(以半/非结构型数据为主)使基于关系型数据库的传统分析工具很难发挥作用,或者说传统的数据库和统计分析方法很难在可容忍的时间范围内完成存储、管理和分析等一系列数据处理过程,为了有效地处理这类数据,需要一种新的范式———数据科学。真正意义上的现代统计学是从处理小数据、不完美的实验等这类现实问题发展起来的,而数据科学是因为处理大数据这类现实问题而兴起的。因此数据科学的研究对象是大数据,而统计学以结构型数据为研究对象。退一步,单从数量级来讲,也已发生了质变。对于结构化的大规模数据,传统的方法只是理论上的(可行性)或不经济的(有效性),实践中还需要借助数据挖掘、机器学习、并行处理技术等现代计算技术才能实现。

二、数据科学的统计学内涵

(一)理论基础

数据科学中的数据处理和分析方法是在不同学科领域中分别发展起来的,譬如,统计学、统计学习或称统计机器学习、数据挖掘、应用数学、数据密集型计算、密集计算方法等。在量化分析的浪潮下甚至出现了“metric+模式”,如计量经济学、文献计量学、网络计量学、生物统计学等。因此,有学者将数据科学定义为计算机科学技术、数学与统计学知识、专业应用知识三者的交集,这意味着数据科学是一门新兴的交叉学科。但是这种没有侧重的叠加似乎只是罗列了数据科学所涉及到的学科知识,并没有进行实质性的分析,就好似任何现实活动都可以拆解为不同的细分学科,这是必然的。根据Naur(1960,1974)的观点,数据科学或称数据学是计算机科学的一个替代性称谓。但是这种字面上的转换,并没有作为一个独立的学科而形成。Cleveland(2001)首次将数据科学作为一个独立的学科提出时,将数据科学表述为统计学加上它在计算技术方面的扩展。这种观点表明,数据科学的理论基础是统计学,数据科学可以看作是统计学在研究范围(对象)和分析方法上不断扩展的结果。一如统计学最初只是作为征兵、征税等行政管理的附属活动,而现在包括了范围更广泛的理论和方法。从研究范围的扩展来看,是从最初的结构型大规模数据(登记数据),到结构型的小规模数据(抽样数据)、结构型的大规模数据(微观数据),再扩展到现在的非(半)结构型的大规模数据(大数据)和关系数据等类型更为丰富的数据。从分析方法的扩展来看,是从参数方法到非参数方法,从基于模型到基于算法,一方面传统的统计模型需要向更一般的数据概念延伸;另一方面,算法(计算机实现)成为必要的“可行性分析”,而且在很多方面算法模型的优势越来越突出。注意到,数据分析有验证性的数据分析和探索性的数据分析两个基本取向,但不论是哪一种取向,都有一个基本的前提假设,就是观测数据是由背后的一个(随机)模型生成,因此数据分析的基本问题就是找出这个(随机)模型。Tukey(1980,2000)明确提到,EDA和CDA并不是替代关系,两者皆必不可少,强调EDA是因为它被低估了。数据导向是计算机时代统计学发展的方向,这一观点已被越来越多的统计学家所认同。但是数据导向仍然有基于模型与基于算法两种声音,其中,前文提到的EDA和CDA都属于基于模型的方法,它们都假定数据背后存在某种生成机制;而算法模型则认为复杂的现实世界无法用数学公式来刻画,即,不设置具体的数学模型,同时对数据也不做相应的限制性假定。算法模型自20世纪80年代中期以来随着计算机技术的迅猛发展而得到快速成长,然而很大程度上是在统计学这个领域之外“悄然”进行的,比如人工神经网络、支持向量机、决策树、随机森林等机器学习和数据挖掘方法。若响应变量记为y,预测变量记为x,扰动项和参数分别记为ε和β,则基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y与x之间的关系并对y做出预测,其中,f是一个有显式表达的函数形式(若f先验假定,则对应CDA;若f是探索得到的,则对应EDA),比如线性回归、Logistic回归、Cox回归等。可见,传统建模的基本观点是,不仅要得到正确的模型———可解释性强,而且要得到准确的模型———外推预测能力强。而对于现实中复杂的、高维的、非线性的数据集,更切合实际的做法是直接去寻找一个恰当的预测规则(算法模型),不过代价是可解释性较弱,但是算法模型的计算效率和可扩展性更强。基于算法的基本形式类似于非参数方法y=f(x,ε),但是比非参数方法的要求更低yx,因为非参数方法很多时候要求f或其一阶导数是平滑的,而这里直接跳过了函数机制的探讨,寻找的只是一个预测规则(后续的检验也是基于预测构造的)。在很多应用场合,算法模型得到的是针对具体问题的解(譬如某些参数是被当作一个确定的值通过优化算法得到的),并不是统计意义上的推断解。

(二)技术维度

数据科学是基于数据的决策,数据分析的本质既不是数学,也不是软件程序,而是对数据的“阅读”和“理解”。技术只是辅助数据理解的工具,一个毫无统计学知识的人应用统计软件也可以得到统计结果,但无论其过程还是结果都是可疑的,对统计结果的解释也无法令人信服。“从计算机科学自身来看,这些应用领域提供的主要研究对象就是数据。虽然计算机科学一贯重视数据的研究,但数据在其中的地位将会得到更进一步的加强”。不可否认,统计分析逐渐向计算机科学技术靠近的趋势是明显的。这一方面是因为,数据量快速膨胀,数据来源、类型和结构越来越复杂,迫切需要开发更高效率的存储和分析工具,可以很好地适应数据量的快速膨胀;另一方面,计算机科学技术的迅猛发展为新方法的实现提供了重要的支撑。对于大数据而言,大数据分析丢不掉计算机科学这个属性的一个重要原因还不单纯是因为需要统计软件来协助基本的统计分析和计算,而是大数据并不能像早先在关系型数据库中的数据那样可以直接用于统计分析。事实上,面对越来越庞杂的数据,核心的统计方法并没有实质性的改变,改变的只是实现它的算法。因此,从某种程度上来讲,大数据考验的并不是统计学的方法论,而是计算机科学技术和算法的适应性。譬如大数据的存储、管理以及分析架构,这些都是技术上的应对,是如何实现统计分析的辅助工具,核心的数据分析逻辑并没有实质性的改变。因此,就目前而言,大数据分析的关键是计算机技术如何更新升级来适应这种变革,以便可以像从前一样满足统计分析的需要。

(三)应用维度

在商业应用领域,数据科学被定义为,将数据转化为有价值的商业信息①的完整过程。数据科学家要同时具备数据分析技术和商业敏感性等综合技能。换句话说,数据科学家不仅要了解数据的来源、类型和存储调用方式,而且还要知晓如何选择相应的分析方法,同时对分析结果也能做出切合实际的解释②。这实际上提出了两个层面的要求:①长期目标是数据科学家从一开始就应该熟悉整个数据分析流程,而不是数据库、统计学、机器学习、经济学、商业分析等片段化碎片化的知识。②短期目标实际上是一个“二级定义”,即,鼓励已经在专业领域内有所成就的统计学家、程序员、商业分析师相互学习。在提及数据科学的相关文献中,对应用领域有更多的倾向;数据科学与统计学、数学等其他学科的区别恰在于其更倾向于实际应用。甚至有观点认为,数据科学是为应对大数据现象而专门设定的一个“职业”。其中,商业敏感性是数据科学家区别于一般统计人员的基本素质。对数据的简单收集和报告不是数据科学的要义,数据科学强调对数据多角度的理解,以及如何就大数据提出相关的问题(很多重要的问题,我们非但不知道答案而且不知道问题何在以及如何发问)。同时数据科学家要有良好的表达能力,能将数据中所发现的事实清楚地表达给相关部门以便实现有效协作。从商业应用和服务社会的角度来看,强调应用这个维度无可厚非,因为此处是数据产生的土壤,符合数据科学数据导向的理念,数据分析的目的很大程度上也是为了增进商业理解,而且包括数据科学家、首席信息官这些提法也都肇始于实务部门。不过,早在20世纪90年代中期,已故图灵奖得主格雷(JimGray)就已经意识到,数据库技术的下一个“大数据”挑战将会来自科学领域而非商业领域(科学研究领域成为产生大数据的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作为专题(封面)探讨了环境科学、生物医药、互联网技术等领域所面临的大数据挑战。2011年2月11日,《科学》携其子刊《科学-信号传导》、《科学-转译医学》、《科学-职业》专门就日益增长的科学研究数据进行了广泛的讨论。格雷还进一步提出科学研究的“第四范式”是数据(数据密集型科学),不同于实验、理论、和计算这三种范式,在该范式下,需要“将计算用于数据,而非将数据用于计算”。这种观点实际上是将数据从计算科学中单独区别开来了。

三、数据科学范式对统计分析过程的直接影响

以前所谓的大规模数据都是封闭于一个机构内的(数据孤岛),而大数据注重的是数据集间的关联关系,也可以说大数据让孤立的数据形成了新的联系,是一种整体的、系统的观念。从这个层面来说,将大数据称为“大融合数据”或许更为恰当。事实上,孤立的大数据,其价值十分有限,大数据的革新恰在于它与传统数据的结合、线上和线下数据的结合,当放到更大的环境中所产生的“1+1>2”的价值。譬如消费行为记录与企业生产数据结合,移动通讯基站定位数据用于优化城市交通设计,微博和社交网络数据用于购物推荐,搜索数据用于流感预测、利用社交媒体数据监测食品价等等。特别是数据集之间建立的均衡关系,一方面无形中增强了对数据质量的监督和约束;另一方面,为过去难以统计的指标和变量提供了另辟蹊径的思路。从统计学的角度来看,数据科学(大数据)对统计分析过程的各个环节(数据收集、整理、分析、评价、等)都提出了挑战,其中,集中表现在数据收集和数据分析这两个方面。

(一)数据收集方面

在统计学被作为一个独立的学科分离出来之前(1900年前),统计学家们就已经开始处理大规模数据了,但是这个时期主要是全国范围的普查登记造册,至多是一些简单的汇总和比较。之后(1920-1960年)的焦点逐渐缩聚在小规模数据(样本),大部分经典的统计方法(统计推断)以及现代意义上的统计调查(抽样调查)正是在这个时期产生。随后的45年里,统计方法因广泛的应用而得到快速发展。变革再次来自于统计分析的初始环节———数据收集方式的转变:传统的统计调查方法通常是经过设计的、系统收集的,而大数据是零散实录的、有机的,这些数据通常是用户使用电子数码产品的副产品或用户自行产生的内容,比如社交媒体数据、搜索记录、网络日志等数据流等,而且数据随时都在增加(数据集是动态的)。与以往大规模数据不同的是,数据来源和类型更加丰富,数据库间的关联性也得到了前所未有的重视(大数据的组织形式是数据网络),问题也变得更加复杂。随着移动电话和网络的逐渐渗透,固定电话不再是识别住户的有效工具变量,相应的无回答率也在增加(移动电话的拒访率一般高于固定电话),同时统计调查的成本在增加,人口的流动性在增加,隐私意识以及法律对隐私的保护日益趋紧,涉及个人信息的数据从常规调查中越来越难以取得(从各国的经验来看,拒访率或无回答率的趋势是增加的),对时效性的要求也越来越高。因此,官方统计的数据来源已经无法局限于传统的统计调查,迫切需要整合部门行政记录数据、商业记录数据、个人行为记录数据等多渠道数据源,与部门和搜索引擎服务商展开更广泛的合作。

(二)数据分析方面

现代统计分析方法的核心是抽样推断(参数估计和假设检验),然而数据收集方式的改变直接淡化了样本的意义。比如基于浏览和偏好数据构建的推荐算法,诚然改进算法可以改善推荐效果,但是增加数据同样可以达到相同的目的,甚至效果更好。即所谓的“大量的数据胜于好的算法”这与统计学的关键定律(大数定律和中心极限定理)是一致的。同样,在大数据分析中,可以用数量来产生质量,而不再需要用样本来推断总体。事实上,在某些场合(比如社会网络数据),抽样本身是困难的。数据导向的、基于算法的数据分析方法成为计算机时代统计学发展无法回避的一个重要趋势。算法模型不仅对数据分布结构有更少的限制性假定,而且在计算效率上有很大的优势。特别是一些积极的开源软件的支撑,以及天生与计算机的相容性,使算法模型越来越受到学界的广泛重视。大数据分析首先涉及到存储、传输等大数据管理方面的问题。仅从数量上来看,信息爆炸、数据过剩、数据泛滥、数据坟墓、丰富的数据贫乏的知识……这些词组表达的主要是我们匮乏的、捉襟见肘的存储能力,同时,存储数据中有利用价值的部分却少之又少或尘封窖藏难以被发现。这除了对开采工具的渴求,当时的情绪主要还是迁怨于盲目的记录,把过多精力放在捕捉和存储外在信息。在这种情况下,开采有用的知识等价于抛弃无用的数据。然而,大数据时代的思路改变了,开始变本加厉巨细靡遗地记录一切可以记录的数据。因为:数据再怎么抛弃还是会越来越多。我们不能通过删减数据来适应自己的无能,为自己不愿做出改变找借口,而是应该面对现实,提高处理海量数据的能力。退一步,该删除哪些数据呢?当前无用的数据将来也无用吗?显然删除数据的成本要大于存储的成本。大数据存储目前广泛应用的是GFS、HDFS等基于计算机群组的文件系统,它可以通过简单增加计算机来无限地扩充存储能力。值得注意的是,分布式文件系统存储的数据仅仅是整个架构中最基础的描述,是为其他部件服务的(比如MapReduce),并不能直接用于统计分析。而NoSQL这类分布式存储系统可以实现高级查询语言,事实上,有些RDBMS开始借鉴MapReduce的一些思路,而基于MapReduce的高级查询语言也使MapReduce更接近传统的数据库编程,二者的差异将变得越来越模糊。大数据分析的可行性问题指的是,数据量可能大到已经超过了目前的存储能力,或者尽管没有大到无法存储,但是如果算法对内存和处理器要求很高,那么数据相对也就“大”了。换句话说,可行性问题主要是,数据量太大了,或者算法的复杂度太高。大数据分析的有效性问题指的是,尽管目前的硬件条件允许,但是耗时太久,无法在可容忍的或者说可以接受的时间范围内完成。目前对有效性的解决办法是采用并行处理。注意到,高性能计算和网格计算也是并行处理,但是对于大数据而言,由于很多节点需要访问大量数据,因此很多计算节点会因为网络带宽的限制而不得不空闲等待。而MapReduce会尽量在计算节点上存储数据,以实现数据的本地快速访问。因此,数据本地化是MapReduce的核心特征。

四、结论

(一)数据科学不能简单地理解为统计学的重命名,二者所指“数据”并非同一概念,前者更为宽泛,不仅包括结构型数据,而且还包括文本、图像、视频、音频、网络日志等非结构型和半结构型数据;同时,数量级也是后者难以企及的(PB以上)。但是数据科学的理论基础是统计学,数据科学可以看作是统计学在研究范围(对象)和分析方法上不断扩展的结果,特别是数据导向的、基于算法的数据分析方法越来越受到学界的广泛重视。

(二)从某种程度上来讲,大数据考验的并不是统计学的方法论,而是计算机科学技术和算法的适应性。譬如大数据的存储、管理以及分析架构,这些都是技术上的应对,核心的数据分析逻辑并没有实质性的改变。因此,大数据分析的关键是计算机技术如何更新升级以适应这种变革,以便可以像从前一样满足统计分析的需要。

(三)大数据问题很大程度上来自于商业领域,受商业利益驱动,因此数据科学还被普遍定义为,将数据转化为有价值的商业信息的完整过程。这种强调应用维度的观点无可厚非,因为此处是数据产生的土壤,符合数据科学数据导向的理念。不过,早在20世纪90年代中期,已故图灵奖得主格雷就已经意识到,数据库技术的下一个“大数据”挑战将会来自科学领域而非商业领域(科学研究领域成为产生大数据的重要土壤)。他提出科学研究的“第四范式”是数据,不同于实验、理论、和计算这三种范式,在该范式下,需要“将计算用于数据,而非将数据用于计算”。这种观点实际上将数据从计算科学中单独区别开了。

(四)数据科学范式对统计分析过程的各个环节都提出了挑战,集中表现在数据收集和数据分析这两个方面。数据收集不再是刻意的、经过设计的,而更多的是用户使用电子数码产品的副产品或用户自行产生的内容,这种改变的直接影响是淡化了样本的意义,同时增进了数据的客观性。事实上,在某些场合(比如社会网络数据),抽样本身是困难的。数据的存储和分析也不再一味地依赖于高性能计算机,而是转向由中低端设备构成的大规模群组并行处理,采用横向扩展的方式。

第4篇:统计学大数据分析范文

关键词:管理统计学;教学模式;大数据;案例教学

中图分类号:G4 文献标识码:A doi:10.19311/ki.1672-3198.2016.33.147

1 引言

管理统计学是一门应用统计学方法和理论研究经济管理问题的应用性学科,它通过收集、分析、表述、解释数据来探索经济管理问题的规律,并辅助企业进行管理决策和提高管理效率。传统的统计学关注小规模数据下的数据描述、推断和科学分析用。与之相应,管理统计学的课堂教学主要关注统计学原理的讲述、小数据的推断分析和经济管理问题的简单应用。

然而,自2008年Nature杂志发表“Big data:science in the peta byte era”以恚大数据的发展方兴未艾,备受学术界,企业界等关注。大数据的理念和技术不仅在互联网、金融、机器人、人工智能等领域取得突破性进展,也将对企业的生产、经营和决策等活动带来深刻的影响,通过对企业大数据的深度挖掘,有助于实现企业的商业价值,规避企业的决策风险,提高企业的竞争力。

大数据时代的到来,对管理统计学来说既是机遇又是挑战,机遇在于:大数据的分析主要建立在统计学的基础上对数据进行处理、分析,从而使得大数据可视化;而挑战在于:当下管理统计学的教学方法和教学手段难以匹配大数据时代对数据分析从业者的要求,这就要求对管理统计学的课堂教学模式进行进一步的发展与创新,以期适应大数据背景下的新要求。

如何结合大数据时代的新要求设计合适的课堂教学模式,如何结合丰富的大数据应用案例开展课堂教学活动,如何增强大数据背景下学生的数据驱动的管理决策意识,培养适应大数据时代要求的高素质人才,这些都是大数据背景下传统的管理统计学课堂教学模式所面临的问题和挑战,这也促使管理统计学教学工作者不得不去探究、优化甚至改革现有的管理统计学课堂教育模式。

2 传统管理统计学教学模式的概述

笔者所在的教学团队来自于武汉科技大学管理学院,承担全院《管理统计学》课程教学任务,在教学方法、实践教学等有较为丰富的教学经验。然而,在多年的教学过程实践和与学生的教学互动当中发现:现有的管理统计学教学模式尽管相对较为成熟,在培养学生的数据分析意识方面起到的重要作用,但是仍存在以下不足,而这些不足恰恰难以适应大数据背景下对管理统计学教学带来的挑战。

2.1 注重理论讲授,忽视应用教学

受技术发展和数据规模等因素的制约,传统的管理统计学教学大都采用理论驱动的教学模式,教师依托教材,注重统计学基本原理和方法的传授,学生掌握基本原理,对统计学的实际应用等关注较少。

尽管管理统计学课堂教学会涉及到一定的应用案例,但是这些案例大都简单,陈旧,数据来源单一,难以接触实际原始数据,统计建模思路也相对固定,这些教学案例既不能反映管理统计学的最新发展和应用思想,也无法将其带入企业经营的情景,对企业决策过程缺乏了解,这些因素都使得学生对该课程的学习兴趣不高,不利于培养学生应用统计学解决实际问题的能力,进而影响课堂教学效果。

2.2 注重数学推导,忽视工具应用

管理统计学要求学生掌握一定的数学基础,教材也都有较多的数学公式和理论推导,忽视了培养学生应用SPSSvSASvR等统计软件工具解决统计问题的操作能力。

根据经管类专业的培养定位,对于经管类专业的学生而言,相比于统计的数学公式,真正实用的如何借用SPSSvSASvR等统计软件工具来解决企业经营决策面临的实际问题,尤其是在大数据背景下,需要处理海量、复杂、多源、异质的高维数据。这些是单凭数学推导和简单的手动计算无法完成的。

近年来,大数据、互联网等技术的快速发展催生了一类新型且前景广阔的职业方向-数据分析师。综合数据分析师的职业要求,可以发现,这些职位大都要求从业者了解基本的统计学原理和方法,熟练掌握SPSSvSASvR等统计软件工具,并应用这些工具解决企业经营管理面临的实际问题。

2.3 注重知识考核,忽视项目训练

受限于教学管理制度和考核手段等因素,目前管理统计学课堂教学考核方式大都以闭卷为主,主要考察学生对统计学基本知识点的掌握情况,以及学生应用统计学知识解决简单案例的综合能力。

然而,在大数据时代背景下,除了要求掌握统计学基本原理,更应培养学生应用统计学知识解决实际问题的综合能力,而这种综合能力往往涉及数据获取、数据预处理、数据探索、统计建模、模型检验、模型评价、模型解释、模型部署和模型修正等数据分析的全过程,这种综合能力的掌握是无法通过现有的知识考核来达到的,这些必然要求学生通过参与实际项目或模拟情景来实现。

3 大数据背景下管理统计学教学模式探讨

如何结合大数据时代的新要求设计合适的课堂教学模式,如何结合丰富的大数据应用案例开展课堂教学活动,如何增强大数据背景下学生的数据驱动的管理决策意识,培养适应大数据时代要求的高素质人才,这些都是大数据背景下传统的管理统计学课堂教学模式所面临的问题和挑战。而现有的管理统计学课堂教学模式难以匹配大数据时代对其提出的要求,这就要求对管理统计学的课堂教学模式进行进一步的发展与创新,以期适应大数据背景下的新要求。

第5篇:统计学大数据分析范文

(兖州煤业榆林能化有限公司,陕西榆林719000)

[摘要]随着信息技术的发展与应用,各种数据信息通过互联网、云终端、交际圈、物联网等之间的大规模传递,人类进入到一个大数据时代,数据信息之间的传递影响着人们的决策成本,传统的信息不对等所造成的差距条件已经消失,而不起眼的数据却能够创造巨大的价值。本文对大数据时代背景下数据分析理念进行分析和指导。

关键词 ]大数据时代;数据分析理念;分析

[DOI]10.13939/j.cnki.zgsc.2015.22.074

在传统的商业运作模式中,在运营过程中对自身经营发展的分析只停留在数据的简单汇总层面,缺乏有效地对客户网络、业务范围、营销产品、竞争对手优劣等方面进行深入解析;而在当今大数据时代,通过所接收的大量内部和外部数据中所蕴含的信息中透露的市场弹性,可以预测市场需求,进行分析决策,从而制定更加行之有效的战略发展计划。“大数据”是一个量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。在当今信息时代,很多企业用户在实际应用中把多个数据集放在一起,已经形成了PB级的数据量;数据类型广,数据来源种类多,且数据种类和格式日渐丰富,囊括了半结构化和非结构化数据,早已打破传统的结构化数据范畴,如何在大数据时代背景下进行科学有效的数据分析这需要加强对市场的了解,对泡沫经济的规避,了解数据所传递的信息真假。

1数据化决策的兴起与运用

在大数据时代,信息之间的爆炸增长,使得各种信息传递非常之快,只需要拿起网络终端就可以了解到地球另一边发生了什么。文字、图形、影像都化作数据流在网络中以电信号的方式传递着信息。数据流在传递各行各业的信息同时形成了渗透于各行业的核心资产和创新驱动力。在大数据时代,企业所拥有的数据集合规模及数据的分析和处理能力决定着企业在市场中的核心竞争力。

因此通过数据分析进行决策渐渐成为新的分析理念,例如,在支付宝上进行对电影票房的投资,这些投资通过对导演往期作品和演员的表演张力,及投资方的选角等数据进行分析,预测电影的票房,选取投资可获利的电影,进行票房投资,从而获取票房分红。我国的石油油田根据地震技术的收集数据,进行科学统一规划的分析处理,形成对地下油田的分析建模,能够有效直观地展示地下油藏的分布情况,从而选择油井的开采点。中国人民银行通过对人民币汇率的涨幅,进行数据分析,来制定符合中国国情的外汇货币政策,对货币进行宏观调控,这能够有力的保护人民币升值时,在国际贸易市场中国进出口贸易所面临的压力。在大数据时代背景下,通过直觉和经验进行决策分析的优势不断下降,在商业、政治及公共服务领域中,通过对大数据进行数据分析从而做出符合时代背景的决策,已成了目前的潮流。

2数据分析理念及方法

(1)数据分析要引入统计学思想。在大数据时代背景下,传统的抽样分析已经并不适用于对大数据的分析中,在大数据时代应当要转变思维,转变抽样思想,样本就是总体,要分析与某事物相关的所有数据,而不是依靠少量数据样本,这样才能够在最大限度地明白事物发展变更过程,能够对数据所表露的信息进行更好地处理[1]。要更乐于接受数据的纷繁芜杂,不再追求精确的数据,这并不是说其严谨性降低了,而是往往不起眼,不符合常理的数据更能够反映实际的情况。通过对数据网络之间的联系进行分析,不再探求难以捉摸的因果关系,通过数据的分析处理更能够反应数据的变更。这些想法都与统计学相关通过所收集的数据,进行有效的分类处理,能够更好地反应事物的变化,更有利于做出决策[2]。

(2)数据分析流程。在实际的数据分析过程中,因大数据贯穿区域较广,在地域和行业之间穿插交错,颠覆了传统的线性数据收集模式,而形成了颠覆传统的、非线性的决策基础,这种决策方式要求我们通过对数据进行收集,将各行各业所收集的基本信息,转化为数据,将数据经过初步的整合分类,做出符合当地当时的数据信息,将数据进行深层次的技术处理,将处理过后的信息化为知识,运用到实际的决策中去。在大数据时代,数据的积累并不会贬值,而且还会不断增值,为了更全面、深入地了解研究对象,往往需要对数据进行整合,这就使得数据的积累尤为重要。

(3)数据分析对统计学的意义。在大数据时代背景下数据分析理念能够有效地对数据流进行合理地分类处理,进行科学的统计行为,统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,这就意味着所有有用的数据信息均来源于数据分析处理之后的结果。大数据的数据分析理念扩宽了统计学的研究范围,而不仅仅只是实现数据的对比,而是从根本上丰富了研究的内容,如:一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop,满足大多数常见的分析需求,对传统的统计工作有着四个转变。统计研究过程的转变,使统计过程成为收集与研究。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,统计研究工作思想的转变,数据的收集不断增加,信息的录入不断升级,其对系统资源,特别是I/O会有极大的占用。这就使得能够更好地进行数据分析处理决策[3]。

3数据分析过程中注意事项

3.1数据分析要明确变量

将数据收集进行处理是为了明确市场中的某一个变量意义,这就使得在进行数据分析的时候要能够明确地找寻变量存在前后所发生的变化,通过数据对比可以知道该变量在大数据的市场中所存在的影响因素。是否对市场有着风险或有利于市场的开发利用,能够在数据分析后做出合理决策。

3.2统计中不再追求精确的数据

大数据时代下,数据的不精确性不仅不会破坏总体信息可靠性,还有利于进行剥丝抽茧,从而了解总体情况。大数据时代,越来越多的数据提供越来越多的信息,也会让人们越来越了解总体的真实情况。错综复杂的数据能够反映数据之下到底是泥潭还是机遇。数据之间传递的信息良莠不齐,如果要一一追求准确性不利于统计工作的开展,因此可以将个别的异常值剔除。大数定律告诉我们,随着样本的增加,样本平均数越来越接近总体,这就使得样本与总体的差异性很小,更加符合实际情况。

4结论

综上所述,大数据包含结构内外的海量数据,随着云计算平台进行大规模收集处理,通过建立数据库的手段,对数据分流,使用数据挖掘等方法进行处理、分析,使得所数据结果更加符合显示状况。数据分析理念是通过阐明存在于世界、物质、感官享受上的复杂网络关系,从而做出符合时代背景的分析决策。

参考文献:

[1]维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.

第6篇:统计学大数据分析范文

关键词:大数据;大数据人才;发展战略

人类进入信息时代,意味着大数据时代业已来临。大数据时代将为人类社会带来全新挑战。大数据,顾名思义,大就是海量,数量庞大。大数据时代信息容量更加巨大,数据类型趋于多样化,要求更快的反应速度和处理速度。

一、大数据人才重要性

“麦肯锡全球研究院将‘大数据’定义为‘无法在一定时间内使用传统数据库软件工具对其内容进行获取、管理和处理的数据集合’”[1]。新世纪以来,世界发达资本主义国家十分重视数据人才培养和相关科学问题的研究。“如美国纽约大学、英国邓迪大学均从2013年起设立数据科学硕士学位,美国哥伦比亚大学将从2015年起设立数据科学博士学位”[2]。“在国内,香港中文大学自2008年起就设立了“数据科学商业统计”科学硕士学位,清华大学新近成立了数据科学研究院,自今年9月起开始招收研究生;西安交大、浙江大学、华东师大等高校也先后设立了数据科学研究中心”[2]。2013年《上海推进大数据研究和发展三年行动计划》正式启动。大数据时代去缺乏有深入的数据分析能力的人,在市场上是紧缺状态。

明代高攀龙《答袁节寰中丞》:“今天下难联者人心,难得者人才。”“科技兴国”的第一步是“人才发展战略”,人才资源已经成为“第一资源”,可见人才在大数据时代的重要性不容忽视。《国家中长期人才发展规划纲要(2010-2020年)》具体包含12项重大人才工程。可见国家对人才问题重视程度之高。大数据时代最重要的日程之一就是计算机人才培养问题。唯有解决好这一问题,中国才能在大数据浪潮中立于不败之地。一个国家对大数据的掌握,甚至可以影响一个国家的综合国力,对数据的占有权将成为国家竞争中的核心问题之一。

二、大数据人才是打破发展困局的关键

我国大数据虽然发展很快,但在智慧城市建设、基础软件研发、数据流动性等方而尚存在一些不足。

现阶段中国仅处于大数据时代的萌芽阶段。以往人们认知的传统的数据并不能够等同于大数据,传统的数据分析和数据统计手段也并不适用于大数据领域。国内企业在数据库、数据仓库、商业智能等领域基础薄弱,大数据的意识和重视程度甚至创新精神,都较为薄弱或者有所或缺。现阶段中国国内缺乏领军企业占据大数据生态系统主导地位。做大数据产业不难,但是真正做精做强,占据以核心软件产品为主导地位的生态系统很难。现阶段中国数据获取壁垒和行业间壁垒存在。

对大数据人才的培养力度不足、人力物力投入不够,人才导致中国大数据发展陷入难题。人才发展是大数据发展的关键和重中之重。

三、 大数据时代的计算机人才发展战略

大数据时代的计算机人才需求发展趋势是复合型人才,与此同时,对数据科学家、数据分析师专门人才的极为渴求,而由于学校培养与企业环境经常性脱节,应该大力加强校企合作,逐步形成产学研联动发展。

(一)培育大数据复合型人才

“中国急需对数学、统计学、数据分析、机器学习和自然语言处理等多方面知识综合掌控”[3]的复合型计算机人才。在传统的大学培养和教育体制下,我们在一些与大数据相关的专业学科领域已经储备了大量人才,包括统计学、数学、人工智能、可视化等方面,但是大数据需要的是复合型的人才,需要将深厚的技术背景与所在行业和业务领域的需求相结合[4]。

(二) 培育数据科学家群体

大数据最关键的部分是数据分析和挖掘数据价值……就需要大量的数据科学家[3]。“数据科学家……一定要懂得算法,知道用什么样的方法可以更好地挖掘出大数据的价值。”[4]。在某种程度上,数据科学家就像是一个转换器,在大数据项目中起到了承上启下的作用。[4]。

(三) 强化数据分析队伍力量

知其然而知其所以然,在当前,中国数据分析与管理人才极端紧缺,中国企业必须加大招聘和人才挽留力度,同时学校应该加大这方面的专业教育力度。数据分析专业在高校的设立也是势在必行,但目前这方面仍是大数据教育的软肋。在学校的领导层决策层必须适时地重视数据分析专业的设立,重视数据分析专业学生的招收工作,实时跟进,不容懈怠。

(四) 利用校企合作作为有效途径

仅仅依靠偏向于理论研究的大学教育,很难培养出更符合企业和市场实际需求的实用型的大数据人才,因为学校往往并没有提供真正的大数据环境给学生。所以大数据技术与应用必须特别强调与企业实践的有机结合。具有大数据专业的学与大数据企业的互动联合,将造成孵化大数据精英人才的最佳环境。一方面,积极聘请企业中的大数据专家到学校授课。以其大数据实践经验为主要传授内容,使得学校的大数据教育能够紧跟企业、社会发展速度,把握市场需求脉搏。另一方面希望大数据企业为大数据专业学生提供实习机会,给予优先录用的机会,以提高学生的积极性。

参考文献:

[1]朱东华,张嶷,汪雪锋.大数据环境下技术创新管理方法研究[J].科学学与科学技术管理,2013,(4):172-180.

[2]沈湫莎.上海启动大数据人才培养计划[J].现代人才,2014,(3):8.

[3]谢然.大数据人才“求贤若渴”[J].互联网周刊.2014,(20):22-23.

第7篇:统计学大数据分析范文

关键词:大数据;小数据;数据分析;发展;变革

中图分类号:TP31 文献标识码:A 文章编号:1001-828X(2014)010-00-01

如果说互联网的浪潮改变了人们的生活,那么大数据将再一次改变整个世界,只有拥有数据的人才有最终话语权,众多互联网公司的巨头们都纷纷追逐这梦想成为时代的弄潮儿,在原本近乎生疏的名词“大数据”摇身一变,成了我们耳熟能详的词汇,无论是传统企业或是互联网公司都在迈开步伐向着大数据领域加速前进,然而现阶段大数据的火热程度如同盛夏的温度一样,大数据时髦,但非万能,不必事事、时时与之相连。因此我们需要认清企业本身实际情况,不要盲目一味追求大数据,而忽略了小数据所带来更精准、精确的数据分析。

《美国计算机学会通讯》几次刊文谈到了小数据,第一位意识到“小数据”重要性的是美国康奈尔大学教授德波哈尔・艾斯汀。他的父亲去世之前几个月,这位计算机科学教授就注意到老人在数字社会脉动中的些许不同,他不再发送电子邮件,不去超市买菜,散步的距离也越来越短。这种逐渐衰弱的状态,到医院检查时,不管是测脉搏还是查病历,这位90岁的老人都没有表现出特别明显的异常。可事实上,追踪他每时每刻的个体化数据,他的生活其实已经明显与之前不同。这种日常小数据带来的生命讯息的警示和洞察,启发了这位计算机科学教授,小数据可以看作是一种新的医学证据,它是“your row of their data”。

一、大数据与小数据的对比

大数据技术(Big Data),或称巨量资料,指的是所涉及的资料两规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营更积极目的的资讯。大数据的特点,简单总结为高容量、多元化、持续性、高价值。

小数据(iData),并不是指数据量小,而是围绕个人为中心全方位的数据,及其配套的收集、处理、分析和对外交互的综合系统。人产生的数据,包括生活习惯、社交、财务、行为等,全部被收集和利用进行分析,并对外形成一个富有个人色彩的数据系统,小数据的特点在于以单个人为对象,重点在于深度,对个人数据全方位全天候的挖掘利用。

大数据和小数据有些本质的区别,虽然以创造数据价值为目的思维和大数据是相似的,但是在具体方式上,还是有些不同的区别:

1.数据处理方式:大数据强调标准化,只有数据标准化,才能大规模采集,以后的数据处理概率统计才有了可能。可是数据一标准化,就失去了其数据产生时的特性和背景。而小数据的用户数据的最大特点就是来源和使用者是同一人,只不过存和取时间和背景不一样。

2.人的作用:在大数据模式下,数据从人身上产生被收集后,接下来的数据处理分析,就再也跟数据的主人无关了。而在小数据里,所有数据都围绕一个人产生,所以人在系统发挥中心作用。

3.其他数据性质的区别:比如小数据的数据量相对大数据的数据量小。小数据对数据不需要全部快速反应,相反大数据对数据需要做出快速反应。小数据更加注重非结构化数据之间的关联,重视深度挖掘,而大数据重在包容所有个体的数据,数据覆盖面广。

二、利用大数据中的小数据分析

Amazon(亚马逊)的一句名言“最成功书籍应该只有一本书,就是用户要买的下一本书”,即使大数据的先行者Amazon,预测用户要买的下一本数也并不容易。然而Amazon一向敢于尝试新的商业模式,Amazon正利用其数据优势,基于各种小数据分析,通过了解客户平时关注商品、新闻、爱好等信息,提前预测客户需求,可以在顾客购物确定下单前预先发货。

北京朝阳大悦城也有类似研究结果,信息研策部发现,平均每个驾车用户一次可为商场贡献约700元的收入,销售变化与车流变化幅度的相关性接近92%。这都是小数据的魅力,相比电商背后的云数据,朝阳大悦城10万人的数据样本只算是小数据,但对于一家要自我革命的购物中心而言足够了。这对于任何一个可进行数据分析的企业来说,极具借鉴意义。

三、小数据时代的发展未来

1.小数据的未来趋势

通过数据分析提高销售水平和服务质量,是任何公司未来发展的重要手段。目前国内对于小数据的分析和利用仍处于起步阶段,企业可利用现有数据进行全面分析,并对数据中变量的全面把握,充分利用小数据分析结果对公司进行发展预测;考虑小数据的人文因素,在数据分析日益完善的基础上,引入社会、心里、人文等因素,能够多方位、多维度的进行分析,使分析结果更加准确。

2.小数据预测对人才的要求

为了使得数据分析的结果更加精准、精确,从而做出有预测性、有价值的分析。小数据分析人员要求具有统计学、商业分析和自然语言处理能力,能够对数学、统计学、计算机等多方面知识的全方位掌握。

3.小数据的大服务

小数据作为数据时代的重要组成部分,任何销售、服务、金融企业可以充分利用数据资源,在做好大数据的基础上,提取具有鲜明特征且具有价值的小数据,挖掘可利用的客户个人信息,获取有价值的客户信息,降低公司成本,提高运行效率,曾加销量,更好地为客户提供量身订做的优质服务。

一切数据存在的根本在于人。人的需求是所有科技变革发展的动力。不远的将来,数据变革下一步将从大数据时代进入以人为本的小数据时代。

参考文献:

[1]董奎勇.说说小数据[M].纺织导报,2014,8.

[2]杨旭珠,岳亚楠.小数据早就大未来[J].环球市场信息导报,2014,4.

[3]王成文.数据力:“大数据”PK“小数据”[J].中国传媒科技,2013,19.

第8篇:统计学大数据分析范文

关键词:大数据;统计学;教学改革

中图分类号:C829.29 文献识别码:A 文章编号:1001-828X(2015)024-000-01

一、引言

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据具有以下的鲜明特点:第一个特征是数据量大。第二个特征是数据类型繁多,多类型的数据对数据的处理能力提出了更高的要求。第三个特征是数据价值密度相对较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。第四个特征是处理速度快,时效性要求高,这是大数据区分于传统数据挖掘最显著的特征。

统计学专业是与数据分析处理联系最为紧密的学科之一。大数据时代的到来不仅为统计学专业的发展带来的前所未有的机遇,同时也带来了巨大挑战。传统的统计学专业已不再适应大数据时代的信息爆发式增长的要求,这就要求我们应该对统计学专业进行重新定位,并在此基础上调整相关课程,改革传统的教学手段以及完善教学评价体系,以适应大数据时代的到来。

二、统计学专业改革的建议

(一)人才培养目标的重新定位

如果说以往的统计学专业是以培养简单的“应用型”人才为目标,那么随着大数据时代的到来,社会不仅仅需要会应用基础统计知识处理相关领域的问题的单一的应用型人才,而是对人才提出了更高的要求:大数据时代下的统计学专业的人才除了应该具备基础的数据收集,处理和分析的能力之外,还应该了解相关应用领域的背景知识,而且应具备很强的自我学习能力,以适应大数据时代数据量大,总类繁多,时效性高等发展特点。因此,统计学人才培养目标应该重新作出调整,应该以培养全新的“复合型”统计人才为新的目标。

(二)课程设置的调整

随着人才培养目标的重新定位,随之而来的就是应该对不再适应时展要求的课程进行必要的调整。

首先,大数据的分析和处理与以往的经典分析方法有很大不同,以往的统计分析方法主要是建立在抽样基础之上,而大数据时代信息处理迅速,信息获得途径广泛,而且信息价值密度低,这就要求数据处理时,可以以全体作为样本,而不是进行抽样;分析时必须考虑所有数据而不是剔除所谓的异常数据。因此,以往的经典统计分析方法已不再适应大数据的处理和分析,必须适当的调整经典分析方法的课程设置,增加新的适用于大数据分析的课程。

其次,随着数据量的爆发式增长,所有的统计工作对计算机的依赖程度越来越高,这就要求统计学专业的学生不仅掌握统计学专业的基础知识,同时应该熟练掌握计算机专业知识相关知识,因此,在课程安排时,应注意计算机相关课程的适当增加。

基于上述原因,可以考虑增加如下课程:机器学习,模拟算法,数据挖掘,R语言软件分析等课程,同时适当降低传统分析方法课程的学时比重。此外,为了使学生能够对相关应用领域的背景知识有所了解,可适当增设与应用领域相关的通识课程。

(三)教学模式与手段的创新

以往的教学模式,通常是以课堂教学,掌握书本经典理论为主。虽然,传统教学手段有着学生理论基础扎实等诸多优点,但是同时也存才学生过于偏重理论知识的掌握,动手能力不足,理论与实践脱节等缺点。随着社会的发展,尤其统计学专业自身具有鲜明的应用专业特点。只采用传统的教学模式和手段显然不再适合大数据时代的需要;同时,随着大数据时代的到来,多媒体手段日益丰富多彩,为传统教学的创新提供了必要的支持。因此,为了适应大数据时代人才的要求,必须改革传统的教学手段和模式,在传统教学基础上,加大实验教学的比重,在传统教学外,增加社会实践环节,引入微课慕课,翻转课堂等全新教学模式,以提高学生的学习兴趣,锻炼学生理论应用于实践的能力,从而为以后使用大数据时代的工作打下坚实的基础。

(四)教学评价体系的完善

传统的教学评价体系,通常是采用书面考核的方式对学生的学习进行评价,随着时代的发着,单纯的笔试评价不足以衡量学生的全面能力,最后导致出现高分低能的情况的出现。

为了适应大数据时代对人才多方面能力的需求,必须对传统的考核评价体系做出适当的调整,以评价学生的多方面能力,尤其是动手能力,学习能力和应用相关理论处理实际问题的能力。具体可以采用多种考核方法相结合的方式。如:增加平时的考核力度,增加实践项目的考核,通过布置适当的项目论文,采用答辩的形式,以锻炼学生适应以后工作,独立分析解决问题的能力。

此外,传统教学评价体系通常是单方面的,只有对学生成绩的评价,为了适应大数据时代的到来,全面提高教学质量,可采取双向教学评价体系,如:增加学生对教学环节的评价体系。以及教师间同行间的评价体系等。

第9篇:统计学大数据分析范文

关键词:大数据;经管类专业;课程体系

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2016)13-0054-02

大数据时代给社会经济发展带来了机遇和挑战,社会各行各业对数据分析需求大幅上升,需要借助数据分析实现数据的增值,挖掘数据背后的潜在价值,为其经营管理决策、投资决策提供智力支持。随着社会经济发展对具有数据管理和数据分析能力的应用创新型经济管理人才的需求逐渐攀升,也引发了对高校经管类专业学生能力的更高要求。面对纷繁复杂的社会经济环境,经管类专业学生必须能够广泛应用定量分析技术,能够从海量数据中获取有效数据,运用科学的方法从这些数据中提取出有用信息,建立相应的模型,作出最优决策。

统计学是培养经管类专业学生定量分析能力的一门重要课程,是众多高等院校经管类专业的专业基础必修课,是以后深入学习相关定量方法类课程(诸如计量经济学、管理运筹学、市场调查与预测等)的基础。因此,统计学课程体系设置是否合理,将直接影响到学生获取有效数据和分析数据应用能力的培养,进而影响学生定量分析能力的培养。

一、经管类专业统计学课程体系存在的问题

1.课程教学定位模糊。我国高等院校经管类专业统计学教学中的最大弊端在于一直按照前苏联划分方式将其归类为一门偏重于简单数据整理课程,而将相应的统计分析所采用方法和理论归为数理统计,因此在教学中不重视对后者的学习。然而,西方发达国家的统计学课程是同时包括这两个部分内容的,尤其是后一个部分内容是定量分析的重要基础。因此,在传统统计学教学定位下,学生只认识了基本理论与概念,却掌握不了处理和分析数据的能力,这与经管类专业应用型人才培养目标相背离,难以适应大数据时代社会各领域对经济管理人才素质的新需求。

2.课程体系有待完善,与经管类专业融合不够。目前,大多数高等院校经管类专业统计学课程设置只涉及理论统计学这一领域,未将统计分析方法与相关经管类专业知识有机结合。在这样的课程体系安排下,学生虽然掌握了统计基本理论和方法,但难以体会到统计在本专业学习中的应用价值,当面临现实的经济、管理问题却无能为力,不会运用所学统计方法,结合专业知识对实际问题进行定量分析。这种状况与经管类人才定量分析能力培养目的相违背,难以实现具有创新能力的经管类人才的培养目标。

因此,如能结合经管类专业特点,对统计学的课程体系进行优化建设,势必能够培养出具有定量分析技能,满足社会需求和企业需求,符合大数据时代人才素质要求的经济管理人才。

二、大数据时代经管类专业统计学课程体系构建

1.明确课程教学定位。目前,统计学教学中偏重于统计学基本概念、基本模型和基本方法的理论知识学习,系统性较强,有利于学生全面了解统计学的知识体系,但是对统计思维能力的培养和统计方法的应用重视不够,这不仅会让学生望而生畏,从而失去学习的主动性与积极性,更为重要的是学生不能够学以致用,在自己本专业深入学习过程中不会运用统计学知识来解决实际的经济管理问题,而在教与学中出现的这些问题源头在于教学定位不够准确。因此,本文提出新的课程教学定位:以应用创新型人才培养为导向,提高经管类专业学生定量分析能力为目标,结合经济学科和管理学科的特点,通过统计学的理论教学、案例分析、课程设计、实验(践)等教学环节,培养学生统计思维能力和统计应用能力,具备运用统计学理论与方法,研究社会经济管理领域有关数据收集、整理、分析等解决实际问题的综合能力,以适应大数据时代对经济管理人才的新需求。

2.课程体系优化建设。根据新的教学定位,统计学课程体系优化建设的基本思路:一是课程体系设置要强调基础知识、注重灵活应用、突出定量分析的教学理念和教学目标;二是课程结构上,突出专业针对性,强调统计学科和经济学科、管理学科的有机结合,使课程特色化;三是建立实践教学体系,加强学生实践能力的锻炼,为学生提供综合素质和能力提高的实训平台;四是将统计分析软件的运用融入到课程体系之中,加强统计分析软件的技能培养。

因此,本文将运用模块化系统集成思想,根据经济与管理类各专业的要求,提出按专业分模块,按模块分层次,按层次定内容的改革方案,构建“课程体系课程子系统课程模块具体内容”的递阶控制结构模型,具体如图1所示。

在统计学课程体系优化建设中,我们运用系统科学的方法构建出模块化、层次化集成的课程体系在整体功能上达到了最佳状态。

课程基础子系统是统计学理论基础和统计思维培养阶段,由统计学基本原理和基本理论构成,体现了“厚基础”的功能。课程应用子系统和课程案例子系统是统计分析能力训练阶段,首先结合认知性案例模块系统介绍统计分析方法,让经管类专业学生了解统计分析方法的基本原理,其次进一步结合专业特色案例模块和统计分析软件模块,通过分专业教学方式,使不同专业学生能够体会到统计学在本专业中的应用,增强学生的学习兴趣,体现了“强能力”的功能。课程实践子系统是统计应用能力实践阶段,是培养大数据时代应用型经管人才的重要环节。课程实践主要包括课堂实践和实验室模拟,课外实践主要包括社会实践活动、实训实习和相关竞赛,通过课程实践和课外实践两大平台训练学生运用所学统计调查、统计整理和统计分析等知识解决实际问题的综合能力。课程选修子系统是统计应用能力扩展阶段,该阶段在学生掌握统计学相关知识的基础上,通过选修统计预测与统计决策两大模块,进一步培养学生的定量分析能力。

三、结束语

大数据时代经管类专业统计学课程体系构建,应注重强化基础理论,突出知识的实用性和创新性,做到统计知识与实例分析相结合,与软件应用相结合,理论教学与实践教学相结合,与实际应用相结合。根据经管类各专业特色,以“知识+能力+应用”模式进行模块化、层次化课程体系设置,从本质上提升学生的数据素养和信息素养,提高解决实际问题的定量分析能力,以适应大数据时代对人才素质的新需求,使具有数据管理和数据分析能力的经济管理人才在就业市场上更具有竞争力。

参考文献:

[1]孙根年.课程体系优化的系统观及系统方法[J].高等教育研究,2001,(2).

[2]曾五一,肖红中、庞皓,朱建平.经济管理类统计学专业教学体系的改革与创新[J].统计研究,2012,(2).

[3]姚寿福.经济管理类本科专业统计学课程教学改革思考[J].高等教育研究(成都),2012,(3).

[4]朱怀庆.大数据时代对本科经管类统计学教学的影响及对策[J].高等教育研究(成都),2014,(3).