前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的数据分析统计学方法主题范文,仅供参考,欢迎阅读并收藏。
关键词:大数据时代;统计学;影响
随着大数据时代的到来,各企业采用了新的策略,获得了更多的利润。对于统计专业来说,改变发展策略,使培养出来的专业人才能够适应大数据背景的需求是其主要任务。目前,高校统计学专业逐渐认识到大数据时代综合性人才培养的重要性,并对专业建设进行了相关改革。
一、大数据时代对统计学的影响
大数据时代的到来对现代统计专业的发展造成了新的冲击,要确保培养出来的人才能够起到应有的作用,首先要了解大数据时代对统计专业所造成的影响。
(一)大数据时代使数据结构和数据性质发生变化
网络技术以及基于网络技术的电子商务等新的数据记录模式标志着大数据时代的到来。大数据时代,不再依赖于抽样调查的记录模式,网站浏览、视频监控都将形成大量数据。传统的数据结构甚至是数据性质发生了变化。大量的数据信息对于需求者来说,如何甄别其可用价值成为关键。传统的数据可以二维表格显示和整理。但大数据时代所产生的数据具有多样化和复杂化特征,往往包含了大量的音频、视频、HTML等。这要求大数据的收集具有较强的目的性,才能实现其价值。
(二)大数据时代要求统计分析方法和统计思维更新
大数据时代的主要特征为数据多且复杂,数据分析要求分析者对总体进行分析。在这一背景下,参数统计不再具有意义,假设检验法也随着总体分析而失去价值。数据的复杂化对传统大数据统计思维造成了巨大的冲击,要求统计者具有活跃的思维。只有对传统数据的改变进行分析,并且树立新的统计方法。
二、大数据时代下的统计学发展新策略
为适应大数据时代的需求,统计学专业的发展势必要对传统模式进行改革。目前,多数高校统计学专业已经认识到大数据对于其发展带来的冲击。为此,本文提出了以下策略,以及能够帮助统计学取得更好发展。
(一)加强统计应用性教学
根据大数据时代数据的总体分析特征,数据分析人员应掌握全面的分析方法。在人才培养过程中,应致力于培养实践分析能力,提高数据和资料收集能力,并且培养其强烈的数据价值观,使其能够从众多数据中找到所需的。另外,对传统模式进行改革,增加大数据统计内容,以适应时代的需求。基于大数据的结构特点,实施资料透视化教学,提高分析者对复杂数据的分析能力。
(二)培养大数据统计思维
在人才培养过程中,新的统计思维的培养具有重要意义,即强调数据分析实践能力的提高。统计思维的培养有助于数据分析者对复杂的数据进行区分,从而整理有效信息。在大数据时代,不仅要以传统的平均思维、动态思维和变异思维为基础,还要注重基于整体分析的大数据思维。另外,还要培养数据分者的复杂性思维,以应对复杂的数据库。总之,大数据时代需要数据分析者具有全面的、创新性的思维。
(三)强化基础性统计知识
统计学自身具有复杂性,其改变多且抽象。基础的统计知识是进一步掌握大数据分析思维的基础,可见学习基础性统计知识的重要性是不言而喻的。为此,应该采取深入浅出的方法,利用多媒体等方式使复杂的数据统计清晰化、简单化。结合具体的案例使数据分析者正确认识统计概念、掌握统计原理和方法。此外大数据分析不再是一种专业,而是更倾向于一种技术,这要求我们将大数据分析与统计学以外的相关知识相互联系。注重真实相关与伪相关的讲解,强调商务智能的开发和分析。只有具有坚实的基础,才能确保数据分析者大数据分析思维的养成,适应现代社会的需求。
(四)加强复合型人才培养
为适应大数据时代的需求,复合型人才的培养是关键。所谓复合型人才,是指其不但要具有专业的数据分析能力,还要相应的具备管理以及其从事专业的技术。大数据时代,高校应建立全面的人才培养模式,注重培养人才的数据分析能力、编程能力等,使其真正了解大数据,懂得如何利用大数据对其所处的行业起到积极作用才是关键。总之,大数据时代对综合性人才具有更高的需求,大数据时代不仅培养的是一种能力,而且是一种思维,是对全新模式下的数据的分析和利用。高校作为人才培养的重要基地,其教学模式的改革、对大数据时代所需教学模式的认识是高校的主要任务。
三、总结
统计学是经济学的基础课程,传统的统计人才培养具有定向性。而随着大数据时代的到来,数据产生的形式多样,且具有复杂性。大数据分析不仅是作为一种专业存在,而是应以一项必备的技术而存在。大数据时代,传统的统计思维和统计方法发生了改变,统计人才培养方式的改革也就势在必行。(作者单位:海南师范大学)
参考文献:
[1] 朱怀庆.大数据时代对本科经管类统计学教学的影响及对策[J].高等教育研究,2014(3).
[2] 姚寿福.经济管理类本科专业统计学课程教学改革思考[J].高等教育研究,2012(3).
[3] 孙耀东.大数据背景下统计学专业课程教学探究[J].廊坊师范学院学报(自然科学版),2015(06).
一、数理统计思想的形成
统计思想需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的数理统计思想。
二、数理统计思想的特点
数理统计思想从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在数理统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)数理统计思想强调方法性与应用性的统一;(2)数理统计思想强调科学性与艺术性的统一;(3)数理统计思想强调客观性与主观性的统一;(4)数理统计思想强调定性分析与定量分析的统一。
三、数理统计思想
就是统计实际工作、数理统计学理论及应用研究中必须遵循的基本理念和指导思想。数理统计的思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。
1.均值思想
均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有数理统计学理论,是数理统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.变异思想
统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。数理统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
3.估计思想
估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
4.相关思想
事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
5.拟合思想
拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模于此而预示的可能性”。
6.检验思想
数理统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
四、数理统计的思想方法?
1.要更正不正确的思想认识
英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。
2.要不断拓展统计思维方式
数理统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。
3.要深化对数据分析的认识
任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析、推断性数据分析和探索性数据分析等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。
数理统计思想方法应用必须坚持以事实为依据、用数据说话的原则,把统计技术的应用与专业技术紧密结合,在考虑统计项目实施时,应从理论和事实层面上注重分析和使用条件,认真权衡各种关联因素。数理统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。
参考文献
[1] 陈福贵.统计思想雏议[J]北京统计,?2004,(05).
[2] 庞有贵.统计工作及统计思想[J]科技情报开发与经济,?2004,(03).
[3] 范文正.几种基本统计思想的现实意义[J]统计与决策,?2007,(08).
【论文摘要】所谓统计思想,就是在统计实际工作、统计学理论的应用研究中,必须遵循的基本理念和指导思想。统计思想主要包括均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等思想。文章通过对统计思想的阐释,提出关于统计思想认识的三点思考。
1关于统计学
统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。
2 统计学中的几种统计思想
2.1 统计思想的形成
统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。
2.2 比较常用的几种统计思想
所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:
2.2.1 均值思想
均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.2.2 变异思想
统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
2.2.3 估计思想
估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
2.2.4 相关思想
事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
2.2.5 拟合思想
拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
2.2.6 检验思想
统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
2.3 统计思想的特点
作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。
3 对统计思想的一些思考
3.1 要更正当前存在的一些不正确的思想认识
英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如gnp、人口增长率等等,均是凯特勒及其弟子们的遗产。
3.2要不断拓展统计思维方式
统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。
3.3深化对数据分析的认识
任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(dda)、推断性数据分析(ida)和探索性数据分析(eda)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。
参考文献:
[1] 陈福贵.统计思想雏议[j]北京统计, 2004,(05) .
[2] 庞有贵.统计工作及统计思想[j]科技情报开发与经济, 2004,(03) .
一、统计学中的几种常见统计思想
统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等。统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。
1.均值思想。均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.变异思想。统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
3.估计思想。估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
4.相关思想。事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
5.拟合思想。拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
6.检验思想。统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
二、对统计思想的若干思考
1.要改变当前存在的一些不正确的思想认识。英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂,越科学。在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。
培养数据分析观念是小学数学“统计与概率”领域内容的核心目标,《义务教育数学课程标准(2011)》后,特别是在2015年教育部提出“核心素养”以来,数据分析观念的培养得到前所未有的关注和重视。
数据分析是反映由一组数据引发的思考,人们可以分析与推测出可能的结论。数据分析强调的是数据,是实证判断,而不是凭感觉臆断,既要回顾分析,又要做出预期,既要关注局部,又要关注整体。因此,数据分析观念的培养需要学生亲历与体验。
史宁中教授在他的《基本概念与运算方法》一书中指出:“统计学研究的基础是数据,是通过对数据的分析得到产生数据背景的信息。”统计学与数学有所不同,数学研究的基础是抽象了的定义与假设,而统计学强调的是数据,是数据分析观念。如平均数在数学里只是一个算式的运算结果,而在统计学里是一个重要概念,使用平均数反映一组数据的水平以及产生的影响。
当前,教师们关注与研究更多的是数学,对统计学的认识还比较模糊,在实际教学中难免出现偏差。那么,如何引导学生经历统计过程,更好地促进和培养数据分析观念呢?笔者认为,“统计与概率”教学要重视以下四个方面的转变。
一、资源利用变虚拟为真实
教材提供的活动设计,或出现的一组数据,本质上都是虚拟情境,学生难以获得真实的经历与体验,如果开发真实的活动资源,经历真实的统计过程,效果更佳。
例如,教师组织课堂内的统计活动――摸球游戏:袋子里装了10颗球,有红球和黄球。不打开袋子看,你怎样才能知道红球多还是黄球多?要求先讨论摸球规则,再分组进行“我摸你猜”的摸球游戏。学生根据小组内的摸球统计数据,初步猜想哪种颜色的球多,感受小数据信息的作用。接着,学生进行小组摸球情况对比,分析与大多数摸球情况不同的个案,探讨能让实验判断更为准确的方法。最后,汇总全班数据,感受数据信息量变大之后给“哪种球多”的判断带来的变化。学生经历试验、猜想与验证的过程,感受随机现象的不确定性,以及随机现象背后隐藏的一般规律。有些统计活动还可以从课堂内延伸到课堂外,使学生亲历实实在在的统计过程。
二、统计活动变“一般”为内涵
小学阶段的统计方式最为简单,无非是收集数据、整理数据与简单的数据分析,但从统计背景和统计学的视角看,在统计过程中还可以从以下方面挖掘内涵。
1. 样本感知。
例如,教学中进行“全班学生最喜欢哪个体育项目”的调查活动,教师不应着急调查统计,让学生先对样本的选择有初步的感受。引导学生选择与讨论:三种调查方法,哪种比较合适?(1)问自己最要好的几位同学;(2)问自己小组的所有同学;(3)问全班同学。然后,再次讨论:要知道全校同学最喜欢哪种体育项目,你认为哪种方法比较合适?(1)问全校学生;(2)调查每个年级的一个班级学生;(3)在校门随机询问部分学生。引导学生聚焦样本的代表性与可操作性,建立样本概念,感知总体与抽样调查的样本选择。
2. 尝试方法。
在收集数据与统计数据的过程中,不同情况下采用的统计方法也会不一样,教师需要提供给学生尝试不同方法的机会,感受调查方法的多样性和不同方法的优点。
例如,每学年末的不同学科教师的满意度调查,先采用逐一询问同学后画正字的统计方式,让学生感受该方法效率的低下;然后采用全班举手的方式,学生感受快捷与方便,但又发现这样统计真实性受到影响,学生对这样的调查统计没有心理安全感,进而讨论更科学的调查统计方法。最后采用不记名问卷统计完成调查任务,学生对无记名问卷的真实性有了初步的感受。如果用网络无记名调查问卷的方式,学生在规定时间内,可以在不同地方完成问卷,时效更佳。
3. 体会价值。
一般情况下,课堂上教师都会让学生说一说统计与统计结果的用处,比如调查统计学生最喜欢的运动项目,那么就可以建议学校多开展这项体育活动,但这就像是一场模拟活动,学生还是没有获得真切的价值体验。我们所期待的效果是,通过统计活动,学生可以发现问题,让他们看到事物的发展变化,才能更好地体验统计的价值。
例如,笔者针对校园周边环境脏乱差的现象,组织学生开展研究性学习活动。学生通过调查,发现校园周边脏乱差现象的成因是小摊小贩占道经营,不仅阻碍学生通行,还留下了许多垃圾。随着调查的深入,他们发现在小摊贩购买早餐的主要群体是学生。进一步在五年级开展的问卷调查中,学生发现:经常在小摊贩吃早餐的学生占全年级总数的34%,其中外来务工人员子女占92%,主要原因是父母没时间准备早餐。取得第一手数据资料后,由学生策划的“家里吃早餐,安全又健康”的活动随即展开:给家长一封倡议书,开设保健与养生课,与街道、城管等多部门齐抓共管,使得校园周边环境得到彻底改善。在调查、统计、分析、活动的过程中,学生真切感受到调查统计对具体事物所产生的变化,体现了它的实用价值。
三、统计图的选择变“绝对”为“相对”
在小学阶段,主要有三种统计图供教学选择,它们都可以直接表述数据,但还是有各自的特点:条形统计图能清楚地表述数量的多少,扇形统计图能清楚地表述数量所占的比例,折线统计图能清楚地表述数量的变化情况。一般统计图选择的标准是:离散的数据用条形统计图,连续的数据用折线统计图。但统计学与数学不同,统计图的选择只有“好坏”之分而无“对错”之分,也就是说,要表述离散数据的变化规律或发展趋势,也可以采用折线统计图,要表述连续数据的多少,也可以用条形统计图。
例如,要表述两个班在运动会4个项目上的成绩对比。
如果用折线统计图表示,也能清楚地反映1班各个项目成绩总体高于2班,但在第三个项目成绩对比中出现反差,2班的得分明显高于1班,要引起1班的重视,查找原因;而2班在第三个项目上总结成功经验,在其他项目上要总结经验教训、改变策略。
因此,统计图选择的关键在于你要表达什么,能达到目的即可,教学时切忌一刀切。
四、统计课程变单一学科教学为学科整合
“统计与概率”作为数学课程重要内容,分布在每一册教材中,它作为数学教学的一个模块,意味着课时量有限,让学生充分体验统计过程有一定难度。教师需要拓展统计教学的时间与空间,将统计活动渗透到各个相关学科的教学中,与学科教师合作,整合课程内容,更好地培养统计意识,达成提升学生数据分析观念水平的目的。
举例来说,笔者所在学校开展全员体锻活动一年有余,体育教师感觉学生的体质健康水平有了很大提高,这一结论要有说服力,就需要用数据证明,让学生亲历数据收集、整理、分析与判断的过程是很有意义的活动。学科教师合作引导学生收集体锻前与体锻后同年级身高、脉搏、近视率,以及各项运动水平的真实数据,制作成复式条形统计图和折线统计图,条形统计图对比前后两年同期学生的健康水平,折线统计图显示同一个学生在体锻前与体锻后健康水平的差异,数据显示,学生的脉搏与近视率等各项指标的变化让人吃惊,学生在经历统计的过程中体验运动的重要性。让人意想不到的是,全校师生在数据面前统一了思想认识,全员体锻的理念得到持久地贯彻与落实。
关键词:大数据;应用统计学;教学改革
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2016)43-0101-03
一、研究背景
自2002年桂林理工大学在广西开办了第一个统计学本科专业以来,针对当时理学学位的统计学专业培养的学生虽然数理基础相对扎实,但普遍统计思想不够,实际应用能力较弱的现状和特点,对统计学专业进行了全方位的改革研究,确立了"数学与统计学相融,从培养学生扎实的数理基础和极强的统计分析应用能力有机相结合的理念出发,构建了新的课程体系和教学内容,取得了系列研究成果。2009年研究成果开创“应用性、实验性、案例性”一体化的统计学专业课程体系和教学模式,获得广西高等教育自治区级教学成果二等奖[1],并在其后分别把统计学学科建成广西重点学科和广西高等学校优势特色专业,以及把应用统计实验室建成广西高等学校重点实验室。
虽然我校统计学专业的教学改革和建设取得了许多成果,但近几年,我们也逐渐感觉到在大数据新形势下,我校应用统计学专业的教学体系还有一些不适应的地方,且某些问题还有日益凸显的趋势,我们原来的某些研究成果已不再适应新时代的要求,这就迫使我们继续进行改革研究,探讨在大数据背景的新形势下,如何培养统计学专业复合型和应用型人才,如何准确把握统计学的发展方向与发展形势,如何调整人才培养模式,如何调整相关课程和课程内容,以培养适应大数据背景下社会经济发展需要的统计学专业人才。
许多国家越来越重视数据在大数据时代重要作用,我国也不例外,2012年9月,国家统计局第7次局务会提出,尽快开展在政府统计中应用大数据的研究。2013年可以看作是我国政府统计之大数据元年。2015年9月《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号)[2]颁布,标志着我国正逐步进入大数据建设的新时代,为此,国家统计局积极推动大数据在各方面的应用与实践。而大数据的核心是数据,应用统计学学科是与数据分析处理联系最为紧密的应用性学科,因此,应用统计学专业的教学体系应顺应大数据发展的趋势。在大数据背景下,应用统计学专业在继承传统数据分析技术的基础上,对所需的数据处理技能提出的需求更高了。这就是说,大数据对应用统计学的培养目标,以及教学内容等的冲击无疑是最大且不可避免的,这给应用统计学专业带来了巨大的挑战,同时也为应用统计学学科的发展带来了前所未有的机遇。
大数据逼迫人们改变分析、处理数据的手段、思维和理念,这就逼迫应用统计学专业改革必须引入新手段、新思维和新理念。培养应用统计学人才必须与时俱进,才能不断适应大数据新时代的要求,这关系到应用统计学专业培养的人才能否适应和满足社会的需求,因此,这一研究是十分必要、十分迫切且有着重要的理论和实际应用意义。
二、大数据背景下应用统计学专业的改革探讨
一、大数据与统计学的区别
统计知识在大数据的利用研究中有多样化的应用形式,主要是对“大数据”进行肢解,对爆炸增长的数据信息进行搜索、分类以及整合主要依赖于统计学。因此,大数据的相关研究在一定程度上运用了统计学的知识。但是,大数据的使用尚未被统计学这门学科充分利用,这主要是因为大数据的运用方式,使用模式和统计学之间存在着重要差异。统计学主要利用的是样本统计资源,样本主要在根据既定的概率标准从总体中抽样调查,但是随机抽样调查是带有成本属性的,例如消耗时间、资本投入的成本等。在样本数量逐渐增加的情况下,样本估计的误差范围是伴随着总体样本数量的增大而逐渐增加的,这是样本统计学不能忽视的缺点。大数据时代最具代表性的就是海量的信息数据化以及即时电子商务信息,大数据在整体上呈现出“总体样本数据化”的趋势,这样的特征恰好可以补充样本统计的弊端。大数据环境下的整体样本统计即使可以囊括全部的样本容量,但是因为很多情况下数据具有非结构性和半数据化的特征,而且大量的数据资源呈现的是重视尾部分布的状态,方差、标准差等标准化的方法变得毫无意义,整体依靠性和不稳定性经常会超越经典时间内的时间序列的整体假设性,所以概率论的应用范围呈现狭窄化的发展趋势。因此,统计学在利用大数据进行样本统计的过程中,可以对整体上的数据资源进行融合和选择,这和样本统计中的数据化处理技术存在异曲同工之妙。
二、大数据时代统计学教育的发展
1.全面培养人才素质
统计学专业的学生需要具备良好与人交往能力。统计学的学生很多都是理科出身的学生,不善于交际。但是在日常的工作中,有数据经验的科学家应该经常和每个部门的工作人员交流,协同工作。怎么样才能让颇具专业性的数据分析结果让普通的老百姓也可以读懂,让每个部门的工作人员都能无障碍地理解,这是不容易做到的。要训练自己的交往能力和沟通技能,主动地参加演讲活动是不错的渠道,演讲活动锻炼了演讲者的自信,在整个演讲的过程中,能否清晰地表达自己的思想以及给人以信服力是至关重要的。需要培养数据常识,广其见闻。数据科学家经常面对各种各样的海量数据,并需要从这些数据中挖掘出有价值的信息,这就需要数据科学家具有强烈的数据敏感性。对数据的敏感程度的训练不是一蹴而就的,要经过长时间的积累和数据分析工作的磨练,同时也可以根据阅读数据分析材料积累阅历,提升对数据资源的敏感程度。
2.培养应用型人才
大数据时代培养的数据科学家需要两方面的基本素质,第一是概念性,也就前面所说的数据科学家需要掌握的基本素养和专业知识;第二是实践性,也就是本文中我们提及的应用型人才,也就是实际操作中处理数据的能力。在高校开展大数据分析研究生学科,最大的问题是没有可用的数据,这就需要高效与大数据企业合作,进行研究生的联合培养,注重学生的实际操作能力,这里面涉及到我们的应用统计学专业硕士的双导师培养制度,一名校内导师一名校外导师,校内导师注重学生的概念性,校外导师注重学生的实践性,学生通过在校外导师单位的实习,从而熟悉并且掌握实际工作中所需要的技能。
3.促进统计与数学、计算机学科合作
“大数据”时代需要的海量数据分析资源仅仅凭借统计学科单一学科的发展是不能满足发展需求的,大数据的数据结构性特征已经抛弃了传统意义上的数据分析模式的非智能化框架,而且数据分析需要利用新型的数据运算方式以及计算机技能分析,这也是进行数据分析工作的拦路虎。所以,数据科学家的成长仅仅依靠单一的统计学科知识的学习是远远不够的,其需要的是数学、计算机和统计学三门学科融合发展,紧密结合。三门学科之间交叉发展,融会贯通,这样既可以发挥学科的优势资源,同时也能弥补其他学科的弊端。
【关键词】函数数据 函数数据分析 网上拍卖
近几十年来,由于统计学的不断发展,出现并发展了一些新的方法解决了很多问题。然而,无论获得的是截面数据还是时间序列数据,我们只能进行某一横向研究或纵向研究,同时其前提条件很多不能满足,因此常常导致数据分析结果的不可靠性。虽然面板数据模型将截面数据和时间序列数据结合起来,具有较强的因果推理属性,但是三者存在共同的缺陷:即所建立的模型都是线性的,而在实际应用过程中无法完全保证变量间的线性关系,并且也难以确保数据满足前提假设条件,从而使方法的具体应用及方法适用于数据的类型均具有一定的局限性。函数数据分析是将观测数据当作一个整体(函数),而不是一系列单个离散的观测结果。之所以这样做是因为在研究中我们不仅关心的已得到的数据,更关心未得到的或者无法得到的数据。函数性数据分析(Functional Data Analysis,FDA)的概念,始见于加拿大统计学家J.0.Ramsay和C.J.Dalzell于1991年发表的论文《函数性数据分析的一些工具》。文中提出了适用于研究时间上无限维度的函数型数据一些方法和工具,并使用函数型数据的主成分分析和线性模型对加拿大温度与降水量的关系进行实证研究。此后在1997年J.0.Ramsay和B.W.silverman总结了函数数据分析的理论和方法,出版了《Functional Data Analysis》一书。
虽然函数性数据的来源形式多种多样,但就其本质来说,它们由函数构成。这些函数的几何图形可能是光滑的曲线,也可能是不光滑的蓝线。函数性数据分析的基本思想是把观测到的数据函数看作一个整体,而不仅仅是个体观测值的顺序排列。函数指的是数据的内在结构,而不是它们直观的外在表现形式。实际中,之所以要从函数的视角对数据进行分析是因为:实际中,获得数据的方式和技术多种多样,更重要的是,原本用于工程技术分析的修匀(光滑)和插值技术,可以由有限组的观测数据产生出相应的函数表示;尽管只有有限次的观测数据可供利用,但有一些建模问题,将其纳入到函数范式下进行考虑,会使分析更加全面、深刻;在有些情况下,如果想利用有限组的数据估计函数或其导数,则分析从本质上来看就具有函数性的特征;将平滑性引入到一个函数过程所产生的多元数据的处理中,对分析具有重要的意义。
函数型数据分析有以下优点:打破了连续型数据和离散型数据长期以来的分离状态,实现离散和连续的过渡;可分析大批量的数据,实现从有限维数据到无限维数据的转换,得到的数据信息更丰富、更可靠;很少依赖于模型构建及假设条件;由于假设函数都是可导的,因此可进行微分分析,如:得到位相图,实现动能与势能之间的转换;将多元统计分析方法进一步延伸。
典型的函数数据具有这样的形式:
Y1,Y2,…Yn,其中Yi=(Yi1,Yi2,…Yini)来自第i条曲线,Yij是在时间tij上测量,i=1,…N;j=1,…ni,为了简化,我们通常都假定nij=n,Yij=Xi(tij)+εij,εij是测量误差,E(εij)=0,Var(εij)=σ2。
估计X(t)在函数数据分析中是关键的一步,最常用的两种方法是基展开和平滑判罚。
一、基展开的方法
原理:一组在某种意义下相互独立的函数{φk},其线性组合可以逼近任意的函数。
这样函数Xi(t)有如下的基展开
一般情况下,对于周期函数,我们常用Fourier级数来拟合;而对于非周期函数,我们常用样条函数来拟合。
Fourier级数:1,sin(wt),cos(wt),sin(2wt),cos(2wt),…
样条函数:将函数的定义区间用断点序列,τ=(t0,t1,…,tL)(t0与tL:为定义区间两端点)分成L个子区间,在每个子区间上,定义一个阶为m的多项式,这里的阶是指定义多项
式所需的系数个数。相邻多项式要求在断点处连续,并且在定义域上存在m-2次导数,这样样条函数就m-2次可导。
样条函数的自由度=阶数+内点个数。
B样条:每个m阶B样条基函数只在不超过m个相邻子区间上取正值,在其他定义域上取0,这种紧支集性质就给了B样条基函数良好的数值计算性质。
Bi,1(t)=1 ti≤t≤ti+10 else
二、平滑判罚
在基展开方法中,平滑参数K的选择比较麻烦,我们可以获得更好的结果多选一些基但加一个粗糙度判罚来控制模型复杂度。
通常选择J(x)为二阶导数的积分
三、函数数据的主成分分析
在多元统计分析中,记录的是同一时期或时点上对每一观测对象多个变量的数据信息.为了达到简化数据的目的,通常是把大量的原始变量综合为少数几个综合变量。
函数性数据记录了每个观测对象的同一个变量某个区间上很多个时刻的数据信息.如果将时间看作多元数据对应的变量(变化因素) ,则发现函数性数据分析面临更大的"维数灾难"基于这种特点,可以将多元主成分分析的技术引入到函数性数据分析中,称为函数性主成分分析。
四、函数性数据分析的基本步骤总结
(1)原始数据的收集、整理和组织。
(2)将离散数据转换成函数型数据。采用基函数的线性组合,常用的B样条基和傅立叶基。
[关键词] 大数据时代;数据质量;信息孤岛
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 23. 093
[中图分类号] TP311 [文献标识码] A [文章编号] 1673 - 0194(2016)23- 0178- 02
1 大数据与大数据时代
近年来,随着英国维克托・迈尔-舍恩伯格的《大数据时代》和美国Bill Franks的《驾驭大数据》等著作的出版,大数据引起了社会的广泛关注,人们已经意识到大数据时代正在呼啸而至。大数据几乎对每个领域都会产生影响,所以限于不同领域各自的特点,对大数据的表述也不同,但是一个广泛的观点是:“大数据是一个数据集合,这个数据集合是无法在规定时间里用常规软件工具对它进行搜集、整理和分析的。”
2 大数据时代对统计数据的挑战
大数据时代需要既讲机遇也讲挑战。各个应用领域的不断变化使得统计学成为一门难以成熟的学科。所以在数据分析的世界里,统计学发展的终身动力是不断提高驾驭数据的能力。大数据是推断数据,不是原始数据,所以会存在抽样偏倚、随机的和非随机的误差。数据包括原始数据和推断的数据。数据的认知范围有限,所以数据可解释的范围就有限。模型是对数据信息的汇总,由于数据信息有限,所以模型可解释的程度也有限。超出模型可解释的程度,就是对模型进行一系列的假设。大数据方法研究需要多学科的联合,统计学家需要关注实时决策和计算机资源,计算机学家需要了解算法和统计推断的复杂性。
3 大数据时代对统计数据质量的影响
3.1 大数据时代对数据时效性的影响
库克耶和舍恩伯格认为:大数据不用抽样调查的方法,而用所有数据的方法。数据科学家甚至提出“样本=总体”,这或许意味着统计工作重心要转移。舍恩伯格和库克耶认为抽样调查有很多自身的不足:一是样本的随机性很难实现;二是不适合考察有子类别的情况;三是采样忽略了细节的考察,而大数据分析则可以弥补抽样调查的这些不足之处。如果说之前统计工作的重点在于数据搜集和整理,那么大数据时代统计工作的重心就是如何搜集整理分析有用的信息。这样一来,已经得出的数据结论可能不具有这个时代的特点,即失去了时效性。
3.2 大数据时代对数据真实性的影响
大数据时代除了对数据的时效性有影响之外,对数据的真实性也有影响。由此,当通过网络搜集数据时,首先需要考虑的是,数据是否是由自动化算法系统产生?如果是,究竟有多少?以淘宝网为例,大量的虚假评论已经影响了信息的真实。
4 大数据时代统计工作的应对之策
大多数的研究指出,当前统计方面存在的问题在于业务部门没有利用好大数据导致数据资源缺乏;企业内部信息孤岛导致数据的有效信息无法充分利用;工作人员数据分析能力差导致大数据时代下统计工作很难进行。
4.1 国家应对之策
在大数据时代下,要保障统计数据质量,国家应当做到以下几点:
(1)尽快改革当前统计管理体制的制约,保证统计独立调查、独立报告、独立监督的职权不受侵犯。在大数据时代,统计体制改革要与时俱进,尽快建立符合我国国情的统计管理体制。
(2)充分发挥党委政府的主导作用,赋予各其统计数据质量的主体责任。要发挥各级地方党委政府对本区域统计数据质量的主体责任,将统计数据质量的好坏作为考核一个地区领导业绩的主要方面之一。
(3)尽快建立引导一个提速增效的统计考核评价指标体系,完善党政领导的绩效考评机制。
4.2 企业应对之策
企业应做到以下几点:信息以数据形式呈现,强化建设数据标准;融合结构化和非结构化数据;推广应用大数据,促进使用信息资源;重视数据的安全管理。
4.3 个人应对之策
统计学家必须积极学习新事物,适应大数据环境,拓展统计学的应用领域,创造出新的统计方法。大数据时代带给我们的挑战与机遇并存。
主要参考文献
[1]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(2).
[2]郑京平,王众全.官方统计应如何面对BigData挑战[J].统计研究,2012(12).
[3][英]维克托・迈尔-舍恩伯格.大数据时代――生活工作与思维的大变革[M].周涛,译.杭州:浙江人民出版社,2013.
[4]Brian Hopkins,Boris Evelson.Expand Your Digital Horizon with Bigdata[N/OL],2011-09-30.
[5]邱东.大数据时代对统计学的挑战[J].统计研究,2014(1).