公务员期刊网 精选范文 大数据时代的定义与特点范文

大数据时代的定义与特点精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的大数据时代的定义与特点主题范文,仅供参考,欢迎阅读并收藏。

大数据时代的定义与特点

第1篇:大数据时代的定义与特点范文

关于大数据,就目前而言仍然没有一个确切的、大家公认的界定,不同机构有不同定义,麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。维基百科定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。无论哪种定义,我们可以看出大数据并不是一种新的产品也不是一种新的技术,只是数字化时代出现的一种现象。大数据意味着包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术,按照合理的成本和时限捕捉、管理及处理这些数据集的能力。大数据时代的数据存在着多源异构、分布广泛、动态增长、先有数据后有模式等特点。人们正被数据洪流所包围,在大数据时代,正确利用大数据给人们的生活带来了极大的便利,同样使得大数据时代的数据管理面临着新的挑战。在大数据时代,大数据的价值利用以及大数据技术的运用在各行各业都逐渐得以充分的体现,在高校中,大数据和数据分析的价值更是可以充分体现,高校的大学生思想政治教育工作已经具备了大数据的特征。如:大学生每天使用的交流网络平台,每天都会产生由文字、照片、视频、对话等构成的海量信息。

二、大学生思想政治教育有效性内涵理解

大学生思想政治教育是一个系统工程,任何一个层面的问题可能都不是表面所呈现的那样仅仅属于该层面,很可能与更深层的问题相关联。大学生思想政治教育面对现代化、市场化。全球化与和谐社会建设的崭新境遇,直接表现就是思想政治教育有效性的弱化。何为“有效性”?“有效”是指能“能实现预期目标”。作为一种价值属性的体现,有效性是指特定实践活动及其结果在相应价值关系中所表现出来的相应功能或功效。那么什么是“大学生思想政治教育有效性”?纵观思想政治教育理论和实际工作者孜孜以求的探索,大学生思想政治教育有效性的本质体现的是大学生思想政治教育这一实践活动本身及其结果所具有满足主体需求的功能属性,即全面提高大学生思想政治素质的功能属性[1]。

三、大数据时代下大学生思想政治教育有效性提升的路径

首先树立大学生思想政治教育大数据观念

第2篇:大数据时代的定义与特点范文

(辽宁师范大学档案馆,辽宁 大连 116029)

【摘要】本文在深刻解读大数内涵的基础上,结合高校档案信息资源特点,分析大数据对高校档案工作者理念、档案资源建设、档案信息安全及档案利用服务等方面的影响,提出在大数据时代,高校档案工作应该树立全归档意识、构建档案信息资源数据集、建设档案信息安全体系、挖掘档案信息大资源,推行个性化定制化档案信息服务等应对策略。

关键词 大数据;高校档案;影响分析;对策研究

基金项目:本文为2014年度辽宁省档案局科技项目“大数据时代高校档案信息资源多元采集研究”(L-2014-R-12)的阶段性成果之一。

作者简介:宁燕子,研究方向为档案信息化建设。

大数据时代的到来改变了传统的IT架构与数据存储和利用机构,必然也将对作为储存信息知识、提供信息服务的高校档案馆形成冲击与挑战。因此,深刻理解大数据的内涵,结合高校档案信息资源的特点,分析大数据对档案工作者理念的影响、对档案信息资源建设、档案信息安全及档案利用服务的影响,对高校档案馆面对大数据寻求应对与发展对策有着重要意义。

1大数据概述

近年来,随着互联网、物联网、云计算等技术的深入发展,以及智能终端、社交网络、数字地球等信息体的普及和建设,海量的结构化和非结构化数据己经充斥在人们日常生活的每个角落,并且每天还在以惊人的速度进行爆炸式的增长。美国互联网数据中心(IDC)指出,全球数据量已由2005年的0.15ZB增长到2010年的1.2ZB。预计未来10年,全球数据量将以40%+的速度增长,2020年全球数据量将达到35ZB,人类正在逐渐步入一个大数据时代。

1.1大数据定义

目前,大数据并没有形成一个统一的定义。研究机构Gartner的定义:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。维基百科的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。IDC将大数据定义为:为更经济地从高频率的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术。信息专家涂子沛在著作《大数据》中认为:“大数据”之“大”,并不仅仅指“容量大”,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。从以上几种定义,我们可以看出,大数据是信息时代出现的一种现象,一种理念,一种处理技术。

1.2大数据特征

和大数据的定义不同,对大数据的特点业界有比较统一的认识。即大数据的4“V”特征。第一,数据体量巨大(Volume)。从TB级别,跃升到PB级别。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。第二,数据类型繁多(Variety)。随着传感器种类的增多以及智能设备、社交网络等的流行,数据类型也变得更加复杂,不仅包括传统的关系数据类型,也包括以网页、视频、音频、E-mail、文档等形式存在的未加工的、半结构化的和非结构化的数据。第三,价值密度低(Value)。数据量呈指数增长的同时,隐藏在海量数据的有用信息却没有相应比例增长,反而使我们获取有用信息的难度加大。以视频为例,连续的监控过程,可能有用的数据仅有一两秒。第四,流动速度快(Velocity)。形成流式数据是大数据的重要特征,数据流动的速度快到难以用传统的系统去处理。大数据的“4V”特征表明其不仅仅是数据海量,对于大数据的分析将更加复杂、更追求速度、更注重实效。

2高校档案信息资源呈现的特点分析

2.1档案数量庞大,增长迅速

辽宁师范大学是一所省属重点师范类院校,学校全日制在校生人数规模在22000人左右,在职教职工人数约为1800人。以辽宁师范大学为例,学校档案馆馆藏档案总量是66286卷(件),其中综合档案41913卷。近4年,综合档案年入馆量以平均每年12.5%速度增长。截至2013年6月21日,全国普通高等学校(不含独立学院)共计2198所。各高校档案馆档案资源总和近亿卷,堪称海量。2011-2014年,辽宁师范大学综合档案入馆数量统计结果见表1。

2.2档案种类繁多,载体类型多样

高校档案是高等院校内部组织和个人在教学、科研、管理以及其它各项活动中直接形成的、对高校和社会有保存价值的文字、图表、声像等不同记录方式和各种载体形态的历史记录。高校档案具有形成主体多样性,形成领域广泛性的特点,因此形成了高校档案信息资源种类繁多、载体记录方式和载体形态多样性的局面。如,辽宁师范大学档案馆集中统一保管12类档案:党群类、行政类、教学类、科研类、基本建设类、出版物类、外事类、财会类、声像类、实物类、教职工人事类和学生类。高校档案的载体类型多样,除传统的纸张外,还有以感光材料为载体的档案,如缩微档案;以磁性材料为载体的档案,如录音带、录像带、幻灯片等;以磁、光、电为介质,通过计算机等设备阅读的档案,如,电子文档、光盘数据库等;以数据库和网络为基础,以计算机主机硬盘、光盘为介质的档案,如网络信息、网站、网页等。

2.3档案数据资源丰富。

近年来,随着高校校园信息化工作的推进,高校在档案信息化工作方面的投入也在不断加大,数字档案馆就是档案信息化的成果之一。档案信息化的一个基础工作是档案信息资源的数字化,即馆藏档案目录数字化,馆藏档案全文数字化,电子文档收集。据统计截止2010年10月15日,上海交通大学档案馆馆藏档案全文数字化总量为3667404页,数字化信息资源约为2PB。一所高校的档案数据资源已经达到PB级别。可想而知,全国2000多所高校的档案数据资源总量相当可观,内容相当丰富。

3大数据给高校档案工作带来的影响

3.1大数据对高校档案工作者理念的影响

大数据带给档案工作的最大影响是对档案工作者思维理念的冲击。维克托·迈尔·舍恩伯格在《大数据时代》中明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。传统的逻辑性思维,考虑的是因为什么,所以必须怎样,即由因到果的关系。而大数据思维只需要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。大数据时代的到来,将从多个方面变革传统的档案思维模式。管理思维上,将推动档案馆从经验驱动到循数管理的转变,用数据说话;服务思维上,档案馆的服务理念将实现从供给导向到需求导向的转变,实现从资源密集型服务到服务主导型的转变;业务思维上,从追寻“因果律”走向审视“相关性”,从出现问题——逻辑分析——找出因果关系——提出解决方案的逆向思维模式,到收集数据——量化分析——找出相互关系——提出优化方案的正向思维模式转变。

3.2大数据对档案信息资源建设的影响

迫于物质和技术条件限制,在小数据时代我们无法对产生的所有成果(档案)全部归档和保存,因而有必要制定一个归档范围,即确定哪些要归档保存,哪些不需要归档保存;同时对归档保存的信息和数据要根据其价值确定不同的保管期限以节省人力和物力资源。近20年来,随着移动互联网、云计算、物联网等新兴技术的蓬勃发展和广泛应用,以及各种传感器的无所不在,信息技术已经可以将一切“数据化”。在过去的50年中,数字存储成本大约每两年就削减一半,而存储密度则增加了5000万倍。在大数据背景下,“一切归档”的目标已经具备了较为成熟的技术条件和物质基础。大数据时代,档案概念呈泛化趋势,“每一条记录都将变成具有长期保存价值的档案,这些单位价值密度低的记录信息将作为不可分割的整体来发挥档案的价值”。“一切具有保存价值的文件、数据、视频、实物都将视为档案,基于信息系统的电子文件在形成之后‘一秒钟’即形成‘电子档案’”。

3.3大数据对档案信息安全的影响

数据安全的问题一直是信息安全的重要内容,信息安全业界对于数据安全的探讨从来没有减少过,大数据时代的到来让业内人士更加不确定。据报道,对全球200个安全权威专家调查表明:40%的专家无法处理所收集到的海量安全数据;35%的专家没有足够的时间或专业人员来分析他们收集的安全数据和信息。这些数字也更能直观地说明在大数据时代,安全面临的挑战十分严峻。EMC信息安全事业部RSA公司的信息安全专家胡军认为,安全是一个基础的问题,数据价值越大,数据的量越大,安全面临的风险就越大。大数据是信息化发展到一定阶段的必然结果,大数据时代档案信息资源的一个基本特征就是档案信息的大规模数字化。数字化档案信息具有以下特点:(1)对软硬件系统的依赖性。技术的更新、软硬件设备的升级可能会导致原有的信息无法识别。(2)存储的高密度性。数字化档案信息存储的高密度性在我们节约馆藏空间,扩大馆藏容量的同时,也对载体的保护提出了更严格的要求,因为任何一条轻微的划痕都有可能导致数以千计的档案信息遭到破坏。(3)信息与载体之间的可分离性。数字化档案信息可以以非实体形式进行加工和管理,这种可分离性造成了数字化档案信息的易于更改、易于复制、自由流动、易于传输。

3.4大数据对档案利用服务的影响

《大数据时代》的作者维克托·迈尔·舍恩伯格认为,“大量的数据能够让传统行业更好地了解客户需求,提供个性化的服务。定制化服务的关键是数据”。大数据时代,高校档案服务方式将发生变革,档案利用效率将大幅提升。大数据时代的档案利用不同于传统的“你来我找”的被动式服务,也不仅是利用现代信息技术进行制作、加工、传播、转换和二次开发。而是要通过对档案信息资源挖掘、用户信息和用户需求进行分析、关系洞察及趋势预测,开展基于海量档案数据和先进技术分析的全息档案资源的相关性研究,从而实现档案信息资源与用户需求的双向理想控制。大数据时代高校档案馆会更多地开展主动推介式个性化服务。

4大数据时代高校档案工作的对策

4.1树立全归档意识

所谓全归档,包括三个方面的含义,一是接收,做到应收尽收。高校档案的收集范围应该涵盖管理、教学、科研、教辅、后勤保障等所有校内单位。内容上要注意公文与业务材料并重,不可偏颇。档案类型上既要做到传统的纸质档案与电子文档并存,同时兼顾图片、录音、录像、实物、数据库、多媒体、网页等多种类型。档案的“收”要做到全流程控制,将档案管理融入到学校办公自动化系统、教学管理、行政管理、学生管理等系统中,将文件、数据归档流程写入发文环节、教学环节、管理环节等,抓好文档的前端控制。二是征集,做到用开放的心态面向全社会征集一切和学校相关的史料和实物。重点征集对象为学校老领导、老教授,学校知名校友。三是采集,采集网络信息资源和用户需求信息。高校的内部机构都建设有自己的门户网站,这些网站上了大量的教学、科研、管理、对外交流等形式多样的信息资源,高校档案馆要积极主动采集有保存价值的信息。另外高校档案馆还要采集用户基本信息和用户需求信息,以备对其进行分析,从而提供个性化服务。在大数据背景下传统的档案资源建设思想发生不小的变化,即我们已经不再需要确定一个归档范围,不再需要对其价值进行人为的鉴定和加注标签。我们所要做的就是将所有的真实的记录全部归档,减少人为的影响,保存档案的原貌,还原档案的真实,从而构建一个基于互联网的,以档案数字资源为主体,以文本、图片、音视频等为形式的高校记忆数字资源库。

4.2构建档案信息资源大数据集

档案数字化是大数据时代必要的基础性建设,也是发挥高校档案馆潜在价值的重要台阶,紧抓大数据战略的契机,实现档案数字化建设跨越式发展,对高校档案馆而言,具有重要意义。具体需要做以下工作:结合高校档案资源特点和工作实际,(1)研究制定高校档案馆馆藏档案数字化实施方案,全面启动档案数字化工作;(2)研究制定高校档案馆数字化建设实施方案,启动数字档案馆建设;(3)研究制定高校档案馆纸质档案数字化的规范和标准;(4)研究制定高校电子文档移交与接收办法;(5)运用云技术创建档案大数据基础架构,让档案大数据在这个平台上运行;(6)运用云技术构建高校档案信息资源的大数据集。

4.3建设档案信息安全体系

大数据时代,高校档案馆的数字化馆藏和虚拟馆藏的比例会大大提高,档案安全管理的重心要向数字化馆藏和虚拟馆藏方向倾斜。要确保数字化档案信息内容的真实性、完整性、机密性和长期可用性。高校档案馆必须建立健全人防、物防、技防三位一体的档案信息安全防范体系。具体的安全保障措施包括以下几个方面:(1)加大对数字化档案信息安全法规的理论研究;(2)制定高校数字化档案信息安全解决方案;(3)购买优质的硬件设备并在运行过程中加强管理和维护,确保科学使用;(4)采用先进的网络安全技术和数据安全技术等多种现代信息新技术。如访问控制技术、防治病毒技术和安全检测技术、密码技术、备份技术、仿真、迁移、再生性技术、签署技术、消息认证技术、防写技术以及数字水印技术等;(5)使用正版软件,增强安全意识并做到及时升级,及时打补丁,同时检查系统的各项设置;(6)数据结构化;(7)加固网络层端点的数据安全;(8)档案信息数据库异地存储;(9)提高档案从业人员的信息素养和职业道德意识。

4.4挖掘档案信息大资源,推行个性化定制化档案信息服务

高校档案馆拥有海量的档案数据,同时掌握了丰富的传统信息资源管理经验,是大数据时代的“资本拥有者”,然而这些数据目前只有极少部分得到了有效开发。如何从海量原始档案数据中发掘出有价值的信息和知识,满足不同档案用户的信息需求,将成为高校档案馆的一项重要工作。高校档案馆要综合运用数据挖掘、数理统计、机器学习、智能算法及云计算技术对档案信息数据进行分析。具体流程如下:(1)制定针对不同服务对象和服务需求的服务目标;(2)采集用户基本信息和用户利用习惯信息,分析用户检索行为,建立用户信息库;(3)依据用户潜在的档案信息需求分析结果,检索馆藏档案资源信息及网络信息数据;(4)运用数据分析技术在智能数据处理平台上对检索出的数据进行过滤、整合、分析;(5)利用数据可视化技术和人机交互技术,对档案信息数据进行解释,借助高校档案门户网站、移动终端等多种手段档案信息。

参考文献

[1]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报,2014(6):954-972.

[2]中国教育部批准的高等学校名单、新批准的学校名单[OL]. moe.gov.cn /publicfiles/business/htmlfiles/moe/moe_229/201306/153565.html.

[3][英]维克托·迈尔·舍恩伯格,肯尼思.库克耶.大数据时代[M].浙江人民出版社,2013(1).

第3篇:大数据时代的定义与特点范文

关键词:大数据;信息服务;图书馆

大数据已成为2012年以来的研究热点。大数据被称为"碎片中的智慧",被视为驱动新一轮技术革命的关键力量,它正在显现出巨大的价值。根据麦肯锡咨询公司测算,大数据每年可为美国医疗服务业节省3000亿美元,使零售业净利润增长60%,帮助制造业在产品研发、组装等环节降低50%的成本。美国将大数据定义为"未来的新石油", 全球500强企业中90%以上的重要决策都取决于深入的数据挖掘和分析。大数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。并随着近年来互联网和信息行业的发展而引起人们关注。

本文在大数据的时代背景下,探讨了大数据的基本内涵与特征,它给医院图书馆带来的挑战,以及通过对大数据在医院图书馆信息服务方面的应用,期望能够为未来的医院图书馆信息服务创新体系提供一些参考。

1大数据的内涵与特征

1.1大数据的内涵 大数据目前还没有统一的定义。维基百科定义大数据为巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。

1.2大数据的特征 大数据的特征归纳为4个"V"。①数据体量巨大。从TB级别,跃升到PB级别;②数据类型繁多。网络日志、视频、图片、地理位置信息等等。③处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同。④只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。业界将其归纳为4个"V"--Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。

2大数据与图书馆

依据大数据定义,单体图书馆数据总量虽然还没有达到PB级,但从图书馆存储数据种类和数量以及未来发展趋势上来说,已经初步具备了大数据基本特征。图书馆除了馆藏的图书、期刊、论文等纸质资源外,还拥有大量的数据库资源、多媒体资源、电子图书、电子文档,还有图书馆管理系统信息。此外,伴随着平板电脑、智能手机等移动设备以及社交网络的出现,移动终端用户行为和服务等非结构化数据量逐年增加[1]。

2010年底,国家图书馆数字资源已达到480 TB,到"十二五"末,国家图书馆数字资源总量要达到1000 TB,每个省级数字图书馆可用数字资源量将达100 TB,每个市级数字图书馆可用数字资源量达30 TB,每个县级数字图书馆可用数字资源量达4 TB。文化共享工程将建设"公共文化数字资源基础库群",资源总量达到530 TB。

3大数据环境下对医院图书馆信息服务的挑战

当前数字时代,医院数字图书馆结构化资源内容丰富,结构完整,包括电子图书、电子期刊、电子报纸、数据库、网络资源在内的海量数字资源。非结构化数据如声音、视频、音频、图片等可视可听的数据,因为信息技术原因以及不够重视而缺乏。图书馆在此结构化资源基础上尽力实现用户的最大满意和最大程度利用。但在大数据时代,医学信息量以指数的态势增长。要求医院图书馆对医疗专业部门的支撑越来越强,医务工作者没有足够的时间和精力查询相关专业资讯,这就要求图书馆对医学专业具有较强的支撑能力,能够在浩如烟海的信息中找到最有效的信息,乃至参与医疗决策[2]。

4大数据环境下医院图书馆信息服务

大数据时代要求医院图书馆信息服务将向数据分析、数据挖掘方向转移,利用大量的结构化、非结构化、半结构化数据去挖掘读者行为,预测和分析读者的兴趣和潜在需求,从而主动的为用户提供个性化、精准化的信息服务。

4.1提供主动的、有针对 医院图书馆的服务对象主要可以分为:临床医护人员、医技人员、科研人员、行政管理人员和进修生、实习生人员。显然,各类用户群对信息的需求差异很大,同一类用户群中因为层次不同,信息需求也存在较大差异。通过大数据平台的挖掘分析,区分开用户群,然后针对不同用户群开展不同层次的服务。医疗科研人员的学科专业性非常明显,信息需求主要集中在与专业领域紧密相关的生物医学文献上,不同专业的用户需求差异明显,而相同专业的用户具有相近的兴趣度,根据其相似性,可以得出某一时期某一学科的科研热点,以及该领域的研究进展,实时动态地为他们提供专属信息,提高文献推送效率,使医疗科研人员更快地洞察最新的科研走向。

4.2提供个性化、精准化服务 在大数据时代,用户面对众多数据资源,深受大数据所带来的困扰,很难方便、快捷、准确地检索到所需数据资料。图书馆可通过大数据分析平台对每个用户的检索关键词、浏览历史、下载数据、流量数据、读者留言、新书推荐以及其博客、微博、移动图书馆等各种社交媒体产生的交互信息的分析,挖掘每个用户的隐性信息需求,发现并预测其信息需求特点以及趋势,针对每个用户提供精准的、个性化的信息,以提高每个用户获取信息的速度和深度。

5加强大数据人才培养

大数据时代对医院图书馆工作提出了更高的信息服务标准,要求医院图书馆不但能够通过结构化数据了解现在医疗科研人员需要什么服务,也能够利用非结构化数据、半结构化数据深度挖掘预测和分析将来会发生什么。美国研究图书馆协会提出,研究数据管理是下一代图书馆员的能力之一。研究型生物医学专业图书馆应尽快引进或培养一支大数据管理专业队伍。当前的任务是如何在现有基础上,拓宽馆员知识面,增强业务能力,使之成为大数据知识服务信息资源的组织者、传播者、导航者和教育者[3]。

6对用户隐私的保护

大数据收集了用户的个人信息、搜索历史、地理位置等大量信息,很可能威胁到用户的隐私,让用户有知情权,个人数据保存期限和用途将有用户自行设置,这样既解除了用户的顾虑,图书馆又能合法的利用数据,在不暴露用户个人隐私的前提下为医疗科研人员提供优质的个性化服务。

7结论

大数据技术将有力推动医学信息服务向更深层次和更广范围拓展。医学图书馆员必须抓住发展机遇,不断提升核心竞争力,利用大数据创新信息服务,满足医疗科研人员日益增长的信息需求。

参考文献:

[1]王捷.大数据时代下图书馆开展信息服务的对策[J].现代情报,2013,33(3):81-83.

第4篇:大数据时代的定义与特点范文

大数据,作为一种数据管理的理念和方式,其之所以出现,是云计算和物联网等信息技术的发展,与人类社会所积累的数据高速增长并海量积累相结合的结果。无论是如何定义,从本质上,大数据是信息管理者在当今的信息技术条件下,为解决新的海量信息处理需求,所提出的解决策略。而作为典型的信息管理活动之一的档案事业,势必会受到大数据理念的影响。

大数据并不是一个严谨而完整的学术概念,其所包含的内容相对比较抽象,从字面意义上进行理解,大数据所指的是数据规模的庞大。但从这一意义上来看,显然无法与传统的以往一系列概念进行区别,如“海量数据”(Massive Data)、“超大规模数据”(Very Large Data)。在学术界,对于大数据的定义尚未形成统一的观点,但综合各种说法,主流的思路是从大数据的特征出发,通过归纳的方式,通过对特征的描述进行定义。其中最有代表性的是3V定义[1],即认为大数据需满足3个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。此外在实践层面,普遍认为大数据具有全数据规模、多数据类型、低价值密度、高处理速度的特点。

在数据管理理念层面,大数据的特点在于全数据规模、丰富的数据类型(可能包含半结构化数据)、全数据处理对象、多数据处理工具;在数据处理技术层面,大数据体现为对云计算和新一代数据库的应用;在操作方式层面,大数据体现为对零散信息价值的重视及对数据之间相关而非因果关系的分析。

二、大数据对档案工作带来的机遇

(一)解决信息化背景下档案的“胀库”问题

近年来,随着电子文件的理念逐步得到认可,以及档案的单位管理成本的降低,加之人们对于归档保存的重要性的认识的提升,我国的档案总量步入了一个高速增长的时期[2],但与此同时,信息化背景下的档案数据库胀库问题也随之到来了,其中较为明显的表现为“新增数据失败”等[3],胀库问题带来的,不仅仅对新增档案管理上的难题,同样重要的是,由于胀库现象的出现,档案的服务利用的效率将大打折扣,其原因在于案卷在出现胀库的过程中,无法及时有效地归档并建立索引以提供服务,破坏了档案案卷之间的连续性和关联性,降低了档案中所提供的信息的价值。信息化背景下档案的“胀库”问题,本质上在于存储和计算资源分配的不够合理,传统的数据库架构在处理新的海量数据的过程中,灵活性远远不够。解决这一问题,需要求助于大数据技术框架中的云计算技术[4],利用云计算技术强大的调配计算资源的能力,根据数据处理规模的需要,配置数字化档案管理所需要的存储和计算资源,保证档案的服务利用效率。

(二)有利于推动社会档案观的普及

大数据的核心在于从海量的数据中挖掘价值[5],这为档案价值的进一步发现和提升,提供了一个新的思路。传统的档案服务利用概念中,档案的服务利用对象是特定并且相对单一的,原因在于档案通过卷宗的形式,将一个相对完整的信息“包裹”存留,这部分相对完整的信息最终成为了档案卷宗的主题。而在服务利用的过程中,“主题匹配”成为了最为常见的档案定位方式,而主要来自于政府机关、企事业单位的日常运行信息形成的档案,其主题自然会牢牢地与其形成机关的业务活动相对应,而档案卷宗中所包含的零散的信息价值,相对容易被忽略,如今被公众广泛利用的档案,多数是民生档案[6],而其他类型档案中的零散信息价值,缺乏有效的挖掘服务利用手段,这是社会档案观在普及过程中必须解决的问题之一,即如何帮助公众挖掘他们所关心的分散于海量档案中的信息价值。大数据为档案的服务利用提供了新的价值挖掘工具,使得分散在海量数据中的零散价值成为可能,这就意味借助大数据的信息分析工具,公众将能够从主题上看上去并不相关的众多档案中,发掘其自身所需要的信息,获取相应的信息价值,将推动公众逐渐意识到档案作为当今社会最重要的信息价值载体之一的重要意义,而一旦这样的意识逐步成型,档案社会观将得到普遍的认可。

(三)有利于处理多载体类型的档案

信息技术的发展对于档案管理工作的重要影响之一,就是提供了多样化的信息载体形式,丰富了档案的类型,从最原始的纸质载体的文书档案,发展到如今的音像档案、图片等等。而随着电子文件概念不断获得认可,新的信息载体形式层出不穷,从理论上讲,每当出现一种新的信息载体形式,就会相对应地出现该载体形式的档案。这就意味着未来档案的管理工作必将是基于多载体的,其载体的丰富程度可能会远远超过我们的预期,而为最大程度保证原始证据价值,在技术条件允许的前提下,未来的档案管理工作将会尝试接受半结构化的数据作为档案,以最大程度地保留证据价值[7]。这使得未来的档案载体形式将呈现数量多、增长快的特点,这就要求针对具体档案类型的管理工具,或者抽象为一类特定的数据处理工具,是无法实现“One size fit all”的,即不再存在能够完美处理所有的档案载体类型的管理工具。这一点上与大数据对处理多数据类型过程中所提出的数据工具组合的理念,是相一致的。未来的档案服务利用活动,由于其面向的档案对象的载体是多样的,对其进行利用的工具也将是多样的,甚至为处理一些半结构化的数据的过程中,可能会需要多种数据处理工具的组合。

(四)有利于电子文件的管理

大数据将从真实性、有效性、及时性三个方面提升电子文件的管理水平。首先从真实性角度考虑,由于电子文件惊人的增长速度,其真实性鉴定工作一直是困扰档案工作者的难题之一,传统的“直接鉴定法”在实际操作的过程中所消耗的人力物力成本过于巨大[8],因此鉴定文件的真实性需要求助于大数据技术处理海量数据并分析复杂数据的能力;第二,从有效性角度考虑,电子文件的结构化特征并不明显,大量的电子文件都是半结构化甚至是非结构化的,在这种数据类型情况并不稳定的前提下,处理数据对象单一的传统档案管理数据库结构是难于驾驭的,而大数据技术框架下对于多数据结构的兼容性,能够较好地解决这一问题,提升对电子文件进行管理的有效性;第三,从及时性的角度考虑,电子文件的指数增长,使得及时地对新增档案进行管理成为了档案工作者所面临的一大难题,这样的海量数据的实时处理,是档案管理过程中前所未有的,这需要利用大数据技术框架中通过云计算的方式提升数据处理的及时性,才能保证电子文件管理的及时性。

三、大数据背景下档案工作的发展趋势

(一)从数字化到数据化

为应对信息时代对于档案工作新要求,档案数字化的工作已经进行了多年,并在一定程度上解决了传统档案利用信息技术进行管理及共享的问题[9],收到了相当的成效。但在大数据时代背景下,数字化仅仅是解决了载体形式或者说是信息技术的应用问题,可以理解为档案工作对信息技术的适应性应用,对于深入的数据挖掘与利用是远远不够的。在大数据的时代背景下,信息管理者已经不再满足于更易管理和共享的信息形式,应更为关注信息所能带来的价值,这就要求对于档案的管理工作框架,需要实现从数字化到数据化的转变,即不仅仅能够实现对档案案卷的数字化管理,更能够根据海量数据挖掘利用的需要,对档案的管理深入到数据层面,这将更为适合大数据技术架构下对数据的“流处理”模式。

(二)从信息共享到信息价值共享

随着大数据时代的到来,数据挖掘技术的应用进入了一个全新的阶段,所有的信息管理者都面临着同样一个问题:将简单而直接的信息共享活动转换为更为高级的信息价值的共享,即需要对自身所掌握的信息的价值有清晰的掌握和准确的理解,对应到档案工作者的现状上,即档案工作者仅仅了解自己在管理哪些档案并提供服务利用,已经无法适应大数据时代对档案服务利用的要求了,而需要能够了解自己所掌握的档案能做什么,所提供的档案利用服务所实现的是什么功能,也就是要明确所掌握的档案的价值。这需要对档案利用服务的认识有更加深入的认识,在大数据时代的背景下,由于对信息价值提取效率的提升,对于信息价值的共享将成为所有信息服务利用的主流趋势,这对档案服务利用工作将是全新的挑战,这不仅仅要求能够灵活地运用大数据技术在整合档案数据的基础上挖掘其中蕴含的价值,更加需要档案工作者对于信息价值有着更为敏感的“嗅觉”。

四、大数据对档案工作带来的挑战

(一)如何嵌入数据挖掘环节

传统的档案管理活动,最为通行的说法是包含收集、整理、保管、鉴定、统计和提供利用六个主要环节,这六个环节组成了基本的档案管理活动,并组成了一次完整的信息从收集到提供利用的过程。在大数据的时代背景下,对于档案管理活动提出了新的要求,即主动地挖掘其中的价值并提供利用服务,这就涉及到一个流程嵌入的问题,即数据挖掘环节应该通过什么样的方式嵌入到档案管理活动中来,是作为一个单独的环节嵌入到档案的管理流程之中,还是在传统的档案管理活动的某一环节中实现数据挖掘的功能,直接关系到档案管理活动流程的合理性。数据挖掘的嵌入问题,当档案事业逐步步入电子文件时代之后,必须要解决的问题。

(二)如何保障档案信息的安全性

大数据对于档案信息的共享程度提出了更高的要求,只有在档案资源高度共享的情况下,大数据技术框架下的云计算平台才能发挥作用,真正实现档案信息价值的利用。但随之而来,就是档案信息的安全性问题,如何解决在多类型、多结构、高共享程度状态下的数据安全问题,已经显得十分棘手。工作人员操作失误、设备及网络故障、计算机病毒、网络黑客攻击等对档案信息安全构成威胁的因素,在大数据的技术框架下,所造成的威胁可能会被相应地放大。大数据时代的档案信息的保密工作,其重心很有可能不再是保密体制的设计,而更有可能是信息安全技术的有效应用。

第5篇:大数据时代的定义与特点范文

进入21 世纪,人类在信息存储和处理能力方面不断涌现技术性的突破,大数据(Big Data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据。大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。大数据时代的到来,各行各业都面临着对庞大而复杂的数据进行有效管理的巨大挑战,人们越来越认识到对自身产生和拥有的大数据进行有效管理的重要性和迫切性,灾害档案数据管理也不例外。随着计算机技术和网络通讯技术的飞速发展,灾害管理信息化程度不断提高,灾害档案数字化、网络化管理已成为网络信息时代档案管理工作的必然选择。面对汹涌而来的大数据,灾害档案数据管理工作如何应对,是摆在我们面前一个亟需研究的课题。

一、大数据的概念

关于大数据的定义,最早提出“大数据”时代到来的全球知名咨询公司麦肯锡称:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。维基百科的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。还有学者认为大数据指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产[1]。可以看出,大数据由海量交易数据、海量交互数据和海量数据处理三大主要的技术趋势汇聚而成[2]。

从本质上看,大数据主要解决的是海量数据存储、计算、挖掘和利用的问题。其特点可概括为“ 4V”,一是规模性(Volume),数据容量巨大,大型数据集合一般在几十TB至PB级的数据量;二是多样性(Variety),数据类别繁多,数据来自多种数据源,数据种类和格式日渐丰富;三是高速性(Velocity),数据处理速度快,在数据量庞大的情况下,实现数据的实时处理;四是价值性(Value),数据真实性高,愈发需要有效的信息资源确保其真实性与安全性[3]。可以说,大数据时代是一个数据资源更加丰富的时代,是一个信息技术更加先进的时代。

灾害档案数据资源主要来自灾害管理和科研活动产生的电子文件,按照来源和形成方式不同,可以分为数据库文件、电子数据表、字处理文档、电子邮件、扫描图像、地理空间数字记录、数字照片、网站及其相关文档。灾害档案数据具有分布性、多源性、异构性等特点。从灾害档案管理部门来看,灾害档案资源主要集中在民政、水利、气象、地震、国土、环保、测绘、军队、海洋等部门,档案数据源分散在不同部门、不同地点,并由不同行业、不同单位和组织机构所拥有。从灾害档案内容来看,包括灾情、气象、遥感影像、基础地理、专题地图、涉灾行业、经济统计、现场多媒体等多种数据。近年来,灾害档案数据管理有了较大提高,但由于缺乏强有力的技术支持,档案信息服务水平还比较落后,普遍存在管理意识薄弱、数字化建设不足、服务方式被动、开发利用欠缺等一系列的不足,利用信息技术进行档案数据分析、开发、利用、交换、共享的水平还很低,没有充分发挥档案信息的凭证、参考和情报作用,无法满足管理部门对灾害档案信息的需求。

二、大数据技术在灾害档案数据管理中的应用优势

目前大数据研究成果最多的是大数据技术和大数据应用。大数据技术的特色在于它依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术对海量数据进行分布式数据挖掘,在金融、医疗、教育、军事、电子商务甚至政府决策等几乎所有的领域都有非常广阔的应用空间。随着大数据时代的到来,应用大数据技术让灾害档案数据获取、储存、搜索、共享、分析,乃至可视化地呈现,成为了可能,为灾害档案数据管理提供新思路和新方法。

1.大数据技术对实现灾害档案智能管理提供强大保障。大数据技术具有的可靠安全的数据存储、方便快捷的云服务、超强的计算能力、诸多技术的集合体、良好的经济效益以及以用户为中心的个性化服务等优势,对实现灾害档案“存储数字化、管理自动化、利用网络化”智能管理提供保障。应用大数据技术对分散于不同部门、不同地理位置的档案数据资源进行管理、传输、检索和提供利用,满足用户对档案信息的远程访问操作,包括信息查询、检索、统计、提取等,实现档案数据资源的互联互通和共享利用,将档案“藏”和“用”的功能都提高到一个新的水平,对于充分发挥档案数据资源的价值具有前所未有的推动作用。

2.大数据技术对实现灾害档案数据挖掘提供有力支持。数据越来越多。传统的档案管理以文档管理为主,档案基本处于被动利用,沉淀的档案没有人去分析利用,也没有技术工具去支撑挖掘和分析。大数据最核心的价值就在于对海量数据进行存储和分析,只有通过分析,才能获取更多智能的、深入的、有价值的信息。在大数据时代,档案系统中除了大量的文档之外,还有海量结构化数据,并且数据利用的效果要大于文档利用效果。档案部门在收集大数据之后,通过主动调查利用者的需求,建立各种数据模型,对海量数据进行聚类、分类、相关性分析,找到数据之间的关系,提高档案价值,将原来的“死档案”变成“活信息”,为灾害管理决策提供参考。

3.大数据技术对实现灾害档案知识服务提供解决途径,解决灾害档案如何实现知识服务,如何从浩如烟海的档案数据中快速识别、选择和有效利用档案信息,为灾害管理部门提供知识服务和智力支持,发挥档案的参考凭证、决策咨询、评估依据作用。应用大数据智能识别、传感与适配等技术,构建基于基础框架体系、大数据处理体系、过程管理体系、大数据分析与决策体系、交互体系的大数据知识服务平台[4]将成为有效的解决办法和途径。灾害档案大数据知识服务平台搭建的是一个大数据获取、存储、组织、分析和决策服务资源和服务能力共享、交易和协作的智慧平台,依据灾害管理不同行业、不同领域、不同需求的大数据处理需求,在平台上实现数据、知识、资源、能力、服务、过程和任务等资源和能力的共享和协作。

三、大数据时代下灾害档案数据管理的应对策略

当前,我国经济发展已进入新常态,认识新常态、适应新常态、引领新常态,是当前和今后一个时期中国经济发展的大逻辑,也是发展档案事业的基本遵循。灾害档案工作主动适应新常态,需要分析发展新变化,顺应发展新趋势,这既是经济社会发展对灾害档案管理提出的更高要求,也是档案事业深化改革和持续发展的内在需要。在大数据时代背景下,灾害档案的产生主体、利用群体、生态环境都发生着新变化,灾害档案数据管理应用大数据技术分析、挖掘出庞大的档案数据独有的价值,从“被动服务”向“主动服务”转变,还面临着诸多挑战,需要从以下方面加以完善和提高。

1.建立高效有序的运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统筹协调,搞好顶层设计。应当增强灾害档案数据管理意识,做好灾害档案数据发展规划,并将其纳入国家综合防灾减灾规划中,建立灾害档案数据标准与规范,构建档案数据管理系统,实现灾害档案数据有效组织、集中存储、共享与服务。

2.制定科学规范的建设标准。灾害管理涉及部门多、领域多、专业复杂,各部门都是按照各自定义的内部数据标准进行信息系统建设,因此存在灾害档案数据资源结构不统一、标准不配套等问题。没有标准就没有系统,应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。

3.搭建共享利用的服务平台。我国的灾害管理涉及多个部门,通过几十年的努力,已经积累了海量与防灾减灾相关的专题数据,并建立了一些信息网络系统,部分开展了信息共享,但绝大多数灾害管理相关数据还没有实现有效共享和利用。数据只有不断流动和充分共享,才有生命力,所以应在各专用数据库建设的基础上,通过数据集成,实现各级各类信息系统的数据交换和数据共享。

4.培养高素质的专业队伍。灾害档案大数据建设的每个环节都需要依靠专业人员完成。一方面,需要培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍;另一方面,需要加强档案管理人员对信息技术的掌握,加强档案管理人员大数据相关知识的培训和辅导,做好大数据背景下档案管理的人才储备。

第6篇:大数据时代的定义与特点范文

【关键词】大数据 高校 综合办公 创新

伴随着21世纪互联网技术不断发展,互联网渗透到了世界之中的各个角落,其中包含当前比较前沿的科技领域以及我们实际生活中的方方面面。互联网技术之中的大数据管理技术能够不断进行资源共享以及资源的传播,所以,为了能够在办公之中实现高校并且达到创新,这些都是值得探究的问题。

1 大数据概述

1.1 大数据定义

大数据是指资料规模较为巨大,通过主流的软件无法进行合理的分析以及采集及管理的资讯。大数据具有 4V 特点:Volume、 Velocity、Va- riety、Veracity, 是由数量巨大、 结构复杂、类型众多的数据构成的数据集合, 是基于云计算的数据处理与 应用模式, 通过数据的整合共享, 交叉复用,形成的智 力资源和知识服务能力。

1.2 大数据的特点

1.2.1 大数据量巨大

一般都是以PB级别进行估量。

1.2.2 数据类型比较繁多

比如网络日志、图片、地理信息以及相关的视频信息。

1.2.3 数据价值密度较低

将视频作为例子,可以看到在不间断的监控的视频之中能够真正用到的数据只有不到1秒钟。

1.2.4 处理速度迅速

与传统的数据挖掘技术明显不同,大数据的处理速度非常迅速。云计算、物联网、车联网、手机、以及各种多媒体载体,这些遍布全球都是多媒体数据的来源。

2 在高校综合办公之中的实际应用

2.1 网络办公中的大数据技术应用

各类的网络办公团建存在着部门层次较多、管理链条较长以及面向的对象较广的问题,大数据处理技术的应用可以很好的处理这些问题。大数据的技术发展,将海量的网络信息进行有效的处理以及优化,最终达到便捷、预判以及可靠的效果。

在正常的网络办公之中,应该提升网络办公故障的预处理能力。网络设备的故障的出现之前,应该进行对故障设备的预警,通过对网络运行设备的基础信息以及历史运行的数据挖掘与良好的处理,可以进行设备的正常运行状态的检测值的设置。通过大数据技术,可以实时检测计算机网络的各种 活动,通过对网络异常行为的发现、预警,网络流量与状态的监 测、分析,来处理众多安全事件,从而提升网络办公体系的安全 防御能力。

2.2 提升资源合理配置,加强绿色通信的实现

伴随着办公之中的终端数据的激增,大数据技术不断渗透到了资源的配置之中。所以在实际的办公之中,应该对办公的流程、文件的提取以及行政安排,进行能源消耗的降低并且营造绿色的网络。

(1)实现网络资源的动态分配。通过动态自适应的方法, 充分考虑服务需求、网络流量等情况,再配备相应的行政资源。

(2)大数据技术支持庞大数据的存储和处理,使行政管理资源的统一管理或统一备份成为可能。

2.3 进行有效的数据整合

行政办公系统之中,数据类型不再是以单一的文本为主要资源形式的结构化数据,其中还包括众多的音频、视频、地理位置,在综合办公之中这些数据的处理应该利用大数据进行高校快速的处理。将办公之中的非结构化数据进行统一、整合以及科学重组,最后使得行政管理能够迅速传递信息。

2.4 加强办公的安全性

在大数据背景下进行办公,应该加强办公环境的安全性。大数据技术的应用实现了大量数据的处理以及实现。不可控制的大量数据其中包含病毒、黑客的攻击以及系统的漏洞。为了能够提升高校综合办公,应该加强办公的安全性。可以从访问控制、网络隔离以及人侵检测、病毒防治这几个方面提升大数据环境办公网络安全度。

2.5 提升综合办公效率

大数据技术的应用提升了综合办公的效率,减少了冗余的时间。在行政办公之中海量数据中存在着大量噪声, 在数据集成时需要对数据进行清洗, 保证数据的质量和可信性。 有利于各部门之间快捷有效的沟通并开展工作。大数据技术实现了资源共享,资源可以快速在各部门与院系之间传递。人员处理信息资源的速度提升,提升了综合办公效率。

3 结束语

大数据时代的来临,对于行政办公的效率提升有着重要的作用。在高校综合办公之中,大数据必然有着广阔的应用前景。综合办公在大数据时代将获得巨大的突破,办公中蕴藏着的巨大知识宝藏能够得到更好的开发与利用。

参考文献

[1]覃雄派,王会举,杜小勇等.大数据分析――RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45.DOI:10.3724/SP.J.1001.2012.04091.

[2]李玉梓.办公软件Excel的应用技巧[J].产业与科技论坛,2015,(9):95-96.DOI:10.3969/j.issn.1673-5641.2015.09.053.

[3]高校办公[J].办公自动化:办公设备与耗材,2012,(10):48-48.

[4]王元卓,靳小龙,程学旗等.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.DOI:10.3724/SP.J.1016.2013.01125.

第7篇:大数据时代的定义与特点范文

关键词: 大数据时代 高校宣传思想工作 建议

大数据开启了时代转型之门,随着信息技术的发展,海量的数据日益影响着人们的工作、学习和生活。8月19日,国务院常务会通过《关于促进大数据发展的行动纲要》,标志着大数据已经正式上升到国家最核心战略。面对新的形势,高校宣传思想工作者如何抢抓机遇,以“大数据”思维推动各项工作提档升级、创新发展,是一项亟须深入思考和实践的重要课题。

一、大数据的概念及基本内涵

早在1980年,著名未来学家阿尔文・托夫勒便在《第三次浪潮》一书中,将“大数据”热情地赞颂为“第三次浪潮的华彩乐章”。近年来,大数据更是广受关注,不过,对于大数据概念的理解并未取得一致。麦肯锡是研究大数据的先驱,认为大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)[1]。维克・托迈尔・舍恩伯格认为:“人们能在大规模数据的基础之上做到的事情,并且这些事情在小规模数据的基础上无法完成,就叫做大数据。人们能够通过大数据获得更新认知、创造更新的价值观念;大数据还可以改变组织机构和市场,以及政府与公民关系。”强调以大数据技术为基础的新思维和新方法[2]。

尽管对“大数据”的认识存在差别,但综合不同的定义看,“大数据”在不同领域内包含三层含义,可以分别从现实和技术两方面加以阐释:第一层意义上的“大数据”指的是数据的巨量化和多样化,现实方面指的是海量数据,技术方面指的是海量数据存储;第二层意义上的“大数据”指的是大数据技术,现实方面指的是对已有或者新获取的大量数据进行全面分析和利用,技术方面指的是云存储和云计算;第三层意义上的“大数据”指的是大数据思维或者大数据方法,现实方面指的是把目标全体作为样本的研究方式、模糊化的思维方式、侧重相关性的思考方式等理念,技术方面是指利用海量数据进行分析、处理并用以辅助决策,或者直接进行机器决策、半机器决策的全过程大数据方法,这种对大数据的认知方式涉及“大数据项目”或“大数据技术应用”的认知[3]。

二、大数据在高校宣传思想工作的应用价值

宣传思想工作是在头脑中搞建设,向来被认为务虚多于务实,经验等同于规律,往往侧重定性分析,忽视定量分析。在互联网背景下,如何在师生产生的海量信息数据中寻找具有价值的内容,仅仅依靠传统的定性分析方法显然不适用。大数据引起变革的最重要方面在于它创造了前所未有的可量化维度,使定量分析方法取得了突破性进展,也为高校宣传思想工作由定性向定量、感性向理性、务虚向务实转变提供了新的机遇。

(一)夯实宣传思想工作基础。

大学生思想政治教育是高校宣传思想工作的一项重要内容。由于当代大学生群体是伴随着互联网成长起来的,他们思想活跃,主动积极,并敢于创新和实践行动,因此,对其思想动态、情感就更加难以把握,对其未来行为和言论更加难以预测。而大数据给思想政治教育提供了呈现和开发利用信息的方法,以全面收集学生网上、日常活动等海量信息为前提,通过加工和综合处理使之转化成有效信息的基础上,进行分析、判断、过滤、提纯,使之成为有价值的“思想状况大数据库”,进而达成对教育对象的全面认识和准确把握。

(二)丰富宣传思想工作方法。

高校身处国家意识形态工作的前沿,在这个“人人都有麦克风”的全媒体时代,如何加强网络舆论引导,巩固扩大宣传思想阵地,已经是势在必行。要预测分析引导舆情,首要条件是对各种关联的数据进行分析计算。在大数据的支撑下,突破了传统数据时代片面化、单一化、静态化的思维,定量研究、定性研究、数学模型等许多新的研究工具和方法都可以利用,可以将看似无关紧要的舆情数据纳入分析计算的范围,从而使舆论引导工作更富科学性、前瞻性和有效性。

(三)创新宣传思想工作方式。

随着信息技术的发展,海量的数据影响着人们的工作和生活,对新闻生产方式也产生了广泛的影响,数据新闻应运而生。“数据新闻”,也被称为“数据驱动新闻”,简而言之,就是一种新闻生产方式,对大量的数据和信息进行分析、处理,运用可视化和叙事化的手段,创作出一种新的新闻报道方式[4]。当前,高校校报、广播等传统媒体的生存环境正面临着十分严峻的考验,而受众正向以互联网为代表的新媒体迁移,而数据新闻正是在电子媒体上才能得以呈现。数据新闻通过可视化的技术呈现出来,使得新闻有了新的叙事的方法,它的私人订制化、受众可参与新闻创作的特点,是目前数据新闻与其他图文新闻所不一样的地方。

三、大数据时代宣传思想工作面临的主要问题

当前,我国“大数据”技术的开发应用,相比欧美等发达国家相对滞后,在高校宣传思想领域引入相关的理念和技术,还属于理论研究和实践起步阶段,并存在诸多难点。

(一)战略认识有待深化。

如今,高校信息化建设正经历着由简单到复杂、由单一到多元、由局部到整体的全方位一体化的发展过程。数据分析、数据挖掘等技术,在招生、就业、教学、科研、人事、财务、资产、图书借阅等方面逐渐开始尝试运用,尽管这种探索还是不成熟的、浅层次的。但在宣传思想工作领域,“稳、怕、守”的心理普遍存在,“探、闯、试”的劲头不足。面对新时代、新形势,在树立大数据思维、应用前沿技术、推进方式方法创新上面缺乏机遇意识和前瞻眼光,在顶层设计、资源配置、宣传发动等方面的工作基础还比较薄弱,借助“大数据”为宣传文化工作提档升级仍需凝聚共识、汇聚力量。

(二)技术平台有待完善。

近年来,随着移动互联网以及物联网等新技术的兴起,学校师生主动产生和由设备自动收集的信息越来越多,如微博、微信等社交信息,各类搜索点击记录信息等。这些信息的有效挖掘和分析,对开展宣传思想工作有着非常重要的意义。但是上述信息存在着数据量大、结构复杂、产生频率快的特点。由于缺乏统筹规划,许多职能部门各自为政,不少应用系统之间没有统一的技术和数据标准,数据不能自动传递,缺乏有效的关联和共享,从而形成“数据孤岛”。在需要连接多个数据源的情况下,数据的提取非常困难,而复杂的在线分析几乎无法实现。

(三)人才队伍有待加强。

大数据是一个综合性课题,需要不同层级的人才。麦肯锡公司预计,美国到2018年深度数据分析人才缺口将达14万~19万人,能够分析数据帮助公司获得经济效益的技术及管理人才有150万人的缺口。中国能理解与应用大数据的创新人才更是稀缺资源[5]。目前,高校大多数宣传思想工作者的学科背景都属于文史类,大多数人仅仅是利用互联网获取资料、捕捉师生思想行为的信息,通过对微博、微信、QQ空间、贴吧、论坛等新媒体的简单运用开展思想教育和行为引导,但对于深层次的多级舆情信息,师生针对某一事件评论反映出的情绪变化、行动性暗示等信息无法通过大数据、互联网等相关知识和技术深度挖掘,这在很大程度上影响着宣传思想工作与大数据时代的契合。

四、做好大数据时代宣传思想工作的几点建议

(一)加强领导,为大数据时代的宣传思想工作提供坚实组织保障。

大数据建设是一项有序的、动态的、可持续发展的系统工程,必须加强顶层设计,搞好宣传发动,以促进建设过程中各个环节的规范有序。一是做好大数据规划。高校要利用制定“十三五“规划这个有利时机,做好宣传思想工作大数据发展的顶层设计,明确大数据发展的战略目标、战略任务和战略重点,统筹推进相关数据中心及基础数据库建设。二是加大资源投入。大数据背后是一系列的数据挖掘、数据存储、数据分析、数据显示、数据安全等步骤,每个环节都需要大量人财物投入。三是加大宣传教育力度,培养数据意识和数据素养。创新内容、形式和途径,把大数据专业知识列入高校宣传思想系统领导干部、工作人员教育培训考核重要内容。

(二)整合资源,为大数据时代的宣传思想工作提供一流技术平台。

数据只有不断流动和充分共享,才有生命力。一是建立统一的数据标准。要牢固树立“大宣传”意识,规范数据管理的方法、流程、定义,统筹和整合宣传思想领域各方面异源异构性信息数据,实现各业务模块间的数据库的集成、交换和共享,消除“信息孤岛”。二是建立严格的数据管理制度。制定信息采集和管控、敏感数据管理、数据交换、数据权益等领域的大数据管理规章制度,明确大数据采集、使用、开放等环节涉及信息安全的范围、要求和责任。三是拓宽大数据挖掘获取渠道。加大与人民网、新华网、新浪、腾讯、百度、凤凰网等主要网站的合作,通过合作模式获取后台关键数据。

(三)创新机制,为大数据时代的宣传思想工作提供强大智力支撑。

没有一流的人才队伍,做好大数据时代高校宣传思想工作将是一句空话。因此,不断创新机制,通过多种途径和形式,开发培养一支大数据人才队伍,提高宣传思想工作的能力势在必行。一要发挥高校学科优势,协同科研单位、媒体机构、政府部门力量,开设专门的数据科学学科,加强各学科人才的交叉培养,重点培养综合掌握统计学、计算机学、管理学、新闻传播学等各方面知识的复合型人才,打造一支规模宏大的大数据人才队伍。二是利用“聘任制”,不断吸引社会专业人才进入高校宣传思想工作系统。三是通过购买服务的方式,短期租赁高精尖大数据技术人才为我所用,不断健全高校宣传思想工作大数据技术人才体系。

参考文献:

[1]赵国栋,等.大数据时代的历史机遇[M].北京:清华大学出版社,2013.

[2]维克托・迈克・舍恩伯格,肯尼斯・库克耶,著.盛杨燕,周涛,译.大数据时代[M].杭州:浙江人民出版社,2013.

[3]马奔,毛庆铎.大数据在应急管理中的应用[J].中国行政管理,2015(3).

第8篇:大数据时代的定义与特点范文

【关键词】大数据;思想政治教育;现代化

一、大数据的定义及特点

研究机构Gartner定义“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。然而,在各国提倡下、各行业创新发展过程中,目前所说的“大数据”不仅指巨量数据本身,也包括采集数据的工具、平台和数据分析系统。维克托・迈尔-舍恩伯格及肯尼斯・库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Variety(多样)、Value(价值)、Velocity(高速),具体表述即为数据体量巨大、数据类型繁多、总价值巨大但有效价值密度低、处理速度快。由此可见,想要在创新中发展,必然要优化利用大数据。

二、大数据时代的机遇与挑战

在传统的高校思想政治教育工作中,核心是政治,最为显著的教学方式是课堂授课式灌输思想,教育成功的决定性因素是教育工作者的道德素质和理论水平。而现代化的思想政治教育的本质是为人民服务,确立以人为本的发展性教育理念,要以科学发展观指导大学生思想政治教育现代化建设,保证教育工作的主客体同步现代化及教育内容和教学方式的现代化。

收集并整理符合时展要求的教育内容是思想政治教育工作的核心型任务。在互联网和电子科技迅捷发展的过程中,大量的文字信息或是图片视频资料几乎全部以电子数据方式进行传播、留存。根据大数据的4V特点,巨量的不同存储类型的思想政治教育内容能够轻而易举地被数据处理系统统一收集并使用大数据技术进行处理。大数据技术意味着从单一领域所包含的各种各样类型的巨量数据集合中,快速获得有价值信息,即符合现代化教育要求的内容。由此可见,大数据时代运筹帷幄的关键核心在于合理应用大数据技术,做到节约大量人力物力的资金成本,同时短时高效地完成数据处理过程并获取最终成果。

对思想政治教育工作者而言,能够从大数据中快速获取大量现代化教学内容是令人振奋的。然而,如何从大数据中发掘出适用于当代大学生思想政治教育专题活动的具体内容和教学方式则是一个不容忽视的现实的挑战。这就要求高校思想教育工作者脚踏实地地进行设计一套全新的、现代化的、对大学生思想政治觉悟和思维辩证能力具有深远影响的解决方案。

三、现代化高校思想政治教育工作的创新

(一)树立大数据意识,建立教学资源库

高校的思想政治教育工作者和大学生群体作为教育改革创新中的主客体,被时代赋予了不可推卸的重任。90后的高校大学生从小便熟知计算机应用及互联网的发展历程,因而对于科技新生产物接受程度极高,与此同时,作为网络和新媒体的主要应用者,大学生群体习惯于在生活及学习中借用电子科技处理问题或获取知识。在先进的思想氛围烘托下,高校思想政治教育工作者在教学过程中提倡树立大数据意识有基本立足点。实践是检验真理的唯一标准,因此,建立网络教学资源库作为必不可少的教育创新之举,能够弥补传统的“填鸭式”教学模式中的缺陷,为学生自主学习思想政治内容提供了科技便利,实现资源共享。

(二)提高数据分析能力,补充数据核心内涵

大数据分析的五个基本方面,在不同领域的数据分析应用中会有不同的参考方向。教学资源的数据分析中需要采用的是语义引擎(即在大数据分析广泛应用于网络数据挖掘的过程中,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和内容匹配),及数据质量和数据管理(即大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实性和价值性)。建立网络教学资源库的根本是语义引擎的设置,需要将文本、图片或视频资源与教学内容的标签关键词信息一一对应。在保证数据信息内容一致性的同时,更为重要的是数据质量和数据管理,不能忽略教育资源中文本、图片或视频资源中的隐含信息,在信息处理过程中要补充数据核心内涵。

(三)补充教育实践活动,实现思教创新改革

现代化的高校思想政治教育是指在全球化进程和我国社会主义社会建设过程中,人们的生活方式和思想观念发生了根本的变化,因此思想政治教育需要结合新时代的变化进行改革,要以理论观点结合创新实践活动实现从传统思想政治教育活动到现代化的理论与实践相结合的转型。高校思想政治教育工作者可以使用微信、微博等新媒体在日常工作中对学生进行潜移默化的思想引导,同时借助新媒体后台的数据统计分析学生们在思想政治学习过程中期待的教学内容及实践活动,或是开放网络教学资源库,让学生们自主参与“DIY红色经典路线”、“学生自主课堂展示教学”等专题活动,使网络资源与实践活动取长补短,完善现代化思想政治教育的创新。

作者简介:高志远(1986-),男,籍贯:辽宁省营口人,研究方向:大学生思想政治教育。

参考文献:

[1]张海滨,郭霞n.论大数据时代背景下的高校思想政治教育.教育教学论坛.2014(12).48-49

[2]孙长虹.大数据时代高校思想政治教育面临的挑战与对策.重庆理工大学学报(社会科学),2014(9).143-145.

第9篇:大数据时代的定义与特点范文

关键词:大数据;理论,技术

中图分类号:TP311.13

1 大数据的定义

大数据本身是个比较抽象的概念。顾名思义,其表示数据规模的庞大与数据类型的繁多。近年来,随着数据量的爆炸式增长,数据的计量已不能采用人们熟知的GB或TB为单位进行描述,而是以PB(1PB=1024TB)、EB(1EB=1024PB),甚至ZB(1ZB=1024EB)为计量单位。以利用电子显微镜构建大脑中的突触网络为例。据估算,大约1mm3大脑的图像,数据量超过1PB,如此大的数据量无法采用传统数据库工具进行内容抓取、管理和处理。

目前,有关大数据的定义尚未统一,主要有以下3种。

《互联网周刊》的定义为:大数据涵盖了人们在大规模数据的基础上可以实现而在小规模数据的基础上无法实现的事情。也就是说,大数据让我们以1种前所未有的方式,通过对海量数据进行分析来获取蕴含巨大价值的产品、服务或深刻的洞见,最终形成变革之力。

相关研究机构认为:大数据是需要采用新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据类别上看,大数据是指无法使用传统流程或工具处理或分析的信息。其定义了那些超出正常处理范围和大小、迫使用户采用非传统方法处理的数据集。

IBM通过分析大数据的特征对大数据进行了定义,认为:类型(variety)、数量(volume)和速度(velocity)是构成大数据的3个主要内容。其中,类型指数据中包含结构化、半结构化和非结构化等多种数据形式;数量指收集和分析的数据量非常大;速度指数据处理速度要足够快。

2 大数据的产生

现如今,全球数据量正以前所未有的速度增长着,且随着全球无线网络覆盖区域的不断扩大,以及移动设备的出现与发展,数据的增长已不再受时间、地点的限制。从目前来看,大数据量的积累与增长主要经历了3个阶段。

信息化管理被动产生数据阶段。企业为实现信息化管理,需存储、处理企业办公文件、财务报表、员工信息等数据。这一过程催生了数据库的出现,如超市库存系统、银行交易记录系统、企业员工医疗信息系统等。因此,办公信息化促成了人类社会数据量的首次大飞跃。这个阶段产生的数据的主要特点是:数据伴随着一定的运营活动而产生,并记录到数据库中。例如,企业人力资源部门录入员工的基本信息,员工的信息就出现在企业数据库中,这种数据产生方式是被动的。

社交网络与便携设备主动产生数据阶段。在这一阶段,数据量的增长来自2个方面:一是开放社交网络的出现,如微博、人人网,使用户主动在社交网络上发表自己的看法,分享自己关注的内容,这些过程产生了大量的数据;二是以智能手机、平板电脑为代表的新一代移动设备的出现,这些易携带、全天候接入互联网的设备使人们能够更方便地发表自己的想法等。这些都促成了人类社会数据量的第2次大飞跃,这一阶段产生的数据是主动的。

人、机、物三者深度融合自动产生数据阶段。随着物联网的发展,传感器的使用越来越广泛,人类制造的极小的、具有处理功能的传感器等设备部署到世界的各个角落,或对社会的各种活动进行监控,或对人类身体健康状况进行随时随地的监测,这些过程都产生了大量数据,形成了人类社会数据量的第3次大飞跃,这种数据的产生是自动的。

综上所述,数据的产生经历了从被动到主动,再到自动的过程,其中,自动产生数据的过程是形成大数据的根本原因。

3 大数据的关键技术

3.1 文件系统。针对数据存储,文件系统需要考虑3个问题:高性能共享性、文件的管理和保护、重复数据的处理。尤其是在面对海量文件时,上述问题更加凸显。例如:美国谷歌公司设计开发了谷歌文件系统GFS――(Googlefilesystem)。

GFS是构建在大量廉价服务器之上的可扩展的分布式文件系统,主要针对文件较大、且读远大于写的应用场景,采用主从(Master-Slave)结构,通过数据分块、追加更新(append-only)等方式实现了海量数据的高效存储。同时,谷歌公司选择电价较低的地点建立存储库,从而降低了运行成本。

3.2 数据库系统。大数据的特点决定了数据库系统需解决的问题:第一,数据量规模巨大。大数据时代的数据量远远超过单机所能容纳的数据量,因此,必须采用分布式存储方式。这就需要系统具有很好的扩展性,即适应大数据的数据库系统应当具有良好的横向扩展(scale-out)能力。第二,数据异构性。结构化数据、半结构化数据、非结构化数据均是大数据的重要组成部分。高效地处理多种数据类型是大数据时代数据库技术面临的重要挑战之一。第三,设计理念要不断创新。面对多种类型的数据,不可能存在统一的数据处理方式,这就要求新型的数据库系统以不断变化的角度对待数据。

数据分析与处理技术。传统的针对结构化数据进行挖掘的理论已日臻成熟,但是针对大数据时代的数据类型,则需要开发新的数据处理与挖掘技术。

(1)Hadoop数据处理平台。目前,数据的分析与处理尚没有绝对合适的工具。Hadoop是当前最为流行的大数据处理平台。Hadoop最先是模仿GFS和Mapreduce实现的云计算开源平台。对Hadoop改进并将其应用于各种场景的大数据处理已经成为业界新的研究热点,主要的研究成果集中在Hadoop平台性能改进、高效查询处理、索引构建和使用、基于Hadoop的数据仓库构建、Hadoop与数据库系统的连接、数据挖掘、推荐系统等方面。

(2)深度学习技术。深度学习通过建立类似人脑的分层模型结构,对输入数据逐级提取从底层到高层的特征,从而建立起底层信号到高层语义的映射关系。近年来,谷歌公司、淘宝网、百度公司等掌握大量行业数据的企业都投入了大量人力物力,开展深度学习技术的研发工作,并在语音识别、图像、在线广告等领域取得了显著进展。起初,简单的机器学习模型比复杂模型更有效的观点十分流行。例如,简单的线性模型可能比复杂的神经网络模型拥有更大的应用空间。然而,近几年深度学习的快速发展促使人们开始重新考虑这个观点:或许较复杂的模型或表达能力更强的模型才能充分发掘出海量数据中蕴含的价值;也许运用更复杂的深度学习模型能够从大数据中发掘出更多有价值的信息和知识。

挖掘大数据的价值需要深度模型。如语音识别作为大数据机器学习的重要问题之一,在声学建模部分,训练样本达到了几亿到十几亿,谷歌公司在1项语音识别实验中,发现训练后的模型对训练样本和测试样本的预测误差基本相当,然而一般训练样本的误差要显著小于测试样本,出现这样的结果只有1个解释,就是大数据中包含丰富的信息维度,即便训练后的高容量复杂模型,也处于欠拟合的状态,所以,大数据需要深度学习。

与采用人工规则构造特征的方法相比,利用大数据来深度学习和构建特征,能够刻画出大数据内更加丰富的信息。在未来发展中,深度学习在大数据中的应用将会越来越普遍。

相关硬件设计与制造技术。硬件架构不同会极大地影响系统的处理效率。数据处理速度在很大程度上取决于处理过程中处理时间最长的节点。如果集群中硬件的性能差异过大,会导致大量的计算时间浪费在性能较好的服务器等待性能较差的服务器的过程中。在这种情况下,服务器的线性增长并不一定会带来计算能力的线性增长。

针对这些问题,有2个技术问题需要关注:一是不同结构的硬件之间的匹配,以发挥最大使用率的技术问题;二是硬件设计技术的提升。

为提升数据的处理能力,需要使用高性能硬件。例如,近年出现的基于闪存的固态硬盘(SSD)采用新型寻址方式和硬件结构,从硬件层为存储系统结构的革新提供了支持,为计算机存储技术的发展和存储能效的提高带来了新的契机。

参考文献:

[1]席晔文,杨金民.基于双布鲁姆过滤器的数据排重技术[J].计算机工程与应用.

相关热门标签