前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的统计数据分析主题范文,仅供参考,欢迎阅读并收藏。
伴随着课程改革的实施,如何提升实际教学效果和学生的学科素养、优化教育流程、有效的传授知识内容、合理的训练学科能力、恰当的传授思想方法成为了一个重要的课题。“教”与“学”之间的相辅相成,对实际学情的理解和分析,因材施教,适时调整策略并进行针对性教学,是实现学科知识、学科能力和学科方法目标的必经之途。把握教育教学的有效性与长效性,促进学生的多元化发展、培养创新意识,塑造高素质人才则是教育教学的必然之由。
关键词:计量数据 历史知识结构 历史学科能力 历史学科素养 教学策略
中图分类号:G630
引言:
对于高三教育教学和备考复习而言,如何有效的讲授知识内容结构、如何合理的训练学科能力、如何恰当的传授思想方法、如何培养和提升学科素养是一个多解的命题。要实现这四个角度的教学目标,切实培养学生的学科素质,促进学生的多元化和全面性发展,优化教育效果,提升教学的有效性,那么实事求是的理解学情、科学规范的训练、及时调整教师“教”与学生“学”之间的差距,是一个不得不面对的技术问题。
在下文中,笔者不揣浅陋,拟就如何有效利用计量统计数据分析学情和调整教学策略的话题略呈管见,希冀能抛砖引玉,敬请方家指正。
维度一:科学规范的命制试题
没有教育科学就没有科学的教育,没有规范的学科训练就没有规范的学科思维。规范的训练可以通过多种途径来实现,比如课堂教学、研究型学习、史料研读及遗址考察等,但是最简单而且教学中使用最多的还是试题测试。科学的试题、科学的测试、科学的训练对学生的历史学科能力训练和历史学科规范及学科素养的提高是非常有帮助的。
命制科学规范的试题可以建构一个计量统计的模型,以分析学情和调整教学策略,能更好的实现教学目标。
如何才能命制一套较为科学和规范的试题?这不仅需要了解测量技术的相关问题,还需较为深厚的历史学科专业知识,除此之外,教育经验和教材的熟悉度也是很重要的一个因素。
一般来讲,一套试题从结构上需要体现以下几个考察的方向:学科基本知识、学科基本能力、学科素养的体现。而学科方法则是沟通上述三个角度的桥梁。
从历史学科基本知识角度讲:内容应该包含高考考察的七个结构模块,即古代中国、近代中国、现代中国、古希腊罗马、近代世界、现代世界及选修模块。从历史学科能力角度讲:文科综合能力“考试大纲”将历史学科的高考考核目标表述为获取和解读信息、调动和运用知识、描述和阐释事物、论证和探讨问题四个能力要求①。具体来讲包括再认再现历史知识、重构历史时序、获取有效历史信息、理解分析历史事物、运用历史方法论证、评价历史问题。历史学科素养则是如何应运历史知识发现新问题、研究新问题、解决新问题的灵活体现,是创新意识培养的必然内核。培养素养“要关注知识的消化,关注它是不是发生了有益于吸收、转化为有益于生命的酶化”。②“把死知识变活,把活知识变灵”③是知识酶化的主要目的。
规范的命制试题后,设计测试的双向细目表,建立一个完整的测评模型后便可指导解决实际教学中有效利用计量统计数据分析学情和调整教策略的问题了。
下文,笔者拟就操作中的实例来讲述具体过程,以期抛砖引玉。在模型样本选取上,将本年级文科班分成程度好和程度一般两类。以较好的为参照系,在程度一般的学生中进行测评和策略检验,找出规律并进行验证。
维度二:利用分数段分布的统计数据分析学情以调整策略
下图为分数段数据,来源于分组中程度一般的学生。测试后将数据做出统计,结合数据分析学情,调整策略,矫正教学。
分数段分布数据可知如下学情:分数段的分布百分比可确定学生的层次、明晰学生是属于基本史实掌握不牢固的“知识型不足”,还是史学能力不到位的“技能型不足”;确定教学中重能力还是抓基础的后续教学重心、调整教学内容的难易度与深浅度。
上图所示,中间分数段的学生人数较多,反映出大多学生对于基础知识和主干知识的记忆和理解比较好,可继续加强和保持效果,确保不出现知识型问题。但非主干知识掌握不牢,如:课本小字部分(即自学内容)、非重点内容。
高分段人数较少,反映出技能型不足的问题。表现为运用历史方法论证、评价历史问题能力不足和逻辑思辨能力、史学理论方面存在欠缺。通过试卷作答细化分析发现语言阅读能力和理解能力不足及规范答题能力欠缺。
根据学生的情况和数据分析采取如下策略:为了能提高高分段人数比重,调整教学难度和深度,通过课本知识的延伸与拓展,扩大学生的知识容量和理论储备,关注史学研究的新成果,以专题讲座的形式讲解技能与方法,以提升学生表现出来的能力欠缺。指导和训练答题技巧,训练其在作答过程中语言简明、清晰、严密、要点化、序号化的能力。
在下阶段训练跟踪并在同一模型与难度下测试,如图所示:
数据统计后,发现效果较明显。中间分数段的学生人数百分比稳中有升,高分段人数明显增多,运用历史方法论证、评价历史问题能力和逻辑思辨能力、史学理论方面存在欠缺等技能型不足的问题得到修正。
维度三:利用能力结构得分统计数据分析学情以调整策略
、针对此问题调整策略,借鉴语文方法,训练学生语言能力,如找准关键词、对有效信息的提炼和概括、历史要素与关键词的关系,题干限定语的查找等。训练学生的逻辑分析能力,提高学生对历史名词内涵与外延的准确理解度,强化学生的逻辑思考习惯,训练其推理、判断、论证的能力。系统讲授历史学科方法与理论,如历史唯物论、辩证法、现代化史观、全球史观、文明史观、社会史观、生态史观;树立学生结合时代特征分析历史的思维、史论结合及生产力标准等论证和评价历史的方法。对学生数据进行统计与分析,进行逐个训练与指导。
在下阶段训练跟踪并在同一模型与难度下测试,数据统计后,发现效果较明显。如上图所示,样本学生中获取有效历史信息和运用历史方法论证、评价历史问题两个方面的不足得到修正,进步明显。
维度四:利用知识结构统计数据分析学情以调整策略
知识结构的统计分析,可知道学生哪些知识掌握的不到位,以便及时查漏补缺。由于知识模块范围太大,在具体分析的时候可以结合双向细目表及各小题得分率仔细分析,准确找到薄弱环节,再结合能力结构统计数据,分析是知识型问题还是能力型问题,以便更好的掌握学情。
上图所示,样本学生在“古代中国史”和“现代中国史”两个方面存在不足。针对此问题,查找薄弱环节,详尽分析,调整应对策略,对相关知识进行补充和加强,如古代经济,古代科技等。理清中国古代史的时代特点及线索和发展脉络,按通史时序梳理知识。现代中国史教学中注重时政与历史的关联,补充中国现代史中文化、教育、科技等相关内容。利用对世界史的知识优势,将中国史与世界史交叉起来,通过中外关联与对比,来加深理解。对基础知识进行再强化,加深知识的理解程度与深刻性。
在下阶段训练跟踪并在同一模型与难度下测试,数据统计后,发现效果较明显。如上图所示,样本学生中“古代中国史”和 “现代中国史”两个方面的不足得到修正,进步明显,超过了参照系的学生。
五:结语:
课程改革实施下如何提升教学效果和学生的学科素养,优化教育流程,有效传授知识、合理训练学科能力、恰当传授思想方法,培养学生的学科规范和学科素养、传授技巧和思维方法、挖掘和熟练教材、夯实主干知识的根基、关注史学研究动态、渗透史学研究的理论和方法、广泛学习和借鉴、科学的训练、多元的思考、重视培养学生能力和史学素质可能是一个必须面对的话题。“教”与“学”之间的相辅相成,对实际学情的理解和分析,因材施教,适时调整策略并进行针对性教学,是实现学科知识、学科能力和学科方法目标的必经之途。把握教育教学的有效性与长效性,促进学生的多元化发展、培养创新意识,塑造高素质人才则是教育教学的必然之由。
引注:
①《2013年文科・课程标准实验版・考试说明(考试大纲)》
由于广药是当初多家企业组成集团公司,在各企业中都存在各自的系统。这就决定了它们产生的营运数据的不同。为了提高企业的整体管理水平、适应社会能力和竞争能力,高效快捷地进行数据分析处理和预测建立一套用来“了解和掌握市场信息和企业内部的变化情况和根据市场的变化迅速调整优化企业的产品结构和市场策略”的系统就非常重要。
系统目标
帮助企业对内部和外部的营运数据进行收集、归纳、量化,并提供多种数据分析、数据挖掘工具,辅助企业管理者进行科学分析预测,提高企业的数量化管理水平、提高的市场竞争力。主要功能有:关键指标分析系统、财务分析系统、销售分析系统、生产计划和库存分析系统、预测分析系统及多元统计分析系统。
体现价值
实现了关键性分析数据的集中存储、管理和共享
广药以往用于关键性经营指标分析的数据由于存放在不同平台的业务系统数据库中,没有统一的管理和规划,几乎没有通用性和和兼容性,很难实现总部的管理利用,只能由人工进行统计和计算,时间的延误和计算的误差无法避免,分析准确性较差。在广药数据分析系统的实施与使用后,由系统自动从不同的业务系统平台定期收集所需相关数据,存储于数据库中,实现了数据的集中存储、管理和共享。
日常经营统计数据的灵活获取
以往,要获得不同分析角度不同侧重点的可靠性指标需要进行大量重复工作,难度较大,很难做到及时准确,同时,分析角度稍有变化现有的数据可能就无法再次利用。在使用广药数据分析系统后,系统提供的多视角分析和数据挖掘功能使用户多角度灵活分析其产品可靠性指标的需求得到充分满足。同时,通过对分析角度之间任的意组合、对分析角度任意层次间的灵活钻取和对分析结果的切片等操作,保证了灵活、高效地获取所需的可靠性指标信息。
使得管理者可以从复杂的观察工作中抽身而出
以往是管理者想知道目前企业经营状况,须叫有关人员统计大量报表,让后管理者再从报表中查找问题。上了广药数据分析系统后,只要通过设定企业日常关注的一些重要指标及这些指标异常的参数,每天本模块会自动检查这些指标,发现问题即时提示。这样管理者每天只需打开电脑,指标告警模块会提示目前企业共有有几个异常,如果没异常,管理者可腾出时间处理别的事情;如发现异常,告警模块会指导管理者迅速找到问题的所在。
对客户进行信用管理
以往对客户仅是人为的管理,人的主观因素较多,造成上一笔款还没付就向他提供又一笔货或向一个小客户提供一大笔货等等情况,而且有些客户在集团的一家企业中是长期欠款,而在集团的另一家企业中还能得到提货。对于以上的情况,在使用广药数据分析系统后就再也没有发生过。
用户评价
广药集团应用广药数据分析系统后,应收款周转天数由70天下降到50天,对于提高企业的整体管理水平和科学决策水平起到了积极的作用。
关键词:大数据;统计学;数据分析;抽样理论;理论
重构随着信息科学技术的高速度发展,当代获取和储存数据信息的能力不断增强而成本不断下降,这为大数据的应用提供了必要的技术环境和可能.应用大数据技术的优势愈来愈明显,它的应用能够帮助人类获取真正有价值的数据信息.近年来,专家学者有关大数据技术问题进行了大量的研究工作[1],很多领域也都受到了大数据分析的影响.这个时代将大数据称为未来的石油,它必将对这个时代和未来的社会经济以及科学技术的发展产生深远的意义和影响.目前对于大数据概念,主要是从数据来源和数据的处理工具与处理难度方面考虑,但国内外专家学者各有各的观点,并没有给出一致的精确定义.麦肯锡全球数据分析研究所指出大数据是数据集的大小超越了典型数据库工具集合、存储、管理和分析能力的数据集,大数据被Gartner定义为极端信息管理和处理一个或多个维度的传统信息技术问题[23].目前得到专家们认可的一种观点,即:“超大规模”是GB级数据,“海量”是TB级数据,而“大数据”是PB及其以上级别数据[2].
一些研究学者把大数据特征进行概括,称其具有数据规模巨大、类型多样、可利用价值密度低和处理速度快等特征,同时特别强调大数据区别于其他概念的最重要特征是快速动态变化的数据和形成流式数据.大数据技术发展所面临的问题是数据存储、数据处理和数据分析、数据显示和数据安全等.大数据的数据量大、多样性、复杂性及实时性等特点,使得数据存储环境有了很大变化[45],而大部分传统的统计方法只适合分析单个计算机存储的数据,这些问题无疑增加了数据处理和整合的困难.数据分析是大数据处理的核心过程,同时它也给传统统计学带来了巨大的挑战[6].产生大数据的数据源通常情况下具有高速度性和实时性,所以要求数据处理和分析系统也要有快速度和实时性特点,而传统统计分析方法通常不具备快速和实时等特点.基于大数据的特点,传统的数据统计理论已经不能适应大数据分析与研究的范畴,传统统计学面临着巨大的机遇与挑战,然而为了适应大数据这一新的研究对象,传统统计学必须进行改进,以继续和更好的服务于人类.目前国内外将大数据和统计学相结合的研究文献并不多.本文对大数据时代这一特定环境背景,统计学的抽样理论和总体理论的存在价值、统计方法的重构及统计结果的评价标准的重建等问题进行分析与研究.
1传统意义下的统计学
广泛的统计学包括三个类型的统计方法:①处理大量随机现象的统计方法,比如概率论与数理统计方法.②处理非随机非概率的描述统计方法,如指数编制、社会调查等方法.③处理和特定学科相关联的特殊方法,如经济统计方法、环境科学统计方法等[7].受收集、处理数据的工具和能力的限制,人们几乎不可能收集到全部的数据信息,因此传统的统计学理论和方法基本上都是在样本上进行的.或者即使能够得到所有数据,但从实际角度出发,因所需成本过大,也会放弃搜集全部数据.然而,选择最佳的抽样方法和统计分析方法,也只能最大程度还原总体一个特定方面或某些方面的特征.事实上我们所察觉到的数据特征也只是总体大量特征中的一小部分,更多的其他特征尚待发掘.总之,传统统计学是建立在抽样理论基础上,以点带面的统计分析方法,强调因果关系的统计分析结果,推断所测对象的总体本质的一门科学,是通过搜集、整理和分析研究数据从而探索数据内部存在规律的一门科学.
2统计学是大数据分析的核心
数的产生基于三个要素,分别是数、量和计量单位.在用数来表示事物的特征并采用了科学的计量单位后,就产生了真正意义上的数据,即有根据的数.科学数据是基于科学设计,通过使用观察和测量获得的数据,认知自然现象和社会现象的变化规律,或者用来检验已经存在的理论假设,由此得到了具有实际意义和理论意义的数据.从数据中获得科学数据的理论,即统计学理论.科学数据是通过统计学理论获得的,而统计学理论是为获得科学数据而产生的一门科学.若说数据是传达事物特征的精确语言,进行科学研究的必备条件,认知世界的重要工具,那么大数据分析就是让数据最大限度地发挥功能,充分表达并有效满足不同需求的基本要求.基于统计学的发展史及在数据分析中的作用,完成将数据转化为知识、挖掘数据内在规律、通过数据发现并解决实际问题、预测可能发生的结果等是研究大数据的任务,而这必然离不开统计学.以大数据为研究对象,通过数据挖掘、提取、分析等手段探索现象内在本质的数据科学必须在继承或改进统计学理论的基础上产生.
统计数据的发展变化经历了一系列过程,从只能收集到少量的数据到尽量多地收集数据,到科学利用样本数据,再到综合利用各类数据,以至于发展到今天的选择使用大数据的过程.而统计分析为了适应数据可观察集的不断增大,也经历了相应的各个不同阶段,产生了统计分组法、大量观察法、归纳推断法、综合指标法、模型方程法和数据挖掘法等分析方法,并且借助计算机以及其他软件的程度也越来越深.300多年来,随着数据量以指数速度的不断增长,统计学围绕如何搜集、整理和分析数据而展开,合理构建了应用方法体系,帮助各个学科解决了许多复杂问题.现在进入了大数据时代,统计学依旧是数据分析的灵魂,大数据分析是数据科学赋予统计学的新任务.对于统计学而言,来自新时代的数据科学挑战有可能促使新思想、新方法和新技术产生,这一挑战也意味着对于统计学理论将面临巨大的机遇.
3统计学在大数据时代下必须改革
传统统计学是通过对总体进行抽样来搜索数据,对样本数据进行整理、分析、描述等,从而推断所测对象的总体本质,甚至预测总体未来的一门综合性学科.从研究对象到统计结果的评判标准都是离不开样本的抽取,完全不能适应大数据的4V特点,所以统计学为适应大数据技术的发展,必须进行改革.从学科发展角度出发,大数据对海量数据进行存储、整合、处理和分析,可以看成是一种新的数据分析方法.数据关系的内在本质决定了大数据和统计学之间必然存在联系,大数据对统计学的发展提出了挑战,体现在大样本标准的调整、样本选取标准和形式的重新确定、统计软件有待升级和开发及实质性统计方法的大数据化.但是也提供了一个机遇,体现在统计质量的提高、统计成本的下降、统计学作用领域的扩大、统计学科体系的延伸以及统计学家地位的提升[7].
3.1大数据时代抽样和总体理论存在价值
传统统计学中的样本数据来自总体,而总体是客观存在的全体,可以通过观测到的或经过抽样而得到的数据来认知总体.但是在大数据时代,不再是随机样本,而是全部的数据,还需要假定一个看不见摸不着的总体吗?如果将大数据看成一个高维度的大样本集合,针对样本大的问题,按照传统统计学的方法,可以采用抽样的方法来减少样本容量,并且可以达到需要的精度;对于维度高的问题,可以采取对变量进行选择、降维、压缩、分解等方法来降低数据的复杂程度.但实际上很难做得到,大数据涵盖多学科领域、多源、混合的数据,各学科之间的数据融合,学科边界模糊,各范畴的数据集互相重叠,合成一体,而且大数据涉及到各种数据类型.因此想要通过抽样而使数据量达到传统统计学的统计分析能力范围是一件相当困难或是一件不可能的事.大量的结构数据和非结构数据交织在一起,系统首先要认清哪个是有价值的信息,哪个是噪声,以及哪些不同类型的数据信息来自于同一个地址的数据源,等等,传统的统计学是无法做到的.在大数据时代下,是否需要打破传统意义的抽样理论、总体及样本等概念和关系,是假设“样本=总体”,还是“样本趋近于总体”,还是不再使用总体和样本这两个概念,而重新定义一个更合适的概念,等等.人们该怎样“安排”抽样、总体及样本等理论,或人们该怎样修正抽样、总体、样本的“公理化”定义,这个问题是大数据时代下,传统统计学面临改进的首要问题.
3.2统计方法在大数据时代下的重构问题
在大数据时代下,传统的高维度表达、结构描述和群体行为分析方法已经不能精确表达大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验”的统计方法受到了质疑,而且从“数据”到“数据”的统计模式还没有真正建立,急切需要一个新的理论体系来指引,从而建立新的分析模型.去除数据噪声、筛选有价值的数据、整合不同类型的数据、快速对数据做出分析并得出分析结果等一系列问题都有待于研究.大数据分析涉及到三个维度,即时间维度、空间维度和数据本身的维度,怎样才能全面、深入地分析大数据的复杂性与特性,掌握大数据的不确定性,构建高效的大数据计算模型,变成了大数据分析的突破口.科学数据的演变是一个从简单到复杂的各种形式不断丰富、相互包容的过程,是一个循序渐进的过程,而不是简单的由一种形式取代另一种形式.研究科学数据的统计学理论也是一样,也是由简单到复杂的各种形式相互包容、不断丰富的发展过程,而绝不是完全否定一种理论、由另一种理论形式所代替.大数据时代的到来统计学理论必须要进行不断的完善和发展,以适应呈指数增长的数据量的大数据分析的需要.
3.3如何构建大数据时代下统计结果的评价标准框架
大数据时代下,统计分析评价的标准又该如何变化?传统统计分析的评价标准有两个方面,一是可靠性评价,二是有效性评价,然而这两种评价标准都因抽样而生.可靠性评价是指用样本去推断总体有多大的把握程度,一般用概率来衡量.可靠性评价有时表现为置信水平,有时表现为显著性水平[8].怎么确定显著性水平一直是个存在争议的问题,特别是在模型拟合度评价和假设检验中,因为各自参照的分布类型不一样,其统计量就不一样,显著性评价的临界值也就不一样,可是临界值又与显著性水平的高低直接相关.而大数据在一定程度上是全体数据,因此不存在以样本推断总体的问题,那么在这种情况下,置信水平、可靠性问题怎么确定?依据是什么?有效性评价指的是真实性,即为误差的大小,它与准确性、精确性有关.通常准确性是指观察值与真实值的吻合程度,一般是无法衡量的,而精确性用抽样分布的标准差来衡量.显然,精确性是针对样本数据而言的,也就是说样本数据有精确性问题,同时也有准确性问题.抽样误差和非抽样误差都可能存在于样本数据中,抽样误差可以计算和控制,但是非抽样误差只能通过各种方式加以识别或判断[910].大多数情况下,对于样本量不是太大的样本,非抽样误差可以得到较好的防范,然而对于大数据的全体数据而言,没有抽样误差问题,只有非抽样误差问题,也就是说大数据的真实性只表现为准确性.但是由于大数据特有的种种特性,使得大数据的非抽样误差很难进行防范、控制,也很难对其进行准确性评价.总之,对于大数据分析来说,有些统计分析理论是否还有意义,确切说有哪些统计学中的理论可以适用于大数据分析,而哪些统计学中的理论需要改进,哪些统计学中的理论已不再适用于大数据统计研究,等等,都有待于研究.所以大数据时代的统计学必是在继承中求改进,改进中求发展,重构适应大数据时代的新统计学理论.
4结论
来自于社会各种数据源的数据量呈指数增长,大数据对社会发展的推动力呈指数效应,大数据已是生命活动的主要承载者.一个新事物的出现,必然导致传统观念和传统技术的变革.对传统统计学来说,大数据时代的到来无疑是一个挑战,虽然传统统计学必须做出改变,但是占据主导地位的依然会是统计学,它会引领人类合理分析利用大数据资源.大数据给统计学带来了机遇和挑战,统计学家们应该积极学习新事物,适应新环境,努力为大数据时代创造出新的统计方法,扩大统计学的应用范围.
参考文献:
[1]陈冬玲,曾文.频繁模式挖掘中基于CFP的应用模型[J]沈阳大学学报(自然科学版),2015,27(4):296300.
[3]卞友江.“大数据”概念考辨[J].新闻研究导刊,2013,35(5):2528.
[5]靳小龙,王元卓,程学旗.大数据的研究体系与现状[J].信息通信技术,2013(6):3543.
[6]覃雄派,王会举,杜小勇,等.大数据分析:Rdbms与Mapreduce的竞争与共生[J].软件学报,2012,23(1):32-45.
[7]游士兵,张佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论,2013(2):165171.
[8]李金昌.大数据与统计新思维[J].统计研究,2014,31(1):1017.
关键词:计算机;统计;数据信息
中图分类号:F22文献标志码:A文章编号:1673-291X(2009)17-0250-02
在计算机“医院信息系统”网络工程实行以来,基层医院医务统计工作者用得最多的两个模块是“医务统计”和“数据上报”。“医务统计”模块是“医院信息系统”中为医务统计部门设计的医务统计系统,该系统分三大模块,即日统计模块、月统计模块和年统计模块;“数据上报”模块是“综合统计信息服务系统”内容之一,该模块充分利用“医院信息系统”工程各网络站运转工程中产生的数据资源进行核查和上报。在医院统计工作中,对大量数据的整理分析的基础正是源于“医务统计”、“数据上报”所提供的数据,我们更可以依次为医院管理层提供可供参考的有价数据,为医院的今后发展作出贡献。
医院医务统计工作除了要收集、统计各类资料,监测、分析客观描述与分析本单位医院管理工作情况,介绍先进经验,提出存在问题,提出科学管理的可靠的数据依据与合理建议,向医院各级提供依据和进行统计分析外,还有一个十分重要的工作就是完成规定的院内统计和各类报表。要想即时、准确、规范地做好各类报表工作,作为统计工作者必须支持保证“医院信息统计”工程中的“医务统计”模块和“数据上报”模块的完整性,笔者认为,可以从以下几个方面着手:
1.坚持每日做好对各医疗部门日志报表的监测工作
这是工作中必须要做好的,运用“医疗统计”子系统,在规定的时间内做好后台统计工作,对每天的日志报表进行调整。与之相关的其他模块有:住院登记、门诊挂号、病案编目和各科室的护士站以及医技科室,其中,尤为重要、需要区别处理的是门诊医生工作日报的出诊和复诊新、旧病例必须在统计员的监督下保持一致性,对于疾病名称的填写要实事求是,不要漏报以造成不必要的数据流失。同时,对每天可能发生数据变化的部门进行及时沟通,补充统计资料使得统计工作做到及时、准确、完整。
2.每日做好对各医疗部门日志报表的整理、分析工作
这项工作首先要录入当日所收集报表信息。录入前统计室对流动日报每天都要做到三查:一查病人数,按各科系核对入院、出院、死亡、转科人数;二查编码,即医疗体系编码、科室编码和医师编码;三查分类,即病种分类和类别分类是否正确,以备计算输出报表时查对。
3.做好对每个出院病人的病案编目工作
出院病人信息录入,这项工作与各个医生工作站、护士工作站、门诊住院登记、住院收费系统、病案编目系统等发生联系,也就是说以上这些工作质量的好坏,直接影响到数据的质量。首先,门诊住院登记录入首页基本信息,项目应完整;其次,护士工作站应按时、按规定做好病人出院的工作,在这里特别要注意的是对出院、撤销出院、转科等要特别慎重,往往就是日报、月报出错的主要原因;再次,各医生工作站按规定要求,录入填写好各项首页内容,注意应完整、准确。
住院收费处做好收费结账统计工作后,由病案室再出院三日内进行病案编目工作,完成全部病案首页编目工作后,同时,对已经编目的病案进行核对、检查。
统计人员应对每天的病案编目情况进行检查,随时检出超三日归档的病历,按时进行病案编目工作。
4 .做好辅助科室及门急诊、手术等综合数据录入工作
为了能在“医务统计”和“综合查询”模块中能够准确看到每天医技工作情况,各个医技科室对每天产生的医技工作情况进行数据录入(在“综合统计服务系统”中“病案统计查询”系统可以进行查看)。统计人员进行数据核准,同时,在“上报数据”系统中进行基本情况、护理情况、医技情况等数据录入工作。
5 严格进行数据核查及核对病历首页
“数据上报”系统的数据内容来自两个途径,一个是通过手工录入实现数据上报,另一部分是通过网络采集实现数据上报。各类数据上报必须对通过网络采集实现上报的数据进行核查,对数据上报系统中病案首页单项或全项进行核对,对上报首页数据进行逐项检查,找出数据出错源头并进行修改。这里值得强调的是,首先,注意各个数据项目间的逻辑关系;其次,为规范数据统一数据上报,使用“数据上报”前,必须与“医院信息统计系统”工程所使用字典的项目、名称一致,费用分类字典必须按四版常规要求设置;再次,抢救次数及抢救成功判定,分清一次、二次抢救成功的概念及抢救无效失败和慢性消耗性疾病临终抢救的概念;再有病案室出院病案是否按时归档入机,编码是否符合编码原则;最后,分清主要诊断、第一诊断、最后诊断的概念,正确选择和确定主要诊断。
核对病历首页,病历是统计数据的基础,而病历首页是统计工作最重要的信息员。保证录入首页的数据质量十分重要。质量不高会给日后工作带来无法补救的损失。在首页录入计算机之前,由统计室再填写住院卡片过程中,对所有病历逐份进行审查,发现问题及时纠正,保证数据准确可靠。首页项目繁多,逐项核对确有困难,检查时应全面完整、重点突出。主要做到七对:一对病案号,防止出现缺号、错号;二对疾病诊断,关键是主要诊断的选择和确定;三对疾病编码,发现漏项或有疑问时及时与病案室联系;四对治疗结果,尤其是注意非病人和产科病人治疗结果的判定;五对诊断符合情况,主要核对判定的是否正确;六对手术情况,核对切口分类、愈合等级和手术日期是否有误;七对住院费用,发现漏项及时补上。以上几点的准确与否直接影响到统计准确及病种质量和分析,甚至影响到领导的决策。
做好“医务统计”和“数据上报”的前提必须是“医院信息系统”正常运行,网络管理技术人员必须保证网络正常运行和网络维护系统完善,系统软件计算公式正确。流程优化按照“以病人为中心”的现代医院管理思想进行业务流程优化,通过统一单据信息、统一数据来源、简化记账过程、减少单据流转环节,从而最大限度地提高医院运行效率和医院管理水平。
【关键词】数据统计分析;港口管理;重要作用
一、前言
在港口的日常管理中,考虑到货物的流动性较大,并且货物种类较多的特点,要想保证港口的日常管理取得积极效果,满足港口管理需要,就要在港口日常管理中积极引入数据统计分析手段,实现对港口货物的有效统计,保证港口管理能够有第一手的数据作为支撑,为港口分析整体效益和制定经营策略提供有力保证。从这一点来看,港口管理中应对数据统计分析引起足够的重视,应从港口管理实际出发,分析数据统计分析对港口管理的重要作用和意义,将数据统计分析作为重要的管理手段,提高港口管理的整体效果。
二、数据统计分析手段在港口管理中的应用
目前来看,数据统计分析手段在港口管理的应用主要表现在以下几个方面:
1.数据采集与数据传输。目前各港货物吞吐量的统计已基本实现了数据采集的信息化,做到数据文件传输的准确及时。如厦门港已开发了港口生产统计管理系统,各码头公司也相应拥有自己的统计系统,数据源直接可以通过码头一线操作系统传入码头公司内部统计管理系统,加工处理后,再和管理局的生产统计系统对接。
2.数据存储。由于要做到详细掌握每条船每批次货品的具体数量和储存情况,每月每年累计下来,将会形成大量的基础数据,因此必须配备专门设备进行存储。厦门港已在港口生产统计管理系统投入使用后,配套配备了专门的存储器进行处理和存储,并进行定期的维护。
3.数据分析应用。该层可以进行统计查询、统计服务,通过对数据库中的各种数据进行分析、统计、建模、归类等工作,?可以为管理人员提供决策支持,帮助管理人员做出好的决策,提供了联机分析处理和数据挖掘服务。
三、数据统计分析对港口管理的重要作用
从数据统计分析手段在港口管理中的应用来看,数据统计分析对港口管理的重要作用主要表现在以下两个方面:
1.数据统计分析能够综合分析港口的吞吐量。数据统计分析的具体做法是对港口货物的种类和数量进行全面计算,并最终形成每日或者周期性的通过图表等形式反映出来的吞吐量完成情况,为港口日常管理提供直观的数据支撑。所以,数据统计分析对分析港口吞吐量具有重要作用。
2.数据统计分析能够正确计算港口的整体效益。在数据统计分析中,不但能够计算港口的吞吐量,还能计算港口的整体经营收入。通过固定的收费项目和收费标准,计算出港口的基本收入情况,进而验证港口的实际收入是否存在出入,形成对整体经营管理效益的合理核算。所以,数据统计分析手段对港口的日常管理具有重要的促进作用。
四、数据统计分析对港口管理的重要意义
考虑到数据统计分析的作用及其在港口管理中的应用,数据统计分析手段对港口的管理具有重要意义,具体表现在以下几个方面:
1.数据统计分析对提升港口经营管理水平具有重要意义。港口作为重要的交通货运枢纽,其经营管理水平不但关系到港口的整体效益,还关系到港口的未来发展。为此,通过港口数据统计分析直接反映港口的实际经营情况,对提升港口经营管理水平具有重要的促进作用和指导意义。
2.数据统计分析对促进港口持续健康发展具有重要意义。考虑到数据统计分析的重要作用,在港口日常管理中,数据统计分析手段得到了充分应用。由此可见,数据统计分析为促进港口持续健康发展具有重要意义。
五、结论
通过本文的分析可知,在港口日常管理中,数据统计分析作为一种基础手段应该得到应有的重视。为此,我们应立足港口管理实际,认识到数据统计分析在港口管理的中作用和意义,重点做好统计分析工作,满足港口管理需要,为港口发展提供有力的支持。
参考文献:
[1]白雪洁.中国港口经营与管理发展特征和趁势[J].港口经济, 2009年04期
[2]高素争.港口统计数据质量的评价分析[D].大连海事大学, 2010年
[3]黄始坚.完善企业统计制度促进施工企业发展[J].企业科技与发展,2011年14期
[4]黄杰.沿海港口吞吐量与国民经济关系研究[D].大连海事大学,2011年
关键词:数据备份;数据去重;数据碎片;去重技术
中图分类号:TP309.3 文献标识码:A 文章编号:1674-7712 (2012) 18-0043-01
一、数据去重技术
(一)全局去重和局部去重技术。可分为全局去重和局部去重技术。全局去重主要应用在有多个去重设备的环境里,它会对多个已去重的库、目标和站点进行数据的比对,然后对重复数据进行删除。它可以删除多节点间的冗余数据。使用全局去重后,如果数据从第一个节点传递到第二个节点,那么第一个节点存储过的数据,第二个节点将不再存储。
局部去重则不考虑多个节点间的冗余数据,它仅删除同一台机器、同一个客户端、或同一个存储节点上的冗余数据。
这两种去重方式,全局去重的压缩率要比局部去重的压缩率高,因为全局去重比局部去重所删除掉的重复数据要多;但是局部去重的开销要比全局去重的开销少,因为全局去重需要对多个存储节点上的数据进行查询,删除多个节点之间存在的重复数据,其带来的开销也会比局部去重大很多。也正是因为这一点,很多公司,实现的全局去重所关注的存储节点数也非常有限的。
(二)文件级和数据块级(字节级)去重技术。根据重复数据的鉴别粒度,数据去重可分为文件级的去重技术(单实例存储技术)和数据块级(字节级)去重技术。
文件级的重复数据去重技术使用哈希函数计算每个文件内容的哈希值,然后根据索引检查需要备份的文件属性,并与已经存储的文件进行比较,如果两个文件的哈希值相同,则删除相同内容的文件来减少数据存储量,节约存储空间,如果哈希值不同,就将其存储。
数据块级的重复数据去重技术是在子文件的级别上运行的,主要通过删除内容相同的数据块来减少数据量。正如它的名字,文件或数据流通常在这里会被分割为较小的数据块(每个供应商检查的数据块大小不一,一些供应商固定数据块的大小,一些则使用不同大小的块,数据块的平均大小一般在4KB~8KB左右),然后使用哈希函数求取每个数据块的哈希值,这些哈希值常被称为数据块指紋。数据块指紋是用来唯一标识一个数据块的,具有相同指紋的两个数据块即为重复数据块。
这两种去重技术,其中文件级的重复数据去重技术能达到的压缩率较低,因为它不能删除相似文件之间的重复数据。而数据块级的数据去重技术由于不仅能删除相同的文件,还能删除相似文件中的相同数据块因此有较高的压缩率,它是目前为止使用最广泛的数据去重技术。但是,由于数据块级去重技术的鉴别和删除粒度更细,因此它带来的开销也比文件级的更大。
(三)在线去重技术和离线去重技术。根据重复数据的删除时间划分,数据去重技术可分为在线去重和离线去重技术。
在线去重技术是指在数据到达存储设备之前就对重复数据进行查找和删除,存储设备上不存储重复的数据块。由于査找和删除重复数据这一过程发生在数据写的关键路径上,因而数据去重会对存储系统的存储性能产生一定的影响,严重的会影响存储系统的数据写性能。
离线去重需要额外的存储空间做缓冲,是属于后处理的去重模式,在运行时不影响上层应用程序的存储性能,但需要额外的存储空间做缓冲区。
目前,数据备份系统一般都使用在线去重技术,因为当前的数据备份系统都不是实时应用系统,对存储的性能要求也不高。如果是实时关键应用或对存储系统存储性能要求很高,离线去重技术更合适。
(四)源端去重和目标端去重技术。依据重复数据的删除地点,数据去重可以分为源端去重技术和目标端去重技术。
源端去重技术即在数据的发送端,一般指客户端,对数据进行查找并删除重复的数据。这种去重技术非常适合广域网宽带较低的网络环境下的备份系统,由于重复的数据不参与传输和运输,它可以减少传输的数据量,加快数据传输。但由于源端去重需要现在发送端进行查找和删除重复数据,所以会占用源端机器资源,进而影响源端机器的应用性能。
目标端去重即在数据的接收端、存储端,查找并删除重复的数据。由于目标端去重只需要在目标端,即服务器端对重复数据进行查找和删除,不需要源端进行任何去重处理。因此在数据传输带宽较高的情况下,目标端去重更占优势。
二、数据去重技术面临的挑战
(一)数据去重的可扩展性尚待提高。随着数据量的不断增长,数据备份系统仍需要应对超大数据量这一问题。因此如何在多个存储节点之间快速去重仍然是热点研究问题。如何充分利用现有的存储设备、建立多层次索引、减少去重开销,快速查找重复数据仍是数据去重技术面临的最大的问题。
(二)如何减少数据去重引起的数据碎片有待解决。数据去重需要删除多个文件之间的重复数据,首先由于现有大多数去重方法都倾向于利用数据冗余局部性来缓解数据去重过程中所遇到的磁盘瓶颈,提高数据去重吞吐率,但是随着数据碎片逐渐增多,备份数据流之间出现的数据冗余局部性会减弱,从而导致依赖数据冗余局部性来缓解数据去重中磁盘瓶颈的数据去重方法失去其有效性,严重影响数据去重的性能。
其次由于数据去重的处理,一个文件产生的大量数据碎片将导致一个文件的读取需要大量的磁盘1/0,甚至可能每读取一个数据块都需要一次磁盘1/0,大大降低了系统的数据读性能。
(三)数据去重技术有待规范化。数据去重方法是否有效性取决于数据集中重复数据的特征,目前有很多种数据去重方法。然而,要使数据去重技术能广泛应用,无疑需要对目前所使用的数据去重技术以及对应数据集的特征通过一个统一的标准来规范,给研究者提供一个标准,给存储用户提供规范的接口,以便于未来数据去重技术的推广。
本文通过探讨当前数据备份系统中的几种数据去重技术的原理及其优缺点,分析目前数据去重技术所面临的挑战,希望能为数据备份系统中的数据去重技术做一个总结和展望,以期未来更好的去应对去重技术面临的挑战。
【关键词】 高速数据通信 系统加固技术 分析 研究
在系统设计中数据通信是经常可见到的,特别是在现代的数字系统中的影响力已不容忽视,是其中的关键技术之一。系统加固是由设计系统的可靠性的概念而发展起来的,与数据通信相比,系统加固对于平常的系统来说是不重要的,但是在星载设备的设计中它的作用是非常重要的。由于航天技术的飞速发展,系统加固技术也日益成为学者们关注的重点。
一、高速数据通信技术的发展现状
在以前的电路设计中比较常用的是并行总线技术,它是以TTL或CMOS电平为基础的,它的接口比较简单,易于实现。但是随着设计处理机的复杂度的加大和数字技术的飞速发展,并行总线技术也就显得不灵活,串行总线正在取而代之。串行总线是在发送数据时,运用串化的方法将数据按照高低位次串在一条数据链上进行发送,这样做就使系统互联的复杂度得到了简化,使数据传输的质量得到了很大程度的提高。但是之前的串行技术还是会受到干扰,直到出现了低电压差分信号(LVDS),使数据传输的速度有了新的突破,为高速数据通信的发展提供了新的途径。
二、系统加固技术的研究现状
系统加固是通过加入设计或者是改变元件,使系统抵抗核子辐照或者宇宙辐照的功能得到加强,使设备在运行时的稳定性增强并且提高设备的使用寿命的一种技术。
导致航天电子设备出现故障的一个重要的原因就是辐照,它是由于各种宇宙的射线和核爆炸造成的。到目前为止,抗辐照加固技术的研究主要有两个方面:运用模型仿真和实际的实验验证。我国虽然很早之前就对抗辐照加固技术进行了研究,但是由于条件不允许,对辐照的伤害原理和模型方面以及抗辐照的方法方面研究的较多,而实际的实验进行的很少。
三、数据通信加固的研究
抗辐照系统加固的设计催生了数据通信加固的出现,数据通信加固与系统加固的目的是一样的,都是使系统的稳定性增强,但是与系统加固相比,通信的加固要简单一些,在无线的应用方面主要是运用信道编码使接受的误码率降低,在有线的运用方面是在传输中,改善信道的质量,使信号的传输质量提高。到目前为止,大多数的高速数据通信实现同步传输的方式都是运用信道编码调制技术,这样虽然可以使传输的速率和稳定性得到很大程度的提高,但是会使误码衍生。
四、辐照和数据通信对系统稳定性的影响
4.1 辐照对系统稳定性的影响
太阳辐射是空间辐射的主要因素,是由于太阳的活动造成的,它可以引起电子元件的损伤或者误翻转;银河宇宙射线也会对设备的电子元件造成损伤或者误翻转;捕获带是由地磁场和星际磁场的相互作用造成的,它在太阳缓变型时是很稳定的,但是当太阳发生爆发型活动时,捕获带内的粒子会激增并且爆发,使近地面的卫星发生故障。
4.2 数据通信对系统稳定性的影响
在系统的设计中大量数据和运算,需要更高的要求,数据通信也变得越来越重要,甚至影响到系统设计的成败。在分步处理的系统中,传输数据的质量会影响到下一步的工作,从而影响系统的效果,使系统的稳定性受到影响。串行总线使并行总线的缺陷得到了改善,提高了数据的传输速度和质量,提升了传输的距离。因此数据通信对系统稳定性的影响成了关键的因素。
五、研究的发展空间
现阶段由于技术条件的限制,我国对于高速数据通信与系统的加固技术的研究大多数只是内容方面的研究、分析和设计,而对于实践经历方面的研究很少,因此在以后的研究中,研究者们应该加强实践方面的研究。
六、总结
数字信息的处理和航天技术的发展,使系统设计面临着更大的挑战,更高质量、更高速度、更远距离的信息传输是现代数据通信的要求,而系统的稳定性也受到了很大的关注,提高系统加固技术也是一项非常重要的技术,对我国的航空航天事业等信息事业的发展有着很大的影响。
参 考 文 献
[1] 冯彦君,华更新,刘淑芬. 航天电子抗辐射研究综述[J]. 宇航学报,2010,(18):97-98
关键词 以太网技术;通信数据采集;移动互联网
中图分类号:TP274 文献标识码:A 文章编号:1671—7597(2013)022-053-1
1 以太网技术
中国有超过三分之一的人口使用互联网,内容消费驱动下的网络流量正呈线性增长趋势。这为中国的电信运营商和数据中心带来了巨大的挑战:如何快速部署高密度的网络设备,以提供更高的带宽和新的应用,来满足互联网用户多样化的需求;如何应对成本压力以及更好的实现用户流量管控。以太网具有价格低廉、稳定可靠、通信速率高、软硬件产品丰富、应用广泛以及支持技术成熟等优点,已成为最受欢迎的通信网络之一。近期的全新10/40 GbE以太网交换解决方案-StrataXGS Trident II系列,则被该公司视作在上述领域取得的空前突破。
2 基于以太网技术的通信数据采集方案体系建立
2.1 体系方案
基于以太网技术的企业数据采集网络是以国际标准工业控制系统规程为构架,以局域网和数据采集网为依托的实时监控管理系统,采用MIS层/监控层/现场层的网络体系,系统内数据传输采用安全可靠、技术成熟的TCP/IP协议和以太网技术,可直接接入企业的管理网,不需任何网关转换,实现数据信息的共享。
2.2 系统硬件选择
系统采用64位微控制器S3C451OB作为硬件设计的核心。
备用电源系统。当AC220掉电时,将自动切换到备用电池供电。可持续工作8个小时。
具有报警功能。按照设置的报警上、下限触发报警功能,并可以及时上报到中心(方法有GPRS/CDMA实时在线上报),且报警出现时自动按较小的间隔时间记录监测数据。
数据存储时间间隔可设置。历史数据存储间隔时间1-24小时设置,报警数据1-60分钟设置。
显示下端仪器的工作状态。数据采集仪自带8个按键、8位数码管以及8个状态指示灯。可在现场设置工作参数、指示设备的运行状态。
AD转换器。10通道,12位分辨率,光电隔离型。
外部通讯接口。RS232/RS485/HART协议,支持波特率1200-9600 bps。
操作系统。使用实时操作系统,完成现场数据采集、保存与无线数据上报等任务。
文件系统。引入了文件系统的技术对NandFlash的数据存取进行管理,大大地提高了历史数据存储和读取的性能。
2.3 系统软件设计
在系统的硬件做好之后,通过JTAG接口,使用H.JTAG调试软件和AXD对系统进行调试。系统的工作方式为,先将程序烧写入bootloader中,上电后程序首先从main程序入口开始执行,运行Bootloader,通过变量初始化,将以太网初始化映射到SDRAM中运行,然后通过信号处理、采集程序来完成以太网数据报收发,如果数据发生错误需要重新初始化。
2.4 系统主要功能
数据采集、传输一体化设计。GPRS实时在线功耗低,在线平均电流≤10 mA。支持域名解析功能。支持各家组态软件和用户自行开发软件系统。
3 基于以太网技术的通信数据采集方案的配套措施
3.1 强化采集设备的管理流程
在信息资源规划的基础上,建立统一信息分类编码,数据项齐全,为将来发展需要预留接口,杜绝手工操作,保证了数据的准确性。实现结算单自动生成,有效保证结算质量,提高结算速度。并与财务系统进行了接口,数据操作控制严密,防止了由于操作失误而引起系统内数据逻辑错误。可以监测用户进入、退出系统的时间、当前操作模块等,每一步增、删、改都有详细的记录。实现了与计算机IP绑定的功能,大大提高系统信息的安全性与稳定性。在公共管理领域,大数据将对政府部门的精细化管理和科学决策发挥重要作用,从而提高政府的服务水平。舆情监测、交通安防、医疗服务等将是公共管理领域重点应用领域。在零售行业,对消费历史数据的分析可以使零售商掌握客户的购物习惯,并实对市场动态做出应对。广告精准推送、商品促销策略制定及物流将是大数据在零售行业的主要应用领域。用户体验和用户黏性对于互联网公司来说是至关重要的测评指标,面对当今快速增长的海量互联网数据和复杂的网络社群关系,如何从中提取有价值信息,建用户模型,针对不同用户提供针对性产品,以此来提高用户体验,增加用户黏性,是当前互联网行业面对的主要挑战之一。社交网站、电商网站将是最需要大数据技术的两类网站,用户间关联性和消费行为是其关注的主要方面。
3.2 完善通信数据采集的政府管理
相关政府部门要积极帮助企业查找在用数据采集系统的薄弱环节,派专门的技术人员在现场对数据采集系统的配备、管理等方面进行指导,同时督促企业做好数据采集系统的自查工作。目前我国信息化应用水平参差不齐,政府不同部门、企业间都存在“信息孤岛”问题,阻碍了数据互通互联。若要推广大数据应用,首先要消除“信息孤岛”,这就需要政府部门在制定大数据发展战略时,要将数据标准问题放在重要地位加以解决。此外,数据安全问题在大数据时代将更加凸显,如何解决数据安全问题,将成为大数据能否健康发展的关键问题之一。而加强数据安全不仅是技术问题,更牵涉法律问题,因此针对数据安全的技术将成为大数据技术发展中一个最重要的分支。
总之,本文首先分析了以太网技术内涵与通信数据采集策略,建立了基于以太网技术的通信数据采集方案体系,实现了多个功能,最后提出了相关配套措施。
参考文献
[1]吕西臣,孙俊杰,等.基于嵌入式技术的新型高速多通道数据数据采集系统的研制[J].现代制造技术与装备,2012(5):15-18.
[2]代勇,李昌禧.基于嵌入式以太网接口的数据采集处理系统[J].微机发展,2010,15(5):125-127.
[3]盖国强.循序渐进Oracle数据库管理、优化与备份恢复[J].人民邮电出版社,2007,2(9):54-56.
[关键词]数据挖掘 时序回归算法 交通流量
[中图分类号] C37 [文献码] B [文章编号] 1000-405X(2014)-8-210-2
1引言
随着城市的发展,城市交通系统趋于智能化、自动化、复杂化,以交通信息的高度集成为基础,将计算机技术、传感器控制技术、信息技术和通信技术等综合利用的智能交通体系逐渐完善。信息技术的发展使我们对这个复杂系统有了更多的连续观察和记录其动态过程的可能性。例如,散布在交通网络上的视频检测系统、感性线圈、以及红外线检测系统提供了被检测路段的实时交通流信息;最近几年迅速发展的浮动车数据(即FCD,主要包括安装在出租车、公交车、和私车上的GPS定位记录)则更加全面和连续的提供了整个交通网络的实时交通流信息;正在被探索的个人手机定位数据有着详细了解居民出行特征和实时检测交通流的巨大潜力。这些信息采集手段共同产生了海量的实时动态交通信息。随之带来的就是海量交通信息的存储、管理、分析与共享问题。
2数据挖掘技术
数据挖掘技术就是从大量不完全的随机模糊数据中提取人类所需要的信息,将信息应用于人类的生产实践的过程。需要强调的是这些信息隐含在数据中,人事先不清楚,不了解,但信息的获取对于人们的生产实践有很大帮助。数据挖掘技术应用于交通流量分析一方面可以提取人们出行需求及客流时空分部信息,掌握客流规律,进行客流预测;另一方面可以评价一个城市甚至一个区域的交通规划,为城市建设提供依据;再者,从技术层面讲,数据挖掘技术已经成为多元实时动态的交通系统获取信息源的唯一方法。
数据挖掘技术是基于先验知识理论,作为前瞻的技术预测一个活动的趋势,他包括关联分析、聚类分析、分类预测、趋势分析。关联分析是将数据中某两个或者多个变量之间存在的一些重要的隐藏的规律找出来,找出关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。聚类分析是未定义训练样本,直接面向源数据,所有记录都根据其相似程度加以归类。分类预测是对历史数据建立模型,分析其类别属性,建立分组,再用新数据为自变量,获取因变量的变化趋势或值域范围。趋势分析是时序数据挖掘基本内容,他利用长时序的历史数据,寻找活动的发展规律及趋势。
本文利用出租车GPS数据,选择时序回归算法,通过分析连续的出租车GPS浮动车数据,创建数据挖掘模型预测连续列,分析其客流量变化特征和客流时空分布,探讨数据挖掘技术的交通流量分析中的应用。
3数据的采集、处理及结果
3.1数据的来源及获取
出租车客流分布可以最直观的体现一个城市地面交通系统情况,利用出租车客流时空分布解决复杂的城市交通问题是一个快速有效地手段。本节所用到的数据主要是车辆GPS实时数据信息。原始数据表主要保存了出租车上装配的GPS终端所采集的数据,这些数据包括车牌号、采集时间点、经度、纬度、车辆状态、车速、行车方向、空重车状态等。由于每辆车每分钟采集一次数据,每辆车每天的数据量庞大,同一城市同时运行的出租车达上万辆,如此海量的数据需要利用数据挖掘技术获取有用信息。
3.2数据处理及挖掘技术实现
首先利用微软SQL Server2005创建数据库项目,根据数据源向导创建连接到数据库服务器上的数据库。利用数据库编程语言对原始数据进行筛选、优化,然后利用SQL Server提供的时序回归算法创建数据挖掘模型预测连续列。
原始数据筛选、优化程序:
INSERT INTO [FCDdata].[dbo].[temp5]
SELECT ROW_NUMBER()over(order by [列 0],[列 3])Num,[列 0],[列 1],[列 2],[列 3],[列 7]
from [FCDdata].[dbo].[2011-8-4src_1TOtxt]
INSERT into [FCDdata].[dbo].[temp6]
SELECT ROW_NUMBER()over(order by b.[列 0],b.[列 3])Num,ID=b.[列 0],O_X=b.[列 1],O_Y=b.[列 2],O_T=b.[列 3]
from [FCDdata].[dbo].[temp5] a ,[FCDdata].[dbo].[temp5] b
where (b.[列 7]='true' and (b.Num=a.Num-1) and b.[列 7]!=a.[列 7])
INSERT into [FCDdata].[dbo].[temp7]
SELECT ROW_NUMBER()over(order by b.[列 0],b.[列 3])Num,ID=b.[列 0],D_X=b.[列 1],D_Y=b.[列 2],D_T=b.[列 3]
from [FCDdata].[dbo].[temp5] a ,[FCDdata].[dbo].[temp5] b
where (b.[列 7]='true' and (b.Num=a.Num+1) and b.[列 7]!=a.[列 7])
INSERT into [FCDdata].[dbo].[temp4]
SELECT ROW_NUMBER()over(order by ID)rn
ID
FROM [FCDdata].[dbo].[temp6]
Group By ID
GO
DECLARE @n AS INT =2;
DECLARE @id AS INT ;
WHILE @n
BEGIN
SELECT @id=ID FROM [FCDdata].[dbo].[temp4] WHERE rn=@n
INSERT into [FCDdata].[dbo].[F20110804]
SELECT ROW_NUMBER()over(order by a.O_T)TripID
,TaxiID=a.ID,O_X=a.O_X,O_Y=a.O_Y,O_T=a.O_T ,D_X =b.D_X ,D_Y =b.D_Y,D_T =b.D_T
FROM [FCDdata].[dbo].[temp6] a inner join [FCDdata].[dbo].[temp7] b on a.Num=b.TripID and a.ID=@id and b.ID=@id;
SELECT @n=@n+1
END
原始数据经过筛选优化后得到的数据排列如下:
其中TripID字段代表的是某一辆出租车在一天内载客的次数,TaxiID字段代表的ID编号,O_X、O_Y字段代表出租车在这一趟载客的起点经纬度坐标,O_T字段代表车租车载客起点的时间点,D_X、D_Y字段代表出租车在这一趟载客的终点经纬度坐标D_X的空重车状态,D_T字段代表车租车载客终点的时间点,其中时间全部使用UNIX时间戳格式,即从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数,不考虑闰秒。
3.3实验结果
本文随机抽取了2011年60多天的出租车数据,以某交通枢纽站为出租车上下客的位置,利用数据挖掘技术分析预测此枢纽站每日不同时间段的客流量,得到如图1。
根据已掌握的65天的浮动车数据建立了出租车一日内不同时段客流预测模型,当然,预测数据只能体现常规客流情况,不能预测特殊时期的客流变化情况。单日不同时段的客流模型反映出客流进站出现早高峰,出站出现晚高峰,客流高峰时两个小时的客流量在150辆左右。调查发现,这与该枢纽站的功能正相关,该枢纽站主要用于城际短途客流与城市客流的交换,该枢纽站主要是商务客流,早上乘坐长途车出差到周边城市,下午返回后乘坐出租车融入城市客流。
4结论与展望
通过对出租车GPS数据进行分析处理,利用数据挖掘技术,得到了城市某枢纽站的客流分析与预测结果,为城市交通规划、区域规划、出租车交通管理提供了数据支持。数据挖掘技术应用于交通流量分析具有可行性,研究结果可信。本研究成果得到以下的结论:
(1)通过数据挖掘技术得到的出租车在枢纽站内进出站的情况,可以一定程度上反映出租车在交通枢纽站内的出行需求,为出租车的调度提供科学依据;
(2)通过出租车的进出站时间分布,可以了解出租车在交通枢纽站的主要服务对象,为枢纽站的规划及客流预测提供依据;
(3)数据挖掘技术可以用于枢纽站内其他交通工具的客流预测,例如长途汽车、私家车、地铁等。参考文献
[1]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004.
[2]胡小文,冯均佳,基于GPS数据采集的出租汽车交通运行特点研究[J],城市交通,2007.
[3]芦方强,陈学武,胡晓健,基于公交OD数据的居民公交出行特征研究[J],交通运输工程与信息学报,2010.