公务员期刊网 精选范文 统计与信息论文范文

统计与信息论文精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的统计与信息论文主题范文,仅供参考,欢迎阅读并收藏。

统计与信息论文

第1篇:统计与信息论文范文

信息通信技术(ICT)是信息技术(IT)和通信技术(CT)相互融合后产生的一个新概念。信息技术侧重于管理和处理信息的相关技术,而通信技术则主要指用于沟通交换信息的相关技术。21世纪初,八国集团在冲绳发表的《全球信息社会冲绳》中认为:“信息通信技术是21世纪社会发展的最强有力动力之一,并将迅速成为世界经济增长的重要动力”。目前为止,信息通信技术的具体内涵仍具有争议,它不仅涉及信息的管理与处理,还包括信息的交换与共享,还将继续向智能化发展。目前ICT已经广泛应用于我们的日常生活当中,例如,IPTV、手机电视等,也应用于各专业领域,例如,远程工程监控、地理信息系统等。在本文将讨论的教育领域,ICT的应用也加速了进程,在学生都已掌握一定信息通信技术的前提下,大量的在线课程、在线辅导都已普遍使用。客观地讲,信息通信技术是现代社会的一种通用技术。

二、ICT在EFL教学中的应用优势

英国的教育电子期刊《课程领导》曾在2008年的头版回顾了17项有关ICT课堂应用效果的实证研究,绝大多数研究证实了ICT的课堂应用与学生的成绩表现为正相关。有些研究更进一步表明ICT的课堂应用对学生学习的能动性、独立性以及批判性均有促进作用。本文将重点从EFL学习者的学习环境、学习方式和学习能力三个方面讨论ECT在EFL教学中的应用优势。

(一)ICT的应用对EFL学习环境的影响

众所周知,语言环境对于语言学习者来说至关重要。EFL的教学特性决定了无法给学习者提供等同于母语的学习环境,让学习者在日常生活中随时随地地输入和输出语言。但ICT在EFL教学中的应用可以在一定程度上给学习者提供一个广泛而灵活的、虚拟而又真实的学习环境。正如前面提到的,由于我国的国土面积较大导致了教育资源分布不均的问题。刘俊教授的研究发现,EFL学习者的成绩表现与地缘分布有较强的相关性。处于东部发达地区的学习者成绩表现与偏远地区的学习者表现存在显著性差异。而ICT的应用给教师提供了远程教学的可能性,正如Holmes和Gardner所说ICT可以“消除地理限制”。此外,ICT的课堂应用也使教师和学生在学习地点、学习节奏和学习时间上享有更多的自由,真正让学习可以在任何地方和任何时间实现。而我国的人口规模也造成了班级容量普遍较大的问题,在教育资源匮乏的地区,甚至有八十至九十个学生为一个班级的情况。大容量班级造成教师很难满足学生的差异化学习需求。将ICT应用于课堂后,教师可以为学生提供在线单独辅导,学生也可以通过ICT的辅助来进行独立自主的学习,实现学习环境广泛化和灵活化。ICT在EFL教学中的应用,可以为语言学习者营造一个虚拟的学习环境,虽然目前还没有实验证明虚拟学习环境(virtuallearningenvironment,VLE)对学习者的成绩表现会产生积极的影响,但其辅助作用也不容忽视。通过ICT创建的虚拟学习环境给学生提供了一个获取信息和增加交流的平台。学生可以浏览自己感兴趣的英语网页,观看自己喜欢的视频,从而接触到英语为母语国家的真实语言使用情况。而且,学习者还能进一步了解英语为母语国家的价值观、思维方式,甚至肢体语言表达习惯,这些都是确保跨文化交际有效的重要因素。这种虚拟而又真实的语言学习环境,是对学生课堂学习和课本学习的必要补充。

(二)ICT的应用对EFL学习模式的影响

学习模式是一种持续的作用过程,反映出学习者的行为动因。学生的学习模式虽然因人而异,但仍摆脱不了教师为主导的单项模式,听、说、读、写单项练习的传统模式。ICT的应用可以激发出一系列新的学习方式,例如自主学习、混合学习、综合学习和无意识的学习。ICT的应用能显著改变教师与学生的角色。一方面,学生从学习的接受者变为参与者;另一方面,教师从课堂的主导者变为指导者、辅助者和组织者。增加学生学习的自主能动性并控制语言学习过程是交际型语言教学、任务型教学以及学习策略培养的中心目标。我国从事EFL教学的教师绝大部分都是英语为非母语的,因此,他们同时扮演学习者和教授者的角色。从这个角度来说,学生学习的自主能动性就更为重要。将ICT应用于EFL课堂能激发学生开展自主学习,同时学生可以根据自己实际情况调整学习地点、时间和节奏;而且ICT可以应用于整个语言学习过程,从提供信息到练习再到反馈,让学生全程掌控自己的学习。Holmes和Gardner提出了“混合学习”这一概念,指将数字化学习与传统学习相结合。Neumeier更进一步解释了在语言学习情境中混合学习是指在同一个学习环境中面对面讲授型学习和电脑辅助学习同时存在。ICT的应用不可避免地会产生混合学习这一模式。ICT的应用给教学方式带来了巨大变革,但并不意味着会贬低传统教学的作用,相反地,两者必须共同存在、相互作用才能实现有效教学这一最终目的。Clarke将学习分为三类:视觉学习、听觉学习和体验学习,简单地来说就是通过看、听和实践的三种学习方法。而EFL的学习强调的恰恰是听、说、读、写四种能力的培养,所以通过比较不难发现EFL的学习需要的视觉学习、听觉学习和体验学习的综合使用,而ICT的应用能很好地实现综合学习。英国东北部的蒙克西顿中学曾在1996年做过一项实验。学校鼓励学生与法国和德国的两所合作学校的同年级学生进行视频会面(videoconference)。经过五个月的试验,九年级的五个学生在班里十三个学生中表现突出,他们的口语交际能力包括口音、语调、流利度都有明显改进。参与到这项实验中的学生不仅通过视频会面增加了词汇量,同时听说能力也得到了极大的提升。ICT的应用可以让EFL学习者方便地进行听、说、读、写能力的综合学习。无意识的学习也是将ICT引入课程后的一个不可忽视的副产品。有数据显示,全球网页有84%的应用语言为英语,这意味着如果EFL学习者在使用英语网站检索信息,无论初始目的是否是进行语言学习,在无意中都会提高语言能力。Vogel在2001年进行了一项研究,他随机挑选了55名大学生作为样本,这些学生正在进行国际商务或跨文化的专业学习,因此外语对于他们来说也是专业学习的一个核心要素。研究结果显示所有的研究样本都使用网站在进行学习,当被问及他们使用网站是否是为了进行语言学习时,回答竟然惊人得一致,学习外语并不是他们使用网站的最初目的;而且,这些样本中没有人会说出一个专门提供外语学习的网站名称。随着ICT的发展,EFL学习者在浏览英语网页,观看英文电影等休闲娱乐过程中,也能进行无意识的学习,增加了学习时间也丰富了学习内容。

(三)ICT的应用对EFL学习能力的影响

相对于传授知识而言,教授学法更加重要,正如我国有句谚语常说“授人以鱼,不如授人以渔”。因为课堂为依托的教学只是很短的一个学习阶段,更长久的学习、知识更新都需要学习者自主学习来完成。众所周知,语言的学习需要长时间的积累,所以对于EFL学习者的学习能力培养也显得更为重要。ICT的应用将有助于培养学习者的专业技能、批判思维、交际能力以及自主解决问题的能力。如今ICT技能已经是学生学习和未来职业的必备能力之一。在本文之前的论证分析中着重强调了ICT应用对于语言学习的促进作用;而客观地讲,在语言学习的过程中引入ICT也促进了ICT技能的传播和发展。如果EFL学习者要通过ICT学习语言需要掌握的基本专业技能有文字处理、交际软件的使用、数据分析管理、演示文稿制作等。在荷兰曾实施过一个项目旨在促进语言学习者的ICT技能。这个项目包含若干模块,例如,使用文字处理软件用目标语写一封信然后通过电子邮件发给一位朋友;用目标语写一个有关自己对荷兰教育体系认识的报告,使用PowerPoint软件制作演示文稿,然后在班级里进行口头报告,最后通过交际软件与目标语国家的朋友分享报告。这个项目具有建设性和综合性,让语言学习者在学习语言的同时发展了ICT技能。批判性思维和自主解决问题的能力是学习者应具备的基本素质,甚至也是日常生活中的必备能力。ICT的应用让学生可以进行自主的学习,学生可以通过网络获取到大量的信息,但随之而来的是如何筛选分辨信息质量和可信度的问题。与纸质媒介相比较,数字信息需要学习者具备较强的批判性思维能力。此外,如前面所讨论的,ICT的应用让学习者可以方便地根据个人的喜好来安排学习时间、地点、内容和节奏,这也就进一步需要学习者有足够的能力来自主解决学习中遇到的问题。这里所说的问题不仅仅指学习语言本身遇到的学术性问题,也指在使用ICT过程中遇到的技术性问题。交际能力对EFL学习者至关重要,而电脑辅助实现的语言交际大致可以分为两类:异步和同步,ICT的发展让这两种交际都变得十分可行,正如Snyder所说ICT让语言交际变得“available,accessible,andusable”,从而达到提升交际能力的目的。人对人的传统交际方式,会让学习者在使用目的语交际的过程中缺乏自信,容易产生紧张尴尬等负面情绪,而通过ICT实现的无论是异步交际还是同步交际都会相应地减缓目的语使用者的负面情绪。例如,通过电子邮件的交际属于异步交际,教师应鼓励学生在这种交际过程中注重意思的表达而不是形式的准确性,何况目前的拼写和语法检查软件可以辅助学生进行形式上的检查,所以学生可以无负担地进行有效交际能力训练。视频会面作为同步交际的一种,无论从硬件、软件需求还是交际基本原则都会比异步交际更为复杂一些。在交际前,教师需要制定一些基本交际原则,比如机会均等、相互尊重等。通过ICT实现交际能力的提升还有网络论坛、在线聊天等多种形式,无论采用哪种具体形式,毫无疑问都会使EFL学习者的交际能力得到提升。

三、在我国EFL课堂应用ICT存在的阻碍

虽然ICT在EFL课堂上有众多的应用优势,但根据我国目前的国情和教育现状,要在EFL课堂上普及使用ICT仍然存在着一系列的阻碍,例如,教育政策、教育投资、ICT技术培训和通过ICT进行教学反馈等。

(一)国家教育政策和教育投资

国家教育政策就是教育实践者的指南针,要将ICT引入课堂不仅需要国家政策的支持,而且也需要大量的教育投资。从英国前二十年的经验不难发现,在推广ICT课堂应用的过程中,国家教育政策的支持尤为重要。Williams在1999年就将英国当时的教育政策总结为以促进ICT课堂应用为特点,通过加大对基础设施、硬件、在职培训、新入职培训的投入来实现。在基本政策的指导下,一些细节也相继制定,例如,英国的教师资格(QualifiedTeacherStatus,QTS)标准中就有规定直接与ICT相关。标准2.5指出获得教师资格的教师必须知道如何有效使用ICT,不仅在教学方面,也包括个人的发展方面。这种强制性的政策规定确保了教师在任教前都具备了ICT技能。有了指南针,还必须有动力才能前行,而教育投资就是实现ICT应用的直接动力。英国2005年花费与ICT课堂应用建设的投资为7亿英镑。正是因为拥有这样的教育政策和教育投入,英国的ICT课堂应用才得以发展迅速。我国的ICT课堂应用需要政府提供进一步的政策支持和投入,但由于我国的幅员辽阔和人口众多这一现状,鼓励社会力量参与教学投资或许也是一种解决办法。

(二)ICT技能培训

将ICT引入课堂的前提是教师和学生都必须具备一定的ICT技能。教师在使用ICT时是否有自信心直接影响到他接受ICT的程度和使用ICT的频度。ICT的应用是学生的学习更有自主能动性也就意味着学生会需要相应的ICT技能来实现自主学习。而我国目前的实际情况是教师和学生普遍缺乏ICT使用技能,这就需要教育政策制定者或教育领导者为教师和学生安排定期的、持久的ICT培训。

(三)通过ICT进行学习检测

ICT广泛应用于课堂后,学习检测的方式也会发生极大的改变。传统的检测方式是由老师通过课堂表现或考试来检测学生的学习情况,而ICT引人课堂后,电脑辅助检测就应运而生。这种检测的优点是可以提供即时反馈和详细指导,但缺点是题型仅局限于选择题或者填空题,而开放性问题并不适用。使用ICT进行学习检测的信度和效度也都存有争议。一方面,教师无法掌控学生的受检测过程,例如,学生花费多少时间完成检测。另一方面,学生ICT技能的差异性也会影响到他们的学习检测结果。我国的教育一直是应试型教育,如果采用ICT对学生进行学习检测,学生便会相应地调整学习习惯,在学习中更多地使用ICT。但是如果ICT仅仅停留在课堂应用的层面,与学习成绩评价没有相应衔接,学生长久以来形成的应试学习习惯就很难改变。虽然我国通过考试来选拔人才的模式备受争议,但目前为止仍然没有一个更好的替代模式产生,开始尝试使用ICT进行学习检测不妨为一种办法。

四、结语

第2篇:统计与信息论文范文

随着时代的发展,在较大程度上完善了通讯方式,用户要想获得各类信息,可以随时随地的获得,借助于信息网络的生产方式和工作方式,可以促使信息化社会体系得到构建。如今电网系统拥有更强的竞争力,将语音、视频和数据的应用给大部分融合了过来,促使电力企业员工统一服务的需求得到满足,并且可以有效应用到先行网络环境中。

(1)可以促使员工的工作效率得到有效提升

电力企业的规模在不断扩大,电力企业要将为人民服务的原则给贯彻下去,通过电力通讯,来对员工更好的服务,并且促使员工的工作需求得到随时随地的满足,以便更加快捷的开展工作,并且通过融合电力信息和电力通讯,将多样化的服务提供给员工,促使员工的工作效率得到提升。

(2)多样化的工作方式

通过融合网络,我国现代化电子商务的需求和移动办公需要能够得到满足,融合网络数据,可以应用企业信息通讯,员工可以更加灵活的工作,操作可以随时随地进行,并且将电脑以及手机等通讯工具应用过来,促使现代信息化操作功能得到实现。

2电力信息和通讯技术融合的技术环境分析

电力企业在网络技术日趋成熟和广泛应用的大环境下,将会越来越广泛的用于因特网的信息化业务管理内容。通过不断引入新型技术,统一应用多种业务和技术,电网将会朝着这个方向发展。通过有效融合电力信息和电力通讯,同时将一些先进技术应用过来;具体来讲,包括这些方面的内容:

(1)融合核心网技术

借助于IP/MPLS技术,来对核心网络进行构建,促使网络的可靠性、拓展性以及低延时性得到提高,带宽的利用率得到提升,同时,借助于先进的信息技术,以便更好地服务于员工。

(2)融合接入网技术

如今,接入网技术获得了较快的发展,有着更加广泛的应用范围,但是还没有完善全网宽带化。通过有效融合电力信息和电力通讯,借助于一系列的通讯条件,如因特网和WLAN等,介入多元化的宽带。就目前的情况来讲,要想促使发展需求得到满足,就需要充分重视光纤接入网和无源光网。

3电力信息和电力通信技术的融合策略

(1)对企业工作流程进行优化,统一整合

在企业发展的过程中,需要对信息通信调度室进行统一构建,这样调度人员就可以统一监控调度信息通信,分开调度室和机房,以便连通通信和信息,对统一的通信信息调度运行平台进行构建。借助于通信调度,信息工作许可就可以得到实现,向通信调度反馈信息的监控结果,这样就可以对信息传输状态及时了解。要想促使通信系统运行的统一调度、统一运行目的得到实现,就需要对通信信息的运行、维护管理工作等进行强化,对信息监控系统进行全方位的构建,对各个通信站的通信运作进行实时监测,并且监督反馈工作需要及时进行。

(2)将基础技术作为技术融合的立足点

第3篇:统计与信息论文范文

学生的学籍管理,是一项非常重要的工作,传统的管理主要依靠人工,大量的纸质档案,管理起来,是一项非常繁琐的工作。多媒体互联网技术的快速发展,为高校实施信息化管理提供了技术支持。大多数高校都已经建立了资金的信息化管理系统,例如,教务管理系统、学生管理系统、科研管理系统、人事劳资管理系统等。这些管理系统的广泛应用,极大地提高了办公效率,方便了师生获取相关信息。但是,校园内绝大多数老师和学生白天基本都在教室、操场等教学场地,不能及时通过台式计算机和有线网络获取网站上的相关学籍管理的信息,网站在传递此类消息的时候有滞后性。而且重要的、紧急的通知还不能够及时有效地传递。

2微信公众平台的申请认证

2.1微信及微信公众平台简介

腾讯公司,在2011年推出了一款可以进行及时通讯的微信软件,通过微信,用户可以在智能终端设备上实现及时通讯,传输内容包括语音、视频、文字和图片等。该软件的使用,仅需要耗费一定的网络流量,由于微信相较与其他及时通讯工具的一些优点,使得其使用数量增长很快,到2013年11月,腾讯公司的数据显示,其有效注册用户量超过了6亿,成为亚洲地区使用最广泛的及时通讯工具。在此基础之上,微信公众平台开始出现,用户可以通过使用微信公众平台,商品推介信息,创新营销模式。在这个微信平台上,可使用自媒体的方式进行营销。如商家通过申请公众微信服务号通过二次开发如对接微信会员云营销系统展示商家微官网、微会员、微推送、微支付、微活动,微报名、微分享、微名片等,已经形成了一种主流的线上线下微信互动营销方式。

2.2微信公众平台注册与推广

帐号申请:可以登录微信公众平台,进行注册公众微信账号,在经过后台确认通过后,即成为公共帐号用户。微信公众平台在申请使用时,其中文名称没有规则限制,可以重复进行申请使用,所以注册的中文名称可以是一样的,如果觉得别人的更好,可以将自己的公众账号改成一样的名字,或模仿其形式,完全是可以的。但是,具体的公众微信号则是唯一的,在使用过程中,是不可以修改的。

2.3平台类型介绍

到2013年8月5日为止,在经过几次升级之后,基本上形成了比较成熟的两种类型。服务号:公众平台的一种帐号类型,旨在为用户提供服务。服务号一个月内仅可以发送四条群发消息。服务号发给用户的消息,会显示在用户的聊天列表中。并且,在发送消息给用户时,用户将收到即时的消息提醒。订阅号:是公众平台的一种帐号类型,为用户提供信息和资讯。订阅号每天可以发送一条群发消息。订阅号发给用户的消息,将会显示在用户的订阅号文件夹中。在发送消息给用户时,用户不会收到即时消息提醒。在用户的通讯录中,订阅号将被放入订阅号文件夹中。但是两种类型可以进行开发,可以将订阅号开发菜单,服务号直接使用菜单。服务号可以申请自定义菜单。使用QQ登录的公众号,可以升级为邮箱登录,一个月可更换。使用邮箱登录的公众号,可以修改登录邮箱。编辑图文消息可选填作者。群发消息可以同步到腾讯微博。运营主体为组织,可在新注册的时候选择成为服务号或者订阅号。之前注册的公众号,默认为订阅号,可升级为服务号。

2.4方式

微信公众平台,主要是通过订阅和的方式进行消息推送,用户在使用过程中,可以通过添加公众平台或订阅号进行。对于感兴趣的内容可以按照关键词进行搜索。

2.5消息推送

一般的普通公众帐号,基本上都可以群发文字、图片、语音、视频等类别的内容,这个和个人普通微信账号几乎差不多,而通过认证的帐号,在使用过程中,其权限更高,所的内容模式更加多样,除了上述信息之外,还可以发送专题。在推送的打扰方面,用户订阅增加可能也会增加这方面的困扰。但是据笔者所知,下一版本的推送将全部取消声音提醒,以便把私人信息和内容消息区分。而最重要的,恐怕还是内容和品牌的选择问题———人们会喜欢少量而精致的资讯,而且随时可以离开。

2.6添加关注

微信公众平台无法主动去添加好友,只能被他人添加为好友,通过认证的用户可以在微信公众平台被搜索。在微信中点击朋友们添加朋友扫描二维码把需要关注用户的二维码图案置于取景框内添加关注的人。添加关注成为粉丝后,关注的用户即可通过微信公众平台发送消息与您互动。个人也可以通过搜索微信号的方法,来添加关注公众平台。但是公众账号平台不能搜索和添加任何人。此外,微信公众平台还进行了如下调整:增加高级功能选项,用户可以在编辑模式和开发模式中选择一个使用;设置选项里只保留账号信息、公众号手机助手2项,被添加消息自动回复、自定义规则回复2个重要功能选项被删除。

3测试与应用

经过在校园网和QQ群的广泛宣传,我们选择在部分系进行了应用测试,告知学生具体使用流程和方法。经过一个月的系统测试运行良好,得到了西安职业技术学院近半数在校生的关注,通过公众平台的学籍管理类通知消息的浏览量远超传统网站,在新生学籍注册和在校生学年注册,还有补考成绩登录期间,发挥了较大作用,有效地解决了校内查询终端不足的问题,达到了预期效果。

4结束语

第4篇:统计与信息论文范文

Abstract:Constructingfinancialcrisispre-warningsystemisthenecessitytothedevelopmentofcapitalmarketinChina.Thispaperanalyzesthepossibilityofconstructingfinancialcrisispre-warningsystemofthelistedcompaniesfromthreeaspects,theory,economicsandtechnology,andworksoutthenewthoughtandbasicframeworkofconstructingfinancialcrisispre-warningsystemsoastopreventandresolvethefinancialcrisisofthelistedcompanies.

关键词:上市公司财务危机预警系统

KeyWord:ListedcompanyFinancialcrisisPre-warningsystem

随着经济一体化,经营全球化的发展,企业的生存发展环境发生了很大变化,面临着很大的风险性和复杂性。作为企业改革先锋的上市公司,同样存在着潜在的危机。一旦财务危机无法化解,就会被戴上“ST”的帽子,以失败告终。为了有效化解财务危机,亟待建立适合我国上市公司的财务危机预警系统。

1财务危机预警系统

财务危机是企业丧失偿还到期债务的能力。财务危机预警系统正是为化解上市公司财务危机而建立起来的一种机制,财务危机预警系统还没有公认的定义,笔者在分析预警系统构成要素的基础上,将其定义为:财务危机预警系统是企业专门组织根据财务管理学、风险管理和统计学的相关理论,以企业的财务报表、经营计划、相关经营资料以及所收集的外部资料为依据,采用定性和定量的分析方法,建立预警分析机制,将企业所面临的经营波动情况和危险情况预先告知企业经营者和其他利益相关方,并分析企业发生经营非正常波动或财务危机的原因,挖掘企业财务运营体系中所隐藏的问题,以督促企业管理部门提前采取防范或预防措施,为管理部门提供决策和风险控制依据的组织手段和分析系统。简单的说,它是企业专门组织预警-报警-排警的有机管理过程体系。

2构建财务危机预警系统的重要性

从理论上看,上市公司财务危机预警系统的构建是我国企业管理与控制理论的丰富和发展。本文所构建的财务危机预警系统是基于我国上市公司相关理论和经济技术特点上的,为上市公司财务危机警兆的理论研究提供新思路,从而建立一套发现警兆-确认警情-排警对策(预警-报警-排警)的逻辑机理,为我国上市公司提供一种危机预警管理新模式,在预防和化解危机,提高企业危机预警管理水平方面发挥作用。

从实践上看,对于上市公司来说,借助财务危机预警系统,公司管理层能够及时发现公司财务状况的恶化,以及造成公司财务状况恶化的原因,从而能够及时地、有针对性的调整公司的经营策略,扭转公司经营状况恶化的势头,以避免沦为“ST”“PT”的行列。另外公司越早获得危机信号,越可以减少其在会计、审计、律师等方面所支付的费用。同时,有利于证监部门加强财务监督管理,以提高上市公司的经济效益。

3构建财务危机预警系统的可行性

3.1理论依据

我国20世纪80年代初有了经济预警的概念,承认经济的波动性和周期性。企业预警理论主要包括危机管理理论、策略震撼理论、企业逆境管理理论以及企业诊断理论。这就为财务预警理论的发展和成熟提供了理论基础。财务危机预警系统是基于上市公司财务运作的全过程,不断成熟的财务管理学理论则成为其基础;财务危机预警系统的预警分析是对大量原始信息和数据的处理,日益发展完善的信息传递理论和统计学为其提供了理论基础;财务危机预警系统中的危机管理不仅是对危机全过程的监测和控制,而且是对风险的处理,那么现代经济周期理论和风险管理理论则为其提供了依据。另外,证监部门于2001年11月《亏损上市公司暂停上市和终止上市实施办法(修订)》,表明我国证券市场退市机制不断健全和完善。证券市场的退市机制是实现上市公司优胜劣汰的重要途径,增强上市公司的风险防范意识,提高上市公司的质量,引导证券市场朝良性方向发展。

3.2经济基础

财务危机预警系统是在危机前建立的,这个时候上市公司的财务状况良好,财力雄厚,完全可以满足构建财务危机预警系统的所有资金需求。同时,财务危机预警系统建立起来以后,为公司解决财务危机提供了有效分析手段和控制对策,使上市公司不至于破产,更甚是能及时发现风险,保证了公司经济效益的实现,可以弥补构建财务危机预警系统的全部支出,实现风险收益,即危机管理支出小于危机管理所带来的收益。

3.3技术支撑

上市公司的财务资料相对容易搜集,财务数据趋于规范财务预警系统以财务报表及其他相关的财务信息与非财务信息为依据,在建立财务预警模型和进行预警分析时,要运用大量的财务资料。大部分上市公司已经能够按照市场经济的基本规则进入市场,完成了现代企业制度的建设,产权明晰,管理规范、科学,财务披露制度较为健全。同时,又处于公开的市场监管之下,各种操作行为较为规范。同时,监管部门监管力度的加大,将进一步抑制会计造假者的造假动机,提高财务数据质量,从而更加有利于财务预警系统的顺利运行。

4构建财务危机预警系统的新思路

财务危机有潜伏、发作、恶化三个阶段,在各个阶段应该有相应的管理对策,这一系列的对策就构成了本文财务危机预警系统的基本框架。

财务危机的潜伏时期,上市公司处在一个多变的环境之中,公司的市场状况、产品的升级换代速度、关联企业的供货和资金偿付能力、竞争对手的价格政策变动、金融市场的波动、利率和外汇市场的变化、银行信用和利率政策的改变等等,都会对企业的财务状况、筹资能力、资金调度能力和偿债能力等产生巨大的影响。为了及时准确的识别财务危机,就需要有一个专门组织对企业内外的财务信息和数据进行全面收集和有效传递,为预警分析机制提供信息数据基础,这就构成了财务危机预警系统的信息处理机制。

财务危机的发作时期,在证监部门的财务监督下,上市公司为保证经济效益的实现,就必须对收集的内外财务信息和数据进行分析,选择能够明显反映公司财务状况特征的指标体系,不仅要有财务指标,而且要引入非财务指标,如行业、企业规模、管理水平等,以全面反映公司财务状况,然后用收集的数据和选定的指标,通过现代建模方法(如主成分法,人工神经网络方法)构建预警分析模型,以准确判断财务危机是否已经产生,将此分析结果及时反馈给企业管理者,便于其迅速采取对策。指标分析和模型分析构成了财务危机预警系统的预警分析机制。

财务危机的恶化时期,财务危机已经存在,如果不能及时控制或有效化解,上市公司将面临生死存亡的境地。为了化解危机,公司管理层就要立即启动财务危机处理小组,迅速分析财务危机产生的原因,及时采取有效的管理措施,以恢复公司正常经营。由于财务危机有突发性,要求公司管理层要有强烈的危机意识。

任何一项管理活动都离不开管理者,上市公司财务危机预警管理也不例外,要有一个专门组织为预警管理服务。构建了以财务危机发展阶段为基础的预警-报警-排警的财务危机预警过程机理,还需要有实施财务危机预警系统的组织机制,它包含了组织体系和组织过程。组织体系就是构建一个专门为危机预警管理服务的组织;组织过程则是在危机预警系统实施中的预警-报警-排警逻辑过程。

此财务危机预警系统是以专门组织为保证,依次执行预警-报警-排警三项活动,与前面的研究相比,克服了将组织机制、信息处理机制、预警分析机制、危机管理机制并列的不足,使预警系统结构更为合理,为财务危机预警系统的实施提供了新思路。

参考文献:

[1]EIAltman.CorporateFinancialDistressandBankruptcy[M].NewYork:Wiley,2000.

[2]StephenARoss.公司理财[M].北京:机械工业出版社,2000.

[3]张鸣,张艳,程涛.企业财务预警研究前沿[M].北京:中国财政经济出版社,2004.

[4]张友棠.财务预警系统管理研究[M].北京:中国人民大学出版社,2004.

[5]汪平.财务理论[M].北京:经济管理出版社,2003.

第5篇:统计与信息论文范文

【关键词】投稿平台 在线投稿 PHP Mysql 编辑管理

1 引言

传统的投稿方式有邮寄和电子邮件两种。邮寄投稿方式时间长,反馈慢,并有可能邮寄失败。E-mail投稿方式基于网络环境下,利用现在网络社会中提供的各种电子邮件服务投寄邮件。与传统的邮寄方式相比,这种方式在时效性和安全性上都迈进了一大步,但同时也存在着许多不足之处,如作者本人邮箱容量的限制、编辑邮箱邮件承载量限制等。

论文投稿平台的设计开发,主要是为了能够合理、高效率和更完善的处理论文投稿过程投递错误、半路遗失和处理不及时等引发的问题。该平台适用于各种类型编辑部门,其主要目标是实现作者的在线投稿、专家审核、论文、论文下载、论文管理和稿件状态查询等。

论文投稿平台功能包含为作者提供在线投稿功能;为审稿专家提供在线审稿功能;为论文投稿平台管理人员提供各类信息的添加、删除、修改、统计和查询等功能;和自动更新论文投稿平台的一些常规信息,如有关论文投稿平台的情况介绍以及近期稿件录用情况。

2 总体设计

本平台是针对论文在线投稿、在线审核、在线等相关内容进行设计的,主要是展示网站最新的论文动态,介绍论文在线投稿相关的步骤,专家对论文进行审核的主要流程以及读者在线阅读和下载的基本程序。另一方面,平台具有读者、作者、专家编辑登录注册功能。论文在线投稿平台分为前台和后台两部分。网站前台展示了整个论文投稿简介、最新、编委会以及编读园地等一系列的相关信息,全面向网站用户展示了平台的特色。提供在线投稿功能,满足了作者通过网络在线投稿论文的需求。通过网络对论文编辑流程的管理,大大提高了论文投稿的效率。网站后台实现了各类型用户信息的管理、对投稿论文进行管理以及用户的留言信息等,有效的实现了平台的主要功能。

文投稿平台是一个利用PHP+Mysql数据库相结合开发的应用程序,由前台基本模块和后台管理组成,平台功能模块如下。

2.1 前台展示区

主要内容包括首页、期刊简介、编委会、投稿指南、编读园地、刊文选读、期刊订阅、联系我们、帮助、留言、在线投稿、稿件查询等。2.2 后台功能管理

主要功能是更新平台的基本信息、管理前台论文信息、最新通知和公告信息、注册信息管理、在线投稿论文的管理、留言信息管理和系统信息管理等。

3 数据库设计

分析网站功能模块,论文投稿平台需要使用数据库来存储投稿论文管理、用户留言、读者信息管理、作者信息管理、审核者信息管理、编辑者信息管理和管理员表。采用的数据库是Mysql,该数据库中定义如下数据表。

3.1 投稿论文表(表名:tg)

投稿论文表主要用于保存投稿论文基本信息,结构如表1所示。

3.2 作者信息表(表名:zz)

作者信息管理表主要用于保存作者基本信息内容,该表结构如表2所示。

编辑者信息管理表主要用于保存编辑者基本信息内容,该表结构如表3所示。

4 投稿平台设计实现

论文投稿平台的前台主要是期刊的简介、编委会功能职责、投稿指南、编辑园地、刊文选读、期刊订阅的介绍,并且具有在线投稿、在线审核和稿件查询模块等模块。实时更新以及论文检索页突显在网页的前台。前台要求网站界面简洁、尽量展示在线投稿的方便、实用和快捷,并且要求操作方面,便于用户注册登录和浏览下载论文,故整个平台的文件架构比较重要。

前台页面主要包括以下功能模块:

网站导航:为浏览者提供清晰明了的浏览路线,也为各类用户介绍了网站的基本功能。

(1)期刊简介模块:介绍论文期刊的基本格式、字数要求、论文类型等相关信息。

(2)编委会模块:介绍编委会的主要成员以及各自的职责。

(3)投稿指南模块:介绍在线投稿基本流程以及投稿须知。

(4)刊文选读模块:介绍各类型刊文、选读技巧、提供选题方案。

(5)联系我们模块:为读者、作者、审核者提供在线实时对话帮助。

(6)帮助模块:为各类型用户提供帮助。

(7)用户登录区模块:读者、作者、审稿专家、编辑者可以在此模块进行注册登录。

(8)在线投稿模块:作者可以通过此模块进行在线投稿。

(9)稿件查询模块:读者和作者可以通过此模块对所要查询的论文进行检索。

(10)动态模块:展示平台最新更新论文、通知、公告以及最新录用信息。

网站后台主要使用PHP+Mysql数据库实现前台信息的添加、修改、删除和查询等功能,在论文中不做展开。

5 小结

文章在对在线投稿的研究和探索的基础上,结合在线投稿具体流程的要求,设计开发出一个具有在线投稿和稿件的编辑处理功能的投稿平台,该平台目前已经在少数几个杂志社投入使用,平台运行稳定,取得了较好的经济效益和社会效益。但在平台大规模推广使用之前,应该再对平台再进行改进,以使平台能够更加满足在线投稿的需求。

参考文献

[1]隋兴芳,薛爱华.全面实行电子稿件管理系统处理稿件的体会[J].中国科技期刊研究,2012(16):25-30.

[2]陈翔.基于B/S的期刊稿件管理系统的设计和实现[J].杭州师范学院学报,2014(10):33-38.

[3]苏波.基于web应用的性能测试研究[J].中国石油大学学报,2013(09):41-45.

[4]郑阿奇,汤玫.PHP程序设计教程[M].北京:机械工业出版社,2014(07).

[5]汪晓军,钟平.PHP网络开发技术(第二版)[M].北京:人民邮电出版社,2013(06).

第6篇:统计与信息论文范文

本系统高压发泡机以高性价比的台达DVP系列PLC和台达的DOP的人机界面为核心控制单元,有多组工作模式多组配方工艺参数选择,且可自主编辑工艺参数,流量注入精确稳定,压力流速可控可调,故障报警实时监控。实践证明,相比老式发泡机,PLC控制系统的设备性能稳定可靠,易于操作,工作效率大幅提高。发泡机控制系统充分利用了现代先进技术,提高了劳动生产率,改善了劳动条件,减轻了工人的劳动强度,保持稳定的发泡倍数,克服了人为的不稳定因数,具有良好的应用前景。

发泡机是利用塑料颗粒作为发泡包装的原料,可以对精密仪器、电子类产品、工艺品、插花等多类怕震、怕压的产品进行现场的发泡包装。发泡机作为一种机电一体化产品,在现代工业生产的自动化控制中占有重要的地位。高压发泡机广泛用在各种行业,可用于汽车装饰、保温墙喷涂、保温管道制造、自行车和摩托车车座海绵的加工等等。

发泡机最早出现于国外,其原始机型是采用叶轮高速旋转制泡,故又名“打泡机”。后来随着技术的不断进步,发泡机的技术含量不断提高,新的机型不断出现,形成了不同的技术体系。我国早在20世纪50年代就开始使用发泡机,但不是专用的发泡机型,而是采用砂浆搅拌机。即将发泡剂直接加入砂浆搅拌机或混凝土搅拌机,让发泡剂和砂浆或混凝土一起搅拌生成泡沫。20世纪70年代前后,开始出现专用的发泡剂,即高速叶轮发泡机。以后又不断技术升级和换代,如今已发展为以高压充气为主体的第三代机型,基本可满足泡沫混凝土的需要挤出技术的发展越来越具有如下特色:一方面要求挤出系统高效率,另方面又要求挤出系统具有灵活性、广泛适应性。应用广泛的高效挤出系统应兼颐这两个方面。其中发泡机控制系统将直接影响该产品的发泡倍数的稳定。发泡机控制系统的发泡倍数受原料添加重量和发泡好后粒子的总量决定,蒸汽压力和气压不直接影响发泡倍数。因此,为这类发泡机开发出一种可以保持稳定的发泡倍数的控制系统是一个有着较大实际意义的课题。

第7篇:统计与信息论文范文

[关键词]学术论文 复制检测 抄袭剽窃检测 统计语言模型 文本相似度算法

[分类号]TP391.1

自从方舟子的“新语丝”使原本长期存在于学术界的学术不端暴露出来之后,学术论文抄袭剽窃引起社会的广泛关注。抄袭剽窃的表现形式多种多样:有些只是在语言文字的表达形式上做手脚,换成同义词或颠倒语句的表达顺序,在文章框架、主要观点和主要论据上却没有大的变化;有些直接大段地“引用”别人的内容;有些综合运用多种手段,将多篇别人的文章拼凑而成自己的;有些“学术高手”直接拿国外的论文翻译成中文发表,等等。抄袭和剽窃“手段”的越来越“高明”,给抄袭剽窃检测带来很大困难。抄袭检测又叫复制检测、剽窃检测或副本检测,根据检测对象性质不同可分为图像、声音和文本复制检测。学术论文抄袭检测是文本复制检测的一种,归根到底是判断两篇学术论文的相似程度。“召回率”和“精准率”是判断检测算法好坏的两个重要指标。为了进一步提高学术论文复制检测判断的准确率,针对学术论文的文档相似度算法的改进和创新研究变得尤为重要。

1 国内外研究现状及存在的问题

1.1 国外研究现状

国外具有代表性的文档相似度算法主要有以下几种:①Manber提出一个sif工具,其“近似指纹”是用基于字符串匹配的方法来度量文件之间的相似性;②Brin等在“数字图书馆”工程中首次提出文本复制检测机制COPS(copy protection system)系统与相应算法,奠定了论文抄袭检测系统的基础;③Garcia-Molin提出SCAM(Stanford copy analysis method)原型,改进了COPS系统,用于发现知识产权冲突。他使用基于词频统计的方法来度量文本相似性,后来把检测范围从单个注册数据库扩展到分布式数据库上以及在Web上探测文本复制的方法;④贝尔实验室的Heintze开发了KOALA系统用于剽窃检测,采用与sif基本相同的算法;⑤si和Leong等人建立的CHEC系统首次把文档结构信息引入到文本相似性度量中;⑥Stein提出一种方法,这种方法能产生一种“指纹”,在某种程度上能有效防止修改;⑦MeyerzuEissen等提出通过根据写作风格上的变化来分析单篇文档,从而决定是否有潜在抄袭;⑧美国学校首先引入Tumitin侦探剽窃数据库,用于防止论文抄袭,此外还有其他类似软件系统用于进行文档相似度分析。当然不同的检测系统其相似度算法的精度也不尽相同。

1.2 国内研究现状

国内关于论文抄袭剽窃检测方面已有一些研究:①张斯通过对中文文本进行自动分词,然后计算它们的相似度,从而判别文本是否抄袭,其对应装置包括:样本输入装置、样本数据库、自动分句分词装置、分词数据库、预处理装置、特征词数据库、相似判别装置、判别结果输出装置和控制处理装置等。②鲍军鹏通过文本的结构信息和语义信息提取文本特征,是通过运用文本剽窃判定模块中设定的探针法,估计待检测文本特征和特征库中的文本特征的最大共同语义,并给出文本雷同度量,从而判别文本是否抄袭。③沈阳是通过先找到存储空间内的格式遗留,再将这些遗留格式附近文档的关键词或/和句子或/和段落与文献库中的文献内容进行比较,从而减少被检测文档的数据量,加快了反剽窃或转载文档检测速度。④张履平通过对已植入水印的文章进行特征撷取,根据所取得的词汇输入搜寻引擎以搜寻相关可疑文章;根据与原文比对结果取得的句子进行水印解析;将所取得的水印信息与原来的水印比对,从而判断是否为剽窃。⑤金博等则对基于篇章结构相似度的复制检测算法有一些研究。

1.3 存在的问题

事实上,由于剽窃形式的多样性和隐蔽性、语法和句法的复杂性等,目前主要采用的“数字指纹”和词频统计两大类抄袭识别技术已经不能满足实际的剽窃检测需求,会造成很多漏检和误检,其“召回率”和“精准率”都有待提高。归根到底是因为其检索模型有待突破,算法亟待改进或需创造全新的算法来针对学术论文抄袭剽窃检测的实际。如何把握并充分利用学术论文的结构和语言特征,提供具有针对性的检索模型和相似度算法及其实现系统,对能否在异构的分布式学术论文资源系统中,对抄袭剽窃检测进行更精确的判断至关重要。

2 学术论文复制检测研究的新思路

针对以上问题,笔者提出以下学术论文复制检测研究的新思路:①建立有针对性的学术论文语料库;②通过对语料库的深层加工、统计和学习,建立统计语言模型;③充分利用学术论文著录项目自身的特点,通过将文档结构化,赋予元数据项加权系数,运用卷积计算学术论文的相似度;④利用支持网络语言的JAVA编程实现相似度算法;⑤通过将待检测论文与数据库中已有文献对比,计算其相似度,当相似度超过某一阈值时,则判断该论文有抄袭的可能,如图1所示:

3 具体方法及步骤

3.1 建立某一学科专业的学术论文语料库

新一代的兆亿级的大规模语料库可以作为语言模型的训练和测试手段,用以评价一个语言模型的质量。本文建立的语料库中存放的是在学术论文语言的实际使用中真实出现过的学术论文语言材料;是以电子计算机为载体,承载学术资源语言知识的基础资源;通过对真实语料进行分析和处理等加工,使之成为本文的学术论文抄袭检测模型和算法的训练与测试手段。

利用丰富的学术资源数据库,如Dialog、SCI、EI、INSPE、IEEE、Science Direct、EBSCO、PQDD、SPRINGERLINK、KLUWER、Science online、Medline、CNKI、中文科技期刊全文数据库、万方数据科技信息子系统、万方数据商业信息子系统、七国两组织的专利数据库、国内外专利数据库等异构的分布资源,通过信息检索,从某一学科专业着手,构建某一学科专业领域的学术论文语料库。

3.2 以信息论为工具,创建统计语言模型用于学术论文检索

数学是解决信息检索和自然语言处理的最好工具。其实早在几十年前,数学家兼信息论专家香农(Claude Shannon)就提出了用数学方法处理自然语言的想法。语音和语言处理大师贾里尼克(Fred Je-

linek)首先成功利用数学方法解决了自然语言处理问题。统计语言模型(即基于统计的语言模型)通常是概率模型,计算机借助于统计语言模型的概率参数,可以估计出自然语言中每个句子出现的可能性,而不是简单地判断该句子是否符合文法。统计语言模型以概率颁布的形式描述了任意语句(字符串)s属于某种语言集合的可能性,需要对任意的语句s都给出一个概率值,例如:P(他/认真/学习)=0.02。本文充分利用学术论文不同于报纸新闻论文或其他类型文档的语言特点,以建立的学术论文语料为训练和测试基础,提出新的基于学术论文的统计语言模型作为针对学术论文抄袭剽窃检测算法的检索语言模型。具体做法为:以信息论为工具,把握学术论文的语言特点,通过对以上所建立的学科专业语料库进行深层加工、统计和学习,获取大规模真实学术论文语料中的语言知识,建立基于学术论文语料库的统计语言模型;通过实验,与其他文本信息检索模型进行比较,论证其有效性。

3.3 利用学术论文中描述资源对象语义信息的元数据结构,计算文档相似度

充分利用正式出版的学术论文的结构特点,根据学术论文中标引出的K个描述资源对象语义信息的元数据(Di,i=1,2…k),将学术论文结构化;然后利用已有的基于学术论文语料库的统计语言模型,将待比较的论文的各相同元数据Di(i=1,2…k)部分进行比对得相似度si,再根据元数据对论文的重要程度给定第i个元数据项相似度权函数wi;则整篇学术论文总体的相似度为Sd=∑Wi*Si。

具体算法举例如下:

将待检测的学术论文的元数据如题名Til、关键词Kyl、摘要Abl、正文.Tel、参考文献Rel等元数据字段抽取出来,与语料库中已有论文的相应元数据字段内容题名Ti2、关键词Ky2、摘要Ab2、正文Tx2、参考文献Re2进行相似度计算。计算时,在篇名字段前给以0.25,0.4,0.15,0.1和0.1的加权系数。建立的统计语言模型计算待测论文和语料库中已出版的论文j同一元数据字段的内容相似程度,记为:Sim_Tij,sim―Kyj,Sim_Abj,Sire Tej,Sim_Rej,卷积后得整篇论文与语料库中某篇论文j的相似程度值计算公式为:Sinai―larity_paper_j=0.25×Sim_Tij+0.4×Sim_Kyj+0.15×Sim_Abj+0.1×Sim_Txj+0.1×Sim_Rej;再计算与待检测论文最相似的那个最大相似度Max_Similarity=Max{Simflarity_paper_j};如果Max_Similarity大于设定的阀值1(如40%),则判断为疑似抄袭,这样的论文需要审稿专家仔细认真审理,如果Max_Similarity大于设定的阀值2(比设定的阀值1大,如80%),这样的论文极有可能存在抄袭,需要审稿专家特别注意。在计算相似度值后,计算机系统记录下相似度高于设定阀值的抄袭和被抄袭的学术论文来源、相似度值、及其各元数据项信息(包括作者信息)。以上各元数据项相似度计算过程中,加权系数可以根据需要做适当调整为其他数值,但系数总和为1。

3.4 推广使用

通过对某一学科专业的研究,进一步拓展到其他学科领域,从而最终实现在异构的分布式学术论文资源系统中,对各个学科领域的学术论文抄袭剽窃进行跨平台检测。

4 研究展望及难点、解决办法

第8篇:统计与信息论文范文

《统计自然语言处理》是宗成庆研究员在为中国科学院研究生院讲授“自然语言理解”课程时使用的讲义的基础上编写完成的,历时三年多。该书全面系统地介绍了自然语言处理的基本概念、理论方法和最新进展,尤其是近年来国际流行的基于统计机器学习的自然语言处理方法,对近年来国内外一些经典的论文,包括国际计算语言学年会(ACL)的最佳论文,给予了详细介绍。作者在该书中充分利用已取得的实验结果阐释统计方法的基本理念,并给出了自己的理解和评述,提倡多种方法兼收并蓄。对很多专著中已有详细阐述的经典算法,该书没有多述,只是简单地提及或给出参考文献,避免了与其他专著在内容上过多地重复。

全书内容包括15章:第1章为绪论,介绍自然语言处理的基本概念、研究内容、面临的困难和研究现状;第2章简要介绍自然语言处理中常用的基础知识,包括概率论、信息论、支持向量机等基本内容;第3章介绍形式语言与自动机理论及其在自然语言处理中的应用;第4章介绍语料库技术、词汇知识库概念和语言知识库建设中的本体论;第5章介绍语言模型的基本概念、性能评价方法、数据平滑方法和模型自适应方法;第6章介绍隐马尔可夫模型的基本概念、构成和相关算法;第7章介绍汉语自动分词中的基本问题、基本方法、命名实体识别与词性标注方法等;第8章介绍句法分析的基本概念、算法及评测方法等;第9章介绍词义消歧的基本概念、策略和评测方法;第10章全面详细地介绍机器翻译的基本概念、统计机器翻译模型和系统实现方法;第11章概述语音翻译的基本概念、技术现状和相关的国际学术组织;第12章至15章分别简要介绍文本自动分类、信息检索与问答系统、自动文摘和信息抽取、口语分析与人机对话系统等相关技术的基本方法和研究现状。

在该书编写过程中,从事自然语言处理研究的31位国内外专家和10多位在读博士生或硕士生校对了全书的内容。全书引用参考文献816篇。

第9篇:统计与信息论文范文

Abstract: By an overall analysis and research on data mining technique, according to the different function and task and the influence of perspective on sorting method, emphasizing particularly on the form of results which is made by data mining technique, and overcoming the limitation and illegibility of canonical sorting method, then finally a kind of sorting method and approach is present. The effective distinction of this method makes it more feasible and convenient, and it offers guidance for applying proper data mining method to discover knowledge in a right way.

关键词:数据挖掘;方法;分类

Key words: data mining; method; sort

中图分类号:TP392文献标识码:A文章编号:1006-4311(2010)26-0146-02

0引言

数据挖掘是一门多学科交叉的综合性学科[1],其方法也融合了各学科方法的思想,主要是由人工智能、机器学习的方法发展而来,并与传统的统计分析方法、模糊数学方法结合而形成的,如图1所示。正因为如此,对它进行合理的分类十分重要,但同时却也不太容易。这里将它分为:信息论方法、集合论方法、神经网络方法、遗传算法、公式发现。

1信息论方法

信息论方法是利用信息论的原理建立决策树。由于该方法最后获得的知识表示形式是决策树,又称它为决策树方法。典型的信息论方法有两类。

1.1 ID3等方法ID3(Iterative Dichotomiser 3)[2]方法由J.R.Quinlan首创,其前身是CLS(Concept Learning System)。ID3方法检验所有的特征,选择信息增益(互信息)最大的特征点产生决策树结点,由该特征的不同取值建立分支,对各分支的实例子集递归,用该方法建立决策树节点和分支,直到某一子集中的例子属同一类。这种方法对愈大的数据库效果愈好。ID3方法在国际上影响很大,ID3方法以后又陆续开发了ID4、ID5、C4.5等。

1.2 IBLE方法IBLE(Information-based Learning from Examples)[3]方法是利用信息论中信道容量的概念作为对实体中选择重要特征的度量。寻找数据库中信息量从大到小的多个字段的取仅建立决策树的一个结点,根据该结点中指定字段取值的权值之和与两阈值的比较,建立左、中、有三个分枝,在各分枝子集中重复建树结点和分枝的过程。IBLE方法比ID3方法在识别率上提高了10%。

2集合论方法

集合论方法是开展较早的方法。近年来,由于粗糙集理论的发展使集合论方法得到了迅速的发展。这类方法中包括:覆盖正例排斥反例方法、概念树方法和粗糙集(rough set)方法。关联规则挖掘也属于集合论方法。

2.1 覆盖正例排斥反例方法覆盖正例排斥反例方法是从已知的正例和反例中归纳出能够描述正例而排斥反例的一般规则,它在机器学习中称为示例学习(也称为通过例子学习)。在学习的过程中,它既需要正例集又需要反例集,数据库中的元组集合可以被视为示例集合。当要发现某一类而排斥其余类的一般规则时,可以将某一类元组作为正例集,其余类所有的元组作为反例集,这样依次指定正例集和反例集便可以发现描述知识基表中某一类元组而排斥其余类的一般规则,即分类规则。比较典型的有AQ[4]算法及其改进算法,洪家荣的AE5方法[5]。

2.2 概念树方法在数据库中,许多属性都是可以进行数据归类的,以形成概念汇聚点,各属性值和概念依据抽象程度不向可以构成一个层次结构,概念的这种层次结构通常称为概念树。概念树一般由领域专家提供,概念树与数据库定的属性有关,它将各个层次的概念按一般到特殊的顺序排列。基于概念树的知识发现方法其实是一个几组合并的处理过程,用这种方法从数据库中发现规则知识的核心是执行基本的和面向各属性的归纳。其基本思想是:①一个同性的较具体的值被该属性的概念树中的父概念所替代。②对知识基表中出现的相同元组进行合并,构成更宏观的元组,并计算宏元组所覆盖的元组数目,如果数据库记录生成的宏元组数目仍然很大,那将用这个属性的概念树中更一般的父概念去替代或者根据另一个属性进行概念树的提升操作。③生成覆盖面更广、数量更少的宏元组,并归纳所得的最后结果转换成逻辑规则。

2.3 粗糙集方法粗糙集理论中的一些概念和方法可以用来从数据库中发现分类规则,其基本思想是将数据库中行元素视为元组,列元素视为属性(条件属性和决策属性)。等价关系R定义为不同元组在某个(或几个)属性上取值相同,这些满足等价关系的元组组成的集合称为该等价关系R的等价类。条件属性上的等价类E与决策属性上的等价类Y之间有3种情况[6]:①下近似:Y包含E。②上近似:Y和E的交为非空。③无关:Y和E的交为空。对下近似建立确定性规则,对上近似建立不确定性规则,无关情况不存在规则。

2.4 关联规则挖掘关联规则挖掘是在事务数据库中,挖掘出不同项集的关联关系。关联规则挖掘在事务数据库D中寻找那些不同项集(如A和B两个商品)同时出现的概率(即P(A∪B))大于最小支持度(min_sup),且在包含一个项集(如A)的所在事务中,同时也包含月一个项集(如B)的条件概率(即P(B|A))大于最小置信度(min_conf)时。则存在关联规则(即A=>B)。

3神经网络方法

神经网络是由大量的处理单元(神经元)互相连接而成的网络[7]。它是仿生学的一大成果,最早由生物学家McCulloch和数理学家Pitts提出[8]。神经网络的主要部分是神经元(如图2),它具有以下生物特征:是一个多输入、单输出的元件;是具有非线性的元件;具有可塑性,传递强度可变的特征;其输出是每个输入综合的结果。

在神经网络中,知识与信息的存储表现为神经元之间分布式的物理联系。它分散地表示和存储于整个网络内的各神经元及其连线上。每个神经元及其连线只表示一部分信息,而不是一个完整具体概念。只有通过各神经元的分布式综合效果才能表达出特定的概念和知识。由于人工神经网络中神经元个数众多以及整个网络存储信息容量的巨大,使得它具有很强的不确定性信息处理能力。即使输入的信息不完全、不准确或模糊不清,神经网络仍然能够通过联想思维,展示存在于记忆中事物的完整图像。只要输入的模式接近于训练样本,系统就能给出正确的推理结论。同时神经元的处理输出不是随意的,只有当神经元对所有的输入信息的综合处理结果超过某一阈值后才输出一个新的信息。

神经网络方法,以MP模型和Hebb学习规则为基础,建立了三大类多种神经网络模型,即:前馈式网络,以感知机、BP反向传播模型和函数型网络为代表,此类网络可用于预测、模式识别等方面;反馈式网络,Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算;自组织网络,ART模型、Kohonen模型为代表,用于聚类。

4遗传算法

遗传算法将问题的求解的过程看成一个在候选解空间寻找满足问题要求的解或最优近似解的搜索过程,其重点在适应规划和适应度量方面。遗传算法的适应规划用于指导算法怎么样在空间进行搜索,一般采用遗传算子(或称遗传操作)诸如交叉和变异等,以及模拟自然过程的选择机制,而适应度量采用计算适应值的方法来评估一个候选解的优劣。

典型遗传算法求解问题的过程如图3所示。

①首先生成一组初始的候选解群体(假设为M个候选解个体),称为第0代;②计算群体中各个候选解的适应值;③如果有候选解满足算法终止条件,算法终止,否则继续;④根据概率,将候选解群体中的个体随机两两配对,进行操作以生成新的候选解;⑤根据变异概率,对步骤④中生成的候选解群中的每个个体进行变异操作;⑥使用选择机制形成新一代候选解,转②。

从上面的算法可以看出,遗传算法的3个重要步骤为选择、交叉和变异。①选择(繁殖):从一个旧种群(父代)选择出生命力强的个体产生新种群(后代)的过程。②交叉(重组):选择两个不同个体(染色体)的部分(基因)进行交换,形成新个体。③变异(突变):对某些个体的某些基因进行变异(1变0,0变1)。

这种遗传算法起到产生优良后代的作用。这些后代需要满足适应值,经过若干代的遗传.将得到满足要求的历代(问题的解)。遗传算法已在优化计算和分类机器学习方面发挥了显著的效果。

5统计分析方法

数据挖掘思想和统计学紧密相连,有着一个类似的目标,即发现数据中的结构。目前采用的很多数据挖掘方法是根据统计学的分析方法发展出来的,需要用到例如随机变量、样本、假设检验、回归等一系列统计学概念和原理。把这类数据挖掘方法归称为统计分析方法,统计分析方法主要有以下几种。

5.1 常用统计用样本数据集中的频次、频率描述样本数据结构的基本特征;用茎叶图与直方图对刻度级样本数据作描述;用样本众数、中位数、均值对数据中心作描述;用极值、四分点与百分位点对样本数据离散特征作点状描述;用极差、四分位距与离差对样本数据离散特征作区间描述;用样本方差对离散状的统计值描述以及用箱形图对样本数据特征作综合表述等。

5.2 各种回归技术回归又包括线性回归和非线性回归。

5.2.1 线性回归线性回归是最简单的回归形式。双变量回归是将一个随机变量y(称作响应变量)看作另一个随机变量x(称为预测变量)的线性函数。

5.2.2 非线性回归即变量间的关系是曲线性式(即非线性的)的关系。非线性回归主要存在以下七种模型:双曲线模型,二次曲线模型,对数模型,三角函数模型,指数模型,幂函数模型,修正指数增长曲线。

6结语

数据挖掘技术因在海量数据的知识发掘方面发挥着巨大的作用而被越来越多的应用到实际当中。选择合适的数据挖掘方法,则是能否成功得以应用并取得高效结果的关键步骤。因此,数据挖掘技术的方法分类是先决条件,分类的好坏决定了应用的成败。

参考文献:

[1]Jiawei Han, Micheline Kamber著.范明.孟小峰译.数据挖掘概念与技术[M].机械工业出版社,2007.

[2]Quinlan. J. R. Induction of Decision Tree[J].Machine Learining,1986(1):81-106.

[3]陈文伟,黄金才,赵新昱等.数据挖掘技术[M].北京工业大学出版社,2002.

[4]R. S. Michalski, I. Mozetic, J. Hong. The multi purpose incremental learning system AQ15 and its testing application to three medical domains. In. Proc AAAI,USA,1986,1041~1045.

[5]洪家荣.示例学习及多功能学习系统AE5[J].计算机学报,1989,12(2):98~105.

[6]晏伟峰.基于Rough Set的属性约减算法研究[D].华中科技大学硕士学位论文,2006.