公务员期刊网 精选范文 挖掘技术论文范文

挖掘技术论文精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的挖掘技术论文主题范文,仅供参考,欢迎阅读并收藏。

挖掘技术论文

第1篇:挖掘技术论文范文

数据挖掘技术是一种新型的技术,在现代数据存储以及测量技术的迅猛发展过程中,人们可以进行信息的大量测量并进行存储。但是,在大量的信息背后却没有一种有效的手段和技术进行直观的表达和分析。而数据挖掘技术的出现,是对目前大数据时代的一种应急手段,使得有关计算机数据处理技术得到加快发展。数据挖掘技术最早是从机器学习的概念中而产生的,在对机器的学习过程中,一般不采用归纳或者较少使用这种方法,这是一种非常机械的操作办法。而没有指导性学习的办法一般不从这些环境得出反馈,而是通过没有干预的情况下进行归纳和学习,并建立一种理论模型。数据挖掘技术是属于例子归纳学习的一种方式,这种从例子中进行归纳学习的方式是介于上述无指导性学习以及较少使用归纳学习这两种方式之间的一种方式。因此,可以说,数据挖掘技术的特征在出自于机器学习的背景下,与其相比机器主要关心的是如何才能有效提高机器的学习能力,但数据挖掘技术主要关心如何才能找到有用、有价值的信息。其第二个特征是,与机器学习特点相比较而言,机器关心的是小数据,而数据挖掘技术所面临的对象则是现实中海量规模的数据库,其作用主要是用来处理一些异常现象,特别是处理残缺的、有噪音以及维数很高的数据项,甚至是一些不同类型数据。以往的数据处理方法和现代的数据挖掘技术相比较而言,其不同点是以往的传统数据处理方法前提是把理论作为一种指导数据来进行处理,在现代数据挖掘技术的出发角度不同,主要运用启发式的归纳学习进行理论以及假设来处理的。

2、数据挖掘技术主要步骤

数据挖掘技术首先要建立数据仓库,要根据实际情况而定,在易出现问题的有关领域建立有效的数据库。主要是用来把数据库中的所有的存储数据进行分析,而目前的一些数据库虽然可以进行大量的存储数据,同时也进行了一系列的技术发展。比如,系统中的在线分析处理,主要是为用户查询,但是却没有查询结果的分析能力,而查询的结果仍旧由人工进行操作,依赖于对手工方式进行数据测试并建模。其次,在数据库中存储的数据选一数据集,作为对数据挖掘算法原始输入。此数据集所涉及到数据的时变性以及统一性等情况。然后,再进行数据的预处理,在处理中主要对一些缺损数据进行补齐,并消除噪声,此外还应对数据进行标准化的处理。随后,再对数据进行降维和变换。如果数据的维数比较高,还应找出维分量高的数据,对高维数数据空间能够容易转化为检点的低维数数据空间进行处理。下一步骤就是确定任务,要根据现实的需要,对数据挖掘目标进行确定,并建立预测性的模型、数据的摘要等。随后再决定数据挖掘的算法,这一步骤中,主要是对当前的数据类型选择有效的处理方法,此过程非常重要,在所有数据挖掘技术中起到较大作用。随后再对数据挖掘进行具体的处理和结果检验,在处理过程中,要按照不同的目的,选择不同的算法,是运用决策树还是分类等的算法,是运用聚类算法还是使用回归算法,都要认真处理,得出科学的结论。在数据挖掘结果检验时,要注意几个问题,要充分利用结论对照其他的信息进行校核,可对图表等一些直观的信息和手段进行辅助分析,使结论能够更加科学合理。需要注意的是要根据用户来决定结论有用的程度。最后一项步骤是把所得出的结论进行应用到实际,要对数据挖掘的结果进行仔细的校验,重点是解决好以前的观点和看法有无差错,使目前的结论和原先看法的矛盾有效解除。

3、数据挖掘技术的方法以及在电力营销系统中的应用和发展

数控挖掘技术得到了非常广泛的应用,按照技术本身的发展出现了较多方法。例如,建立预测性建模方法,也就是对历史数据进行分析并归纳总结,从而建立成预测性模型。根据此模型以及当前的其他数据进行推断相关联的数据。如果推断的对象属于连续型的变量,那么此类的推断问题可属回归问题。根据历史数据来进行分析和检测,再做出科学的架设和推定。在常用的回归算法以及非线性变换进行有效的结合,能够使许多问题得到解决。电力营销系统中的数据挖掘技术应用中关联规则是最为关键的技术应用之一。这种应用可以有效地帮助决策人员进行当前有关数据以及历史数据的规律分析,最后预测出未来情况。把关联规则成功引入电力营销分析,通过FP-Growth算法对电力营销的有关数据进行关联规则分析,从中得出各种电量销售的影响因素以及外部因素、手电水平等的关联信息,以便更好地为电力的市场营销策略提供参谋和决策。对电力营销系统的应用中,时间序列挖掘以及序列挖掘非常经典、系统,是应用最为广泛的一种预测方法。这种方法的应用中,对神经网络的研究非常之多。因此,在现实中应用主要把时间序列挖掘以及神经网络两者进行有效地结合,然后再分析有关电力营销数据。此外,有关专家还提出应用一种时间窗的序列挖掘算法,这种方式可以进行有效地报警处理,使电力系统中的故障能够准确的定位并诊断事故。此算法对电力系统的分析和挖掘能力的提高非常有效,还可判定电力系统的运行是否稳定,对错误模型的分析精度达到一定的精确度。

4、结语

第2篇:挖掘技术论文范文

关键字:数据挖掘金融数据

金融部门每天的业务都会产生大量数据,利用目前的数据库系统可以有效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了数据爆炸但知识贫乏”的现象。与此同时,金融机构的运作必然存在金融风险,风险管理是每一个金融机构的重要工作。利用数据挖掘技术不但可以从这海量的数据中发现隐藏在其后的规律,而且可以很好地降低金融机构存在的风险。学习和应用数扼挖掘技术对我国的金融机构有重要意义。

一、数据挖掘概述

1.数据挖掘的定义对于数据挖掘,一种比较公认的定义是W.J.Frawley,G.PiatetskShapiro等人提出的。数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识、这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念(Concepts),规则(Rules)、规律(Regularities)、模式(Patterns)等形式。这个定义把数据挖掘的对象定义为数据库。

随着数据挖掘技术的不断发展,其应用领域也不断拓广。数据挖掘的对象已不再仅是数据库,也可以是文件系统,或组织在一起的数据集合,还可以是数据仓库。与此同时,数据挖掘也有了越来越多不同的定义,但这些定义尽管表达方式不同,其本质都是近似的,概括起来主要是从技术角度和商业角度给出数据挖掘的定义。

从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知识的过程。它是一门广义的交叉学科,涉及数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化等多学科领域且本身还在不断发展。目前有许多富有挑战的领域如文本数据挖掘、Web信息挖掘、空间数据挖掘等。

从商业角度看,数据挖掘是一种深层次的商业信息分析技术。它按照企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性并进一步将其模型化,从而自动地提取出用以辅助商业决策的相关商业模式。

2.数据挖掘方法

数据挖掘技术是数据库技术、统计技术和人工智能技术发展的产物。从使用的技术角度,主要的数据挖掘方法包括:

2.1决策树方法:利用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。国际上最有影响和最早的决策树方法是ID3方法,后来又发展了其它的决策树方法。

2.2规则归纳方法:通过统计方法归纳,提取有价值的if-then规则。规则归纳技术在数据挖掘中被广泛使用,其中以关联规则挖掘的研究开展得较为积极和深入。

2.3神经网络方法:从结构上模拟生物神经网络,以模型和学习规则为基础,建立3种神经网络模型:前馈式网络、反馈式网络和自组织网络。这种方法通过训练来学习的非线性预测模型,可以完成分类、聚类和特征挖掘等多种数据挖掘任务。

2.4遗传算法:模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)三个基本算子组成。为了应用遗传算法,需要将数据挖掘任务表达为一种搜索问题,从而发挥遗传算法的优化搜索能力。

2.5粗糙集(RoughSet)方法:Rough集理论是由波兰数学家Pawlak在八十年代初提出的一种处理模糊和不精确性问题的新型数学工具。它特别适合于数据简化,数据相关性的发现,发现数据意义,发现数据的相似或差别,发现数据模式和数据的近似分类等,近年来已被成功地应用在数据挖掘和知识发现研究领域中。

2.6K2最邻近技术:这种技术通过K个最相近的历史记录的组合来辨别新的记录。这种技术可以作为聚类和偏差分析等挖掘任务。

2.7可视化技术:将信息模式、数据的关联或趋势等以直观的图形方式表示,决策者可以通过可视化技术交互地分析数据关系。可视化数据分析技术拓宽了传统的图表功能,使用户对数据的剖析更清楚。

二、数据挖掘在金融行业中的应用数据挖掘已经被广泛应用于银行和商业中,有以下的典型应用:

1.对目标市场(targetedmarketing)客户的分类与聚类。例如,可以将具有相同储蓄和货款偿还行为的客户分为一组。有效的聚类和协同过滤(collaborativefiltering)方法有助于识别客户组,以及推动目标市场。

2..客户价值分析。

在客户价值分析之前一般先使用客户分类,在实施分类之后根据“二八原则”,找出重点客户,即对给银行创造了80%价值的20%客户实施最优质的服务。重点客户的发现通常采用一系列数据处理、转换过程、AI人工智能等数据挖掘技术来实现。通过分析客户对金融产品的应用频率、持续性等指标来判别客户的忠诚度;通过对交易数据的详细分析来鉴别哪些是银行希望保持的客户;通过挖掘找到流失的客户的共同特征,就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补。

3.客户行为分析。

找到重点客户之后,可对其进行客户行为分析,发现客户的行为偏好,为客户贴身定制特色服务。客户行为分析又分为整体行为分析和群体行为分析。整体行为分析用来发现企业现有客户的行为规律。同时,通过对不同客户群组之间的交叉挖掘分析,可以发现客户群体间的变化规律,并可通过数据仓库的数据清洁与集中过程,将客户对市场的反馈自动输人到数据仓库中。通过对客户的理解和客户行为规律的发现,企业可以制定相应的市场策略。

4.为多维数据分析和数据挖掘设计和构造数据仓库。例如,人们可能希望按月、按地区、按部门、以及按其他因素查看负债和收入的变化情况,同时希望能提供诸如最大、最小、总和、平均和其他等统计信息。数据仓库、数据立方体、多特征和发现驱动数据立方体,特征和比较分析,以及孤立点分析等,都会在金融数据分析和挖掘中发挥重要作用。

5.货款偿还预测和客户信用政策分析。有很多因素会对货款偿还效能和客户信用等级计算产生不同程度的影响。数据挖掘的方法,如特征选择和属性相关性计算,有助于识别重要的因素,别除非相关因素。例如,与货款偿还风险相关的因素包括货款率、资款期限、负债率、偿还与收入(payment——to——income)比率、客户收入水平、受教育程度、居住地区、信用历史,等等。而其中偿还与收入比率是主导因素,受教育水平和负债率则不是。银行可以据此调整货款发放政策,以便将货款发放给那些以前曾被拒绝,但根据关键因素分析,其基本信息显示是相对低风险的申请。

6.业务关联分析。通过关联分析可找出数据库中隐藏的关联网,银行存储了大量的客户交易信息,可对客户的收人水平、消费习惯、购买物种等指标进行挖掘分析,找出客户的潜在需求;通过挖掘对公客户信息,银行可以作为厂商和消费者之间的中介,与厂商联手,在掌握消费者需求的基础上,发展中间业务,更好地为客户服务。

7.洗黑钱和其他金融犯罪的侦破。要侦破洗黑钱和其他金融犯罪,重要的一点是要把多个数据库的信息集成起来,然后采用多种数据分析工具找出异常模式,如在某段时间内,通过某一组人发生大量现金流量等,再运用数据可视化工具、分类工具、联接工具、孤立点分析工具、序列模式分析工具等,发现可疑线索,做出进一步的处理。

数据挖掘技术可以用来发现数据库中对象演变特征或对象变化趋势,这些信息对于决策或规划是有用的,金融

行业数据的挖掘有助于根据顾客的流量安排工作人员。可以挖掘股票交易数据,发现可能帮助你制定投资策略的趋势数据。挖掘给企业带来的潜在的投资回报几乎是无止境的。当然,数据挖掘中得到的模式必须要在现实生活中进行验证。

参考文献:

丁秋林,力士奇.客户关系管理.第1版.北京:清华人学出版社,2002

张玉春.数据挖掘在金融分析中的应用.华南金融电脑.2004

第3篇:挖掘技术论文范文

关键词:传统装饰艺术;视觉传达设计;民族文化

传统装饰艺术源于生活,源于传统,有着悠久的历史和深厚的民族底蕴,是与人们生活息息相关的一种艺术形态。早期工艺美术作品中的图案就已经具备了强烈的装饰意味,随着人们精神需求和审美意识的不断提高,传统装饰艺术更是成为了人们生活的一部分。作为一门独立的艺术形式,传统装饰艺术以其独特的视觉符号和深厚的文化内涵,重新引起了设计界的关注。特别是视觉传达设计,这门通过独特的视觉传播方式达到传达信息,并且与受众交流、沟通的目的的艺术学科,不仅要吸取和弘扬传统装饰艺术中的民族文化,更要挖掘传统装饰艺术中对现代设计有借鉴价值的东西。

追溯传统装饰艺术发展的渊源,它首先是人们为了生存而进行的造物的主观创造性活动,到后来为了审美需求而进行装饰创作,这是一个漫长的历史过程。在人类发展史上的各个时期,传统装饰艺术作品往往成为见证该时期文化、工艺和艺术水平的代表。并且,传统装饰艺术作品不论其形式如何,都融入了原始先民为生存而激发的全部感情,都体现出了生命的本能、生活的理想和原始文化的底蕴。[1]它不是纯艺术现象,但经过几千年的积淀与传承,传统装饰艺术在意识形态的转变和新技术浪潮的冲击下不断更新拓展,具有了自己鲜明的艺术特征,反映了民族文化的精髓。

在设计语言日趋国际化的今天,视觉传达设计由于本身所具有的对图形、文字等元素的高度概括和简约化特征而面临着设计风格一体化的尴尬趋势,这就对现代设计家提出了更高的要求。由于不同的国家和民族有着不同的传统,其人文风俗和文化底蕴也大不相同,所以,设计家们惊讶地发现,民族的东西是一种很好地区别于其它地域作品的设计语言。于是,一股回归传统,弘扬民族文化的设计思想席卷了整个设计界。不同国度和区域的设计家都在寻找最能反映其民族精神和文化底蕴的设计符号。作为有几千年文化积淀和传承并反映民族文化精髓的传统装饰艺术,它重新引起设计界的关注,并成为设计家们创作的灵感来源,也就不足为奇了。

首先,在对形的处理上,传统装饰艺术遵循“删繁就简”、“以简代繁”的原则,也就是用简洁的线条和规整的外形来表现各种自然形象。如兴起于我国民间的皮影戏和剪纸,其造型多采用简洁单纯的线面,着重表现自然物象的基本特征,它把一些立体的东西作概括化和平面化处理,具有视觉传达设计的意味。出土于西安半坡村仰韶文化时期的人面鱼纹彩陶盆就采用了几何图形的构成手法,将人面概括成圆形,头上的发髻和人面两侧耳部的小鱼都用三角形表示,眼睛眯成一条线,这种抽象化和几何化就是“删繁就简”的具体体现。在视觉传达设计中,提倡用最简洁的图形语言传达最丰富的思想内涵,其实也就是强调对图形的高度概括、提炼和简化,而西方更是注重几何和抽象的图形表达。这些现代设计理念,与传统装饰艺术中对形的处理观念是基本一致的,并且在几千年前就已经开始运用了。另外,传统装饰艺术由于有漆画、陶瓷、蜡染、刺绣、剪纸等多种艺术形式,其内容比较丰富,处理“形”的手法也就各具特色。所以,传统装饰艺术中对“形”的处理手法,很多都是值得我们视觉传达设计学习和借鉴的。其次,传统装饰艺术很注重形式美感,这种形式美感包括造型的独特性、排列的秩序感,画面空间的设计感和点、线、面等形式要素的组合关系。传统装饰艺术中,很多造型艺术本身具有很强的形式美,已经很讲究对称、均衡、比例、线条、色彩等带给人的审美情感。如陶器的造型就很讲究对称和均衡,上面的装饰纹样不仅很注重线条和块面的对比,色彩的搭配也很和谐。并且,还有很多由于机械有节奏的运动和通过重复的构成手法而创造的图案,具有强烈的秩序美。[2]在敦煌壁画中,随处可见用于装饰的各种卷草纹样和适合图案,尤其是藻井的装饰,纹样之丰富,装饰之繁琐可谓叹为观止,然而经过艺术家的合理安排,整个画面显得井井有条。二方连续在不断重复的过程中呈现出强烈的节奏感和秩序感,适合纹样处处彰显艺术家对画面空间的把控,各种视觉元素遥相呼应,虚实相生,并且画面中点、线、面关系处理到位,整体视觉效果统一。可见,传统装饰艺术中对形式美感的追求,就如同我们进行视觉传达设计时所考虑的画面构图和版式编排,目的都是为了形成强烈的视觉美感,从而唤起人们审美心理的愉悦。所以,传统装饰艺术中对形式美感的追求为我们视觉传达设计中的版式编排提供了参考的样本,具有较高的艺术价值。

再次,传统装饰艺术中的纹样往往具有象征意义,如盘子上的暗八仙,象征延年益寿;瓷器上的莲花寓意高洁;民间工艺美术里的葡萄、石榴以及百子图等象征家族繁荣,子孙众多;还有用龙凤表示吉祥如意,用蝙蝠直接表现“福在眼前”等等。[3]传统装饰艺术中的这种象征性与现代设计有异曲同工之处,如视觉传达设计中的标识设计就常采用象征图形来传达企业文化、发展方向或者管理理念等,海报设计中也常用具有一定象征意味的图形传达深刻的思想主题和文化内涵。传统装饰艺术所具有的博大精深的寓意性,对现代视觉传达设计来讲,具有重大意义。一方面,它为我们的设计提供了众多素材,丰富了我们的设计语言;另一方面,它为我们的设计提供了很多思考的切入点,对设计创意具有较强的指导意义;另外,它使我们在面对不同文化背景进行有针对性的设计时,能准确找到传达设计意图的最佳图形符号。所以,传统装饰艺术中的象征性是很值得我们关注的。

另外,传统装饰艺术在造型上采用的夸张和变形,在构图上采用的重复、发射、渐变以及色彩的对比与调和等处理手法,与今天现代设计中的图形语言和形式美的法则以及构成有异曲同工之妙,可见,中国传统装饰艺术对现代视觉传达设计来讲,意义十分重大。

正是因为传统装饰艺术有如此多的地方与现代视觉传达设计保持一致性,才在现代社会显示出了其特有的生命力。所以我们在设计中运用传统装饰艺术宣扬民族文化,弘扬民族精神的同时,更要不断挖掘传统装饰艺术对现代视觉传达设计有借鉴价值的东西。在设计中追求东西方文化的统一,追求传统与现代的统一,才能够在设计中既表现出民族的传统精粹,又使自己的作品更具说服力。

参考资料:

[1]伍毅志.传统装饰艺术在现代社会的价值[OL].中国装饰艺术网./Theoretical/ShowArticle.asp.ArticleID=772

第4篇:挖掘技术论文范文

文献标识码:A  文章编号:1673-7717(2007)12-2480-02

1.形神一体观的理论内涵

形神一体观是中医学基础理论之一,形神学说肇始于《内经》,形与神是人体生命现象中最基本的现象,二者的关系是生命现象中最基本的关系。

1.1形的含义形的本义有二,一为形体、形质。如《易・系辞上》说:“在天成象,在地成形,变化见矣。”二指形状、形貌。如《国语・越语》:“天有还形”。《荀子・非相》:“故相形不如论心,论心不如择术。”中医学所称的形,即是指视之可见、触之可及之脏腑经络组织、五官九窍、四肢百骸等有形躯体,以及循行于脏腑之内的精微物质,此外还指有形物质资生助养下正常的脏腑经络组织功能活动。

1.2神的含义神之本义,系指主宰天地自然变化的自然界本身所固有的客观规律。中医学在充分保留其有关自然界变化莫测规律为神明的同时,还引申出神主宰人体生命活动,反应生命活动规律的生理外在表现以及精神意识思维等内涵进行了阐发,从而进一步丰富了形神理论。中医学理论中,神的概念很广泛,其含义有三:一是指自然界物质变化功能。如荀子说:“万物各得其和以生,各得其养以成,不见其事,而见其功,夫是谓之神。”(《荀子・天论》)天地的变化而生成万物,这种现象是神的表现,有天地之形,然后有神的变化。二是指人体生命的一切活动。中医学认为人体本身就是一个阴阳对立统一体,阴阳之气的运动变化,推动了生命的运动和变化,而生命活动的本身也称之神。神去则气化停止,生命也就完结。可见,神是人体生命的根本,因此,只有积精全神气才能“精神内守,病安从来”。三是指人的精神意识,精神活动的高级形式是思维。

1.3形与神的关系 形与神的关系主要体现形为神之质和神为形之主这两方面。神的物质基础是气血,气血又是构成形体的基本物质,而人体脏腑组织的功能活动,以及气血的营行,又必须受神的主宰。这种“形与神”二者相互依附而不可分割的关系,称之谓“形与神俱”。形乃神之宅,神乃形之主。无神则形不可活,无形则神无以附,二者相辅相成,不可分离。形神统一是生命存在的根本保证。中医学理论中的形神一体观,是养生防病,延年益寿,以及诊断治疗的重要理论基础。

神是机体生命活动的体现,神不能离开人体而独立存在,有形才能有神,形健则神旺,形衰则神惫。故《素问・上古天真论》有“形神合一”及“形与神俱”的理论,说明形与神的关系。经过无数实践证明,神的盛衰的确是健康与否的重要标志之一。反过来看,如形赢色败,虽然两目有神亦是假象。

2.文本挖掘的概念

文本挖掘是指利用数据挖掘技术,从大量的、无结构的文本信息中发现潜在的、可能的数据模式、内在联系、规律、发展趋势等,抽取有效、新颖、可用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。文本挖掘是从数据挖掘中发展来的,是信息挖掘的一个研究分支,用于基于文本信息的知识发现。它是利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。

文本挖掘是一项综合技术,涉及数据挖掘技术、自然语言处理、计算语言学、信息检索及分类、知识管理等多个领域。它主要处理半结构化、无结构化和字符型数据,将数据挖掘技术与信息检索技术相结合,开阔了数据挖掘劫的应用领域,其特点是能够更加有效地对文本数据(例如web页面)进行分析,从而弥补信息检索技术的缺陷与不足。

3.文本挖掘的处理过程

文本挖掘是从数据挖掘发展而来的,但并不意味着将数据挖掘技术简单应用到文本集合上就可以实现文本挖掘。文本挖掘有两个最基本的过程:文本检索与智能分析。为了使最终用户对结果有很好的理解和实用,通常还要列结果进行集成和可视化。因此,实际中的文本挖掘就包合了3个过程,其基本模型见图1。

这一处理过程实际上就是先对文本进行处理。抽取出代表其特征的数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式,其目的在于从文本中扫描并抽取所需要的事实。由于该文档特征向量的维数非常大,所以还需要对特征集进行缩减。缩减完以后便可利用机器学习的各种方法来提取面向特定应用目的的知识模式进行分类或聚类操作。对所得的知识模型进行质量评价,若评价的结果满足一定的要求则保存该知识模型,若不满足则进行新一轮的挖掘工作。

4.文本挖掘在形神一体观中的应用

形神有着很紧密的联系,在临床实践过程中,有指导临床实践的作用,因此在临床实践中运用好形神一体观的理论能很好地提高临床疗效。然而,在实际的临床运用中,有一部分能反应形神一体的临床指标如面色、眼神、睡眠等常被我们临床医生所忽略。如何获得这些指标,以便更好地指导临床的辨证施治,这是本课题听要解决的问题之一。由于中医学语言是一种次语言,基于次语言的语言处理技术能对中医文本进行相当深度的理解式分析和知识抽取,本课题将文本挖掘技术引入希望能在大量的中医文献中,筛选出在临床实践中被我们忽略掉而能反应形神一体观的临床指标。

第5篇:挖掘技术论文范文

统计学论文2000字(一):影响民族院校统计学专业回归分析成绩因素的研究论文

摘要:学习成绩是评价学生素质的重要方面,也是教师检验教学能力、反思教学成果的重要标准。利用大连民族大学统计学专业本科生有关数据(专业基础课成绩、平时成绩和回归分析期末成绩),建立多元線性回归模型,对影响回归分析期末成绩的因素进行深入研究,其结果对今后的教学方法改进和教学质量提高具有十分重要的指导意义。

关键词:多元线性回归;专业基础课成绩;平时成绩;期末成绩

为了实现教学目标,提高教学质量,有效提高学生学习成绩是很有必要的。我们知道专业基础课成绩必定影响专业课成绩,而且平时成绩也会影响专业课成绩,这两类成绩与专业课成绩基本上是呈正相关的,但它们之间的关系密切程度有多大?它们之间又存在怎样的内在联系呢?就这些问题,本文主要选取了2016级统计专业50名学生的四门专业基础课成绩以及回归分析的平时成绩和期末成绩,运用SPSS统计软件进行分析研究,寻求回归分析期末成绩影响因素的变化规律,拟合出关系式,从而为强化学生的后续学习和提高老师的教学质量提供了有利依据。

一、数据选取

回归分析是统计专业必修课,也是统计学中的一个非常重要的分支,它在自然科学、管理科学和社会、经济等领域应用十分广泛。因此研究影响统计学专业回归分析成绩的相关性是十分重要的。

选取了统计专业50名学生的专业基础课成绩(包括数学分析、高等代数、解析几何和概率论)、回归分析的平时成绩和期末成绩,结合多元线性回归的基础理论知识[1-2],建立多元回归方程,进行深入研究,可以直观、高效、科学地分析各种因素对回归分析期末成绩造成的影响。

二、建立多元线性回归模型1及数据分析

运用SPSS统计软件对回归分析期末成绩的影响因素进行研究,可以得到准确、科学合理的数据结果,全面分析评价学生考试成绩,对教师以后的教学工作和学生的学习会有较大帮助。自变量x1表示数学分析成绩,x2表示高等代数成绩,x3表示解析几何成绩,x4表示概率论成绩,x5表示平时成绩;因变量y1表示回归分析期末成绩,根据经验可知因变量y1和自变量xi,i=1,2,3,4,5之间大致成线性关系,可建立线性回归模型:

(1)

线性回归模型通常满足以下几个基本假设,

1.随机误差项具有零均值和等方差,即

(2)

这个假定通常称为高斯-马尔柯夫条件。

2.正态分布假定条件

由多元正态分布的性质和上述假定可知,随机变量y1服从n维正态分布。

从表1描述性统计表中可看到各变量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的标准差分别为10.847,11.531,8.929,9.018,9.221,y1的标准差为8.141;有效样本量n=50。

回归分析期末成绩y1的多元回归模型1为:

y1=-5.254+0.221x1-0.4x2+0.154x3

+0.334x4+0.347x5

从表2中可以看到各变量的|t|值,在给定显著水平?琢=0.05的情况下,通过t分布表可以查出,自由度为44的临界值t?琢/2(44)=2.015,由于高等代数x2的|t|值为0.651小于t?琢/2(44),因此x2对y1的影响不显著,其他自变量对y1都是线性显著的。下面利用后退法[3]剔除自变量x2。

三、后退法建立多元线性回归模型2及数据分析

从模型1中剔除了x2变量,多元回归模型2为:

y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)

在表4中,F统计量为90.326,在给定显著水平?琢=0.05的情况下,查F分布表可得,自由度為p=4和n-p-1=45的临界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自变量的|t|值都大于t?琢/2(45)=2.014,因此,多元回归模型2的线性关系是显著的。

四、结束语

通过对上述模型进行分析,即各个自变量对因变量的边际影响,可以得到以下结论:在保持其他条件不变的情况下,当数学分析成绩提高一分,则回归分析成绩可提高0.242分[4-5];同理,当解析几何成绩、概率论成绩和平时成绩每提高一分,则回归分析成绩分别提高0.149分、0.377分和0.293分。

通过对学生专业基础课成绩、平时成绩与回归分析期末成绩之间相关关系的研究,一方面有利于教师把控回归分析教学课堂,提高教师意识,注重专业基础课教学的重要性,同时,当学生平时成绩不好时,随时调整教学进度提高学生平时学习能力;另一方面使学生认识到,为了更好地掌握回归分析知识,应加强专业基础课的学习,提高平时学习的积极性。因此,通过对回归分析期末成绩影响因素的研究能有效的解决教师教学和学生学习中的许多问题。

统计学毕业论文范文模板(二):大数据背景下统计学专业“数据挖掘”课程的教学探讨论文

摘要:互联网技术、物联网技术、云计算技术的蓬勃发展,造就了一个崭新的大数据时代,这些变化对统计学专业人才培养模式的变革起到了助推器的作用,而数据挖掘作为拓展和提升大数据分析方法与思路的应用型课程,被广泛纳入统计学本科专业人才培养方案。本文基于数据挖掘课程的特点,结合实际教学经验,对统计学本科专业开设数据挖掘课程进行教学探讨,以期达到更好的教学效果。

关键词:统计学专业;数据挖掘;大数据;教学

一、引言

通常人们总结大数据有“4V”的特點:Volume(体量大),Variety(多样性),Velocity(速度快)和Value(价值密度低)。从这样大量、多样化的数据中挖掘和发现内在的价值,是这个时代带给我们的机遇与挑战,同时对数据分析技术的要求也相应提高。传统教学模式并不能适应和满足学生了解数据处理和分析最新技术与方法的迫切需要。对于常常和数据打交道的统计学专业的学生来说,更是如此。

二、课程教学探讨

针对统计学本科专业的学生而言,“数据挖掘”课程一般在他们三年级或者四年级所开设,他们在前期已经学习完统计学、应用回归分析、多元统计分析、时间序列分析等课程,所以在“数据挖掘”课程的教学内容选择上要有所取舍,同时把握好难度。不能把“数据挖掘”课程涵盖了的所有内容不加选择地要求学生全部掌握,对学生来说是不太现实的,需要为统计学专业本科生“个性化定制”教学内容。

(1)“数据挖掘”课程的教学应该偏重于应用,更注重培养学生解决问题的能力。因此,教学目标应该是:使学生树立数据挖掘的思维体系,掌握数据挖掘的基本方法,提高学生的实际动手能力,为在大数据时代,进一步学习各种数据处理和定量分析工具打下必要的基础。按照这个目标,教学内容应以数据挖掘技术的基本原理讲解为主,让学生了解和掌握各种技术和方法的来龙去脉、功能及优缺点;以算法讲解为辅,由于有R语言、python等软件,学生了解典型的算法,能用软件把算法实现,对软件的计算结果熟练解读,对各种算法的改进和深入研究则不作要求,有兴趣的同学可以自行课下探讨。

(2)对于已经学过的内容不再详细讲解,而是侧重介绍它们在数据挖掘中的功能及综合应用。在新知识的讲解过程中,注意和已学过知识的融汇贯通,既复习巩固了原来学过的知识,同时也无形中降低了新知识的难度。比如,在数据挖掘模型评估中,把混淆矩阵、ROC曲线、误差平方和等知识点就能和之前学过的内容有机联系起来。

(3)结合现实数据,让学生由“被动接收”式的学习变为“主动探究”型的学习。在讲解每种方法和技术之后,增加一个或几个案例,以加强学生对知识的理解。除了充分利用已有的国内外数据资源,还可以鼓励学生去搜集自己感兴趣的或者国家及社会大众关注的问题进行研究,提升学生学习的成就感。

(4)充分考虑前述提到的三点,课程内容计划安排见表1。

(5)课程的考核方式既要一定的理论性,又不能失掉实践应用性,所以需要结合平时课堂表现、平时实验项目完成情况和期末考试来综合评定成绩。采取期末闭卷理论考试占50%,平时实验项目完成占40%,课堂表现占10%,这样可以全方位的评价学生的表现。

三、教学效果评估

经过几轮的教学实践后,取得了如下的教学效果:

(1)学生对课程的兴趣度在提升,课下也会不停地去思考数据挖掘有关的方法和技巧,发现问题后会一起交流与讨论。

(2)在大学生创新创业项目或者数据分析的有关竞赛中,选用数据挖掘方法的人数也越来越多,部分同学的成果还能在期刊上正式发表,有的同学还能在竞赛中取得优秀的成绩。

(3)统计学专业本科生毕业论文的选题中利用数据挖掘有关方法来完成的论文越来越多,论文的完成质量也在不断提高。

(4)本科毕业生的就业岗位中从事数据挖掘工作的人数有所提高,说明满足企业需求技能的人数在增加。继续深造的毕业生选择数据挖掘研究方向的人数也在逐渐增多,表明学生的学习兴趣得以激发。

教学实践结果表明,通过数据挖掘课程的学习,可以让学生在掌握理论知识的基础上,进一步提升分析问题和解决实际问题的能力。

第6篇:挖掘技术论文范文

1医学论文的基本要求

1.1创新性医学论文的创新性是指文章要有新意,要发展医学成就,破解医学问题。医学论文有无创新,选题是关键。选题创新是医学论文写作的灵魂,是衡量医学论文价值的重要标准。可体现在:①理论方面的选题应有创新见解,既要反映作者在某些理论方面的独创见解,又要提出这些见解的依据;②应用方面的选题应有创新技术等,也就是要写出新发明、新技术、新产品、新设备的关键,或揭示原有技术移植到新的医学领域中的效果;③创新性还包括研究方法方面的改进或突破。

1.2可行性所谓选题的可行性,是指能够充分发挥作者的综合条件和可以胜任及如期完成医学论文写作的把握程度。选题切忌好高鹜远,脱离实际,但也不应过低,影响主客观的正常发挥,降低了医学论文的水平。影响选题的可行性因素有:①主观条件,包括作者知识素质结构、研究能力、技术水平及特长和兴趣等;②客观条件,包括经费、资料、时间、设备等。

1.3实用性撰写医学论文的目的是为了交流及应用。要从实际出发,选择够指导科研、指导临床、造福人类的主题,因此,选题的实用性尤为重要。

1.4科学性医学论文是临床和医学科学研究工作的客观反映,其写作的具体内容应该是取材客观真实、主题揭示本质、科研设计合理、论证科学严谨、表达逻辑性强、经过实践检验。所以,严格遵守选题的科学性原则,是医学论文写作的生命。

1.5前瞻性要选择有研究价值及发展前途的主题,应积极开发研究新领域、新学科和新理论。

2选题的基本方法

2.1根据课题研究的结论来确定主题这是常用的方法,可分为:①以科研的结论或部分结论作为医学论文的主题;②科研结果与开题时预测不一致,待查出原因后,再寻找主题;③科研达不到预期结果,可总结经验,从反面挖掘主题。

2.2在科研过程中选题医学科研的过程中,有时会出现意外的现象或问题,作者如果能够细心观察、及时发现,可以在这些偶然中获得新的选题。

2.3在临床实践中选题临床工作是医学论文写作取之不尽的源泉,作者在临床中会经常遇到许多需要解决的实际应用问题或理论问题,对此,只要从本学科实际出发,用心思考,会从中产生很多好的主题。其包括:①探讨发病机制与预后情况;②分析临床症状与表现;③研究诊断方法和治疗方法;④疾病的多因素分析等。

2.4从文献资料中选题医学文献是人们长期积累的宝贵财富,是医学论文选题的重要来源。阅读最新文献资料,可以了解当前医学科学研究的进展情况,开拓思路、激发灵感,从而挖掘提炼出好的医学论文主题。

3医学论文的一般体裁

3.1实验研究一般为病因、病理、生理、生化、药理、生物、寄生虫和流行病学等实验研究。主要包括:①对各种动物进行药理、毒理实验,外科手术实验;②对某种疾病的病原或病因的体外实验;③某些药物的抗癌、抗菌、抗寄生虫实验;④消毒、杀虫和灭菌的实验。

3.2临床分析对临床上某种疾病病例(百例以上为佳)的病因、临床表现、分型、治疗方法和疗效观察等进行分析、讨论,总结经验教训,并提出新建议、新见解,以提高临床疗效。

3.3疗效观察指使用某种新药、新疗法治疗某种疾病,对治疗的方法、效果、剂量、疗程及不良反应等进行观察、研究,或设立对照组对新旧药物或疗法的疗效进行比较,对比疗效的高低、疗法的优劣、不良反应的种类及程度,并对是否适于推广应用提出评价意见。

3.4病例报告主要报告罕见病及疑难重症;虽然曾有少数类似报道但尚有重复验证或加深认识的必要。

3.5病例(理)讨论临床病例讨论主要是对某些疑难、复杂、易于误诊误治的病例,在诊断和治疗方面进行集体讨论,以求得正确的诊断和有效的治疗。临床病理讨论则以对少见或疑难疾病的病理检查、诊断及相关讨论为主。

3.6调查报告在一定范围的人群里,不施加人工处理因素,对某一疾病(传染病、流行病、职业病、地方病等)的发病情况、发病因素、病理、防治方法及其效果进行流行病学调查研究,给予评价,并对防治方案等提出建议。

第7篇:挖掘技术论文范文

开发科技创新决策分析服务系统,其基础性的工作是构建元数据仓储知识库。从科技文献数据库种类来看,包括:科技期刊、学位论文、会议论文、标准、专利文献数据库及科技成果、企业产品、科研机构、科技名人等事实型数据库,从这些科技文献中,挖掘其相互逻辑关系、交叉融合间的沟通脉络是知识获取、知识组织的关键。结合科技文献资源的特性和文献检索导航需求分析,万方软件公司提出了基于“知识获取五要素”的知识组织方法【4】,将学科、主题、人物、机构、基金五要素作为知识获取的分析主题,构成二维空间,组成各个要素之间的相互关联关系。五要素之间的相互关联包含了多种科研信息,从各个角度,各个侧面都有无穷的知识可以去挖掘分析。比如:机构和学科关联,可以获得各个机构的研究学科,以及有哪些机构在研究该学科的分析结果;机构、学科和作者关联,可以获得某个学科在某个机构中有哪些人在做相关研究的分析结果等等。因此从知识的组织角度,在构建元数据仓储知识库时,以五要素知识元为基础,通过对海量科技文献的处理(采集、转换、清洗、质量检测)和对五要素的深度标引,最终构建基于五要素的元数据知识仓储,作为开发科技创新决策分析服务系统的基础。

2科技创新决策分析服务体系架构和功能设计

元数据仓储知识库的构建为科技创新决策分析服务提供了基础保障,在此基础上,运用数据挖掘技术、自动分类∕聚类技术、信息可视化等技术,开发基于WEB的科技创新决策分析服务系统。基于元数据仓储知识库的科技创新决策分析服务主要体现在对科技创新能力的定量评价。主要功能设计如下:⑴主题知识脉络分析。主要对主题关键词所代表的知识点或概念在各年度的研究发展趋势和研究热点进行分析。包括:该主题各年度发文总量趋势;该主题的相关关键词;关注该主题的相关人物、机构以及涉及该主题的重要发文期刊。系统可通过用户输入的主题关键词,在主题知识库中挖掘揭示主题相关的各类科研产出情况,并通过主题相关的创新实体分析,为用户推荐权威的研究机构和行业领域专家。⑵

科研人员科研能力评估分析。主要对科研人员(作者)科研产出情况进行统计分析。包括:科研人员的简介;与作者合作过的相关科技人员信息;作者的研究主题、研究方向、主要发文期刊及参与基金项目情况。系统可通过用户输入的科研人员姓名,在人物库中进行机构汇总,并经过用户筛选科研人员现在或历史所在机构,对作者的科研产出能力和科研绩效水平得出最全面和客观的评估和总结。⑶

论文引用情况分析。主要对被引用情况进行统计分析。包括:该论文被引论文具体信息(期刊、学位、会议、技术报告等)和比例、被引数量、被引用频次等。系统按用户输入的论文标题、作者、关键词进行检索,按发文时间、相关度、题名进行排序,从而可以对该论文进行学术质量的综合、定量的评价。该功能即可独立使用,也可嵌入在科研人员科研能力评估分析系统中使用。⑷机构创新能力评估。主要对机构的期刊论文、学位论文、会议论文、专利、成果及机构承担的国家基金项目进行统计分析,从而反映出机构的总体科学实力和科研绩效水平。系统可通过用户输入的机构名称,通过简称俗称的规范对应,按论文类别、基金类别等方式进行机构科研产出的揭示,得出机构的科研能力和学术定位。

3科技创新决策分析服务系统的应用

科技创新决策分析服务系统目前在科技文献共享服务平台中已开始应用,平台主要为用户提供了作者科研协作关系、主题知识脉络分析、机构科研能力评估三种服务。⑴作者科研协作关系。在作者科研协作关系服务中,可以分析出用户所关心作者的如下信息:①作者合作关系:通过可视化的与合作者的关系呈现,可以分析出作者在科研工作中与合作者的合作关系,节点间的距离越近,表明与合作者合作发表的论文次数越多,合作关系越紧密。②作者科研产出统计:可以统计出作者总体的数量。③作者研究主题和研究方向:可以分析出作者的研究主题和按学科分析的研究方向。④主要发文期刊:可以统计出作者在不同期刊的数量,获得作者关注的期刊情况。⑤作者简介:获得作者单位、职称、职务等基本信息。在知识脉络分析服务中,以用户输入的主题词为分析依据,通过可视化信息展示,分析出主题词所代表的知识点或概念在各年度的研究发展趋势和研究热点。并提供主题词所关联的相关词、相关人物、相关期刊和机构的知识脉络。

4结语

第8篇:挖掘技术论文范文

>> 基于本体的网络舆情观点挖掘方法研究 基于热点文件下载的网络舆情信息挖掘方法研究 基于网页文本获取的高校网络舆情监控 基于OAG循环的网络舆情管理模型研究 基于大规模文本数据情感挖掘的企业舆情研究 基于文本挖掘的网络媒体报道研究 基于模糊神经网络的Web文本挖掘系统 基于PDCA循环的预算管理 基于PDCA循环的绩效考评 基于 PDCA 循环方法的沥青路面质量动态管理的研究 基于数据挖掘的网络舆情预警决策支持系统 基于数据挖掘技术的网络舆情智能监测与引导平台设计研究 基于Web挖掘的突发事件网络舆情预警研究 基于Web数据挖掘的网络舆情分析技术研究 基于Web挖掘的突发事件网络舆情预警策略探讨 基于数据挖掘技术在网络舆情预测中的应用 基于数据挖掘的高校网络舆情分析系统设计与实现 基于数据挖掘的舆情观点挖掘研究 基于蛙鸣博弈的网络舆情与政府监管的模型浅析 基于PDCA循环的绩效管理体系的构建 常见问题解答 当前所在位置:.

[2]张玉亮.突发事件网络舆情的生成原因与导控策略――基于网络舆情主体心理的分析视阈[J].情报杂志,2012,31(4):54-57.

[3]许鑫,章成志,李雯静.国内网络舆情研究的回顾与展望[J].情报理论与实践,2009,32(3):115-120.

[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.

[5]郑军.网络舆情监控的热点发现算法研究[D].哈尔滨哈尔滨工程大学,2007.

[6]陈耘可,李博,郑天翔.PDCA循环在煤炭企业质量标准化建设中的研究与应用[J].煤炭经济研究,2013,33(2):77-79.

[7]辛敏.PDCA理论在护理质量管理中的应用研究[D].硕士学位论文:山西医科大学,2010.

第9篇:挖掘技术论文范文

【关键词】 科技文献 评价体系 评价指标

二十世纪八九十年代是科研评价发展的高峰时期,科研管理专家和经济学家提出了许多系统的评价方法[1]。科研评价是科研管理工作的重要环节和核心内容之一,是推动科技事业持续健康发展,促进科技资源优化配置,提高科技管理水平的重要手段和保障[2]。而在科研评价中,科研产出始终作为科研评价的主要内容。本文通过对科技文献的特点进行分析,找出各个要素以及要素间的语义关系。通过对这些要素进行深入分析,在原有的理论和实践的基础上,对科技文献产出评价体系重新设计,分别从科研机构综合科研实力、核心作者学术力、学科发展、最新科研动向(领先研究领域),需求信息特点等五个方面,建立了一个相对系统全面的针对科研机构的科研评价指标体系。

1 科技文献产出评价体系的作用

科技文献是基础性研究成果的主要表现形式,也是表征一个国家、地区基础性研究实力的主要指标[3]。近二十年,一直被高等院校、科研院所以及政府部门作为评价科研能力水平和科研成果的重要指标。科技文献产出评价体系的作用主要体现在三个层次上:宏观上评价国家的科研创新水平,反映一个国家基础研究、应用研究等方面的情况,在一定程度上反映了一个国家的科技技术水平和国际竞争力水平;中观上评价科研机构的科研业绩,反映了科研机构的学术、科研水平及科研机构间的竞争力;微观上评价科研人员的科研能力,反映某个机构的团队或个人的学术地位和影响。

2 科技文献产出的要素

本文通过对科技文献的特点进行分析,找到各种要素以及要素间的语义关系。通过对这些要素的统计分析,可以展开计量分析、主题揭示、关联挖掘和综合评价,从而获取对科技文献产出相关要素更深入全面的认识。

2.1 科技论文产出的相关要素

从科技文献中可以获得题名、摘要、作者、作者机构(单位)、关键词、参考文献、分类号以及基金项目等相关要素。科技论文的相关要素如下:

(1)科技论文是学术刊物上发表的科学研究成果。科技论文(题名、作者、机构(单位)、摘要、关键词、参考文献、发表期刊或会议)。

(2)作者,科技文献的主要创作者,是科技文献产出的源头。作者(姓名、性别、出生年月、职称、单位、邮箱、研究兴趣)。

(3)期刊,科技文献产出的媒介和主要载体。期刊(名称、ISSN、主办单位、地址、邮箱、出版周期、是否核心、影响因子)。

(4)机构(单位),是科研人员联系形成科研团体的主要方式。机构(名称、地址、邮编)。

(5)基金,是资助基础科研工作的主要方式。基金(名称、编号、类别、起止时间、额度、主持人、依托单位)。

(6)关键词,作为科研人员对科研成果内容提纲挈领的体现,是科技文献产出的主要内容特征。

2.2 科技文献产出要素间的语义关系

要素与要素之间关系有三种:父子关系(等级)、相等关系(等同)和相关关系。相关关系根据紧密程度,又分为直接相关和间接相关。直接相关是指直接定义了概念间的关系,没有经过任何其他的概念;间接相关是指某两个概念虽然没有直接定义关系,却通过其他概念产生了关联。

科技文献产出要素的间关系如下图1,其中的父子关系如文献与参考文献;相等关系如作者与项目参与人员;直接相关如作者与文献之间是撰写与被撰写的关系;间接关系如基金项目与文献之间通过作者产生关联。

3 科技文献产出评价指标体系

根据科技文献产出要素以及要素之间的关系,围绕科技文献产出分别从科研机构综合科研实力、核心作者学术力、学科发展、最新科研动向(领先研究领域),科研人员需求信息特点等五个方面设计评价体系。

3.1 科研机构综合科研实力评估指标

科研机构是一个国家科技创新能力的重要体现,在提升国家综合实力、创新能力、科技竞争力等方面发挥着主导作用。基于文献计量的角度,通过文献发表数量、被引篇数及频次、专利数量以及合作论文数量等指标,对科研机构的成果(科技文献)进行分析得出科研机构的综合科研实力总体情况。

科研机构综合实力评估分别从产出力、影响力、创新力和合作力四个方面进行评估,指标包括:

(1)科研机构生产力:反映科研机构科研产出能力。论文产出数量:科研机构在一定时间范围内发表的论文数量;(2)科研机构影响力:反映科研机构的学术水平和影响力。引文量(篇/次):科研机构在一定时间范围内发表的论文被引用的数量(篇/次);篇均引用次数:科研机构在一定时间范围内所篇均被引用次数;SCI/EI收录的论文数量:科研机构在一定时间范围内被SCI/EI收录的论文数量;核心期刊刊载的论文数量:科研机构在一定时间范围内被核心期刊刊载的论文数量;(3)科研机构创新力:反映科研机构的自主创新能力和创新水平。专利数量:科研机构在一定时间范围内公开的专利数量;基金立项数:科研机构在一定时间范围内基金立项数量;科技成果数量:科研机构在一定时间范围内科技成果数量;(4)科研机构合作力:反映科研机构与国际、国内交流的活跃程度;会议论文数量:科研机构在一定时间范围内发表会议论文数量;合作论文数量:科研机构在一定时间范围内与其他机构合作的论文数量的比例。C=No/(No+Ns),式中C:合作率;No:合作论文总数;Ns:独立论文数。

3.2 核心作者群学术力评估指标

科技文献的作者是推动学科发展的主体,对机构或学科的核心作者研究无疑具有重要意义。核心作者群是具有较高的学术产出和学术影响力的作者集合,是学科发展和创新的主体。通过对作者的发文量、被引次数等多方面指标,采用文献计量、引文分析、数理统计等方法,综合以上指标用定量的方法对核心作者学术力进行综合评估。核心作者群学术力评估指标包括:

(1)发文方面。

作者论文产出数量:作者在一定时间范围内发表的论文数量;

作者合作论文数量:作者在一定时间范围内与他人合作创作的论文数量。

(2)引文方面。

总被引次数:作者在一定时间范围内发表的论文被引用的数量

自引次数:作者在一定时间范围内发表的论文自己引用自己文献的数量

3.3 学科发展评价指标

学科发展评价则在于客观科学地分析被评学科目前的发展基础、发展状况和态势,预测将来发展可能达到的程度,发现学科发展过程中存在的问题,分析问题产生的原因,探讨解决问题、促进学科发展的对策。开展学科发展评价,从而为制定学科发展战略以及进行学科建设和管理提供直接、有力的支撑。学科发展评价指标包括:(1)学科文献数量分布:科研机构在一定时间范围内发表的论文在各个学科分布数量;(2)学科文献数量增长趋势:科研机构在一定时间范围内各个学科论文数量的增长趋势;(3)学科关键词及频次:该学科在一定时间范围内论文的主要关键词以及关键词的出现次数;(4)学科题名及频次:该学科在一定时间范围内论文题名以及题名的出现次数;(5)学科文献引文量:科研机构在一定时间范围内该文献被引用的数量。

3.4 最新科研动向(领先研究领域)分析指标

基金论文的生产能力是衡量这个学科科研实力和水平、科研组织能力及学科社会地位的重要标志,而权威期刊刊载基金资助论文往往代表着该研究领域的新动向、新趋势、制高点。研究科学基金资助研究论文生产能力,对了解科研机构科学学发展动向具有重要的现实意义。

基金论文总数量:科研机构在一定时间范围内发表基金论文数量;

基金论文增长趋势:科研机构在一定时间范围内基金论文的增长趋势;

基金论文主题分布:科研机构在一定时间范围内基金论文的主题分布;

基金论文高频关键词:科研机构在一定时间范围内基金论文的出现频次高的关键词;

基金论文被引用量:科研机构在一定时间范围内基金论文被引用次数。

3.5 科研人员需求信息的特点分析指标

分析引文是研究科研人员使用信息的一种重要途径。根据科学文献的引文可以研究人员的信息需求特点。一般来说,附在论文末尾的被引用文献是科研人员所需要和利用的最有代表性的文献。因此,引文的特点可基本反映出用户利用正式渠道获得信息的主要特点。通过对科研人员所发表的论文的大量引文统计,可以获得与信息需求有关的许多指标,如引文数量、引文的文献类型、引文的语种分布、引文的时间分布、引文出处等。这样就可以从中挖掘出科研人员需求信息的特点。

引文数量:反应科研人员对已有研究成果和最新信息的利用能力;

引文国别:弄清与国际文献交流的数量和流向;

引文语种:分布反映科研人员对外文文献利用能力;

引文文献类型:有利于确定文献情报搜集的重点;

引文时间分布:吸收新信息和新成果的能力。

4 结语

通过查阅大量文献可以发现,国内外在基于科技论文产出评价体系研究已经非常丰富,采用的研究方法和研究技术也已经比较成熟,研究视角多种多样,取得了许多重要的研究成果。但是可以发现,我国对高校科研评价相对较多,对科研机构的评价比较匮乏,在科研评价的建设上还缺乏一个系统全面的指标体系。本课题在理论研究方面进一步完善了科技文献产出评价指标体系研究,从科研机构综合科研实力、核心作者学术力、学科发展、最新科研动向(领先研究领域),需求信息特点等五个方面,对科技文献产出数据进行分析和挖掘,建立一个相对系统全面的科研机构的科技文献产出评价指标体系。

参考文献:

[1]刘作义,陈晓田.科学研究评价的性质、作用、方法及程序[J].科研管理,2002,23(2):33-40.

[2]中国社会科学院外事局辑.美国社会科学现状与发展[M].社会科学文献出版社,2001:370-393.

[3]HENK E.Moed,Research Assessment in Social Science and Humanities[EB/OL].http://lingue.unibo.it/evaluationin-thehumanities/Research Assessment in Social Science and Humanities.pdf.2010-10-15.