前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的关于人工智能的综述报告主题范文,仅供参考,欢迎阅读并收藏。
系统综述(systematicreview)又称系统评价,起源于医学领域,是指在复习、分析、整理和综合原始文献的基础上进行的二次研究方法[12],目前已经被广泛应用于循证医学(evidence-basedmedicine)[13],逐步应用于社会学、教育学、图书情报等领域[14]。系统综述可被精确区分为两种类型:(1)定性系统综述,原始文献的研究结果被分析与总结,但未经统计学合并;(2)定量系统综述,又称元(meta)分析或荟萃分析,应用统计学方法对若干个研究结果进行定量统计合并的过程。在某些不强调或较难实施统计学合并的研究领域,直接将定性系统综述称为系统综述,将其作为一种对某研究问题、主题或现象的可获得的所有研究进行评价和解释的方法,目标在于通过一种可信的、严格的以及可审计的方法来提供公正的研究评价[15]。信息科学与旅游科学的交叉研究属于较难实现统计学合并的研究领域,因此本文采用定性系统综述方法,简称系统综述。本文关于信息科学与旅游的交叉研究的系统综述研究包含如下步骤:(1)确定研究问题为了全面了解与分析信息科学与旅游的交叉研究现状,本文确定了如下系统综述的研究问题:①信息科学研究中面向旅游的研究主要有哪些方面?②旅游研究中与信息科学相关的研究主要有哪些方面?③信息科学与旅游的交叉研究有哪些趋势?(2)确定文献搜索策略基于所确定的研究问题,设计如下文献搜索策略:①搜索工具与数据库:采用GoogleScholar、IEEEXplore、ScienceDirect;②搜索关键字:采用关键字组合“tourism”AND(“computer”OR“communicationtechnology①”),即“旅游”与“计算机”或“通信技术”同时出现;计算机科学与技术是信息科学研究领域中最为活跃的方向之一,计算机科学与技术、通信科学与技术在信息科学研究中具有一定的代表性;经过反复搜索测试,“计算机”与“通信技术”作为关键字与“旅游”进行组合搜索,搜索结果能够较为全面地覆盖信息科学与旅游的交叉研究,实现本文系统综述的研究目标;③搜索的时间范围:2000年之后。(3)文献搜索按照上述搜索策略分别在3个工具与数据库进行搜索。GoogleScholar显示共有54500条结果(2011年12月22日),其只提供最相关的前1000条;IEEEXplore(搜索字段为“摘要”)共搜索到46条结果(2011年12月24日);ScienceDirect(搜索字段为“题目”或“关键字”或“摘要”)共搜索到36条结果(2011年12月24日)。(4)文献筛选在上述搜索到的条目中,按照表1所示的文献入选和剔除标准,筛选用于本文系统综述的文献。表1所示第一步完成后共有512篇文献入选。第二步经过多次逐步细化筛选,最终确定用于本文系统综述的入选文献共245篇,其中期刊论文158篇,会议论文87篇。245篇文献来自106种期刊和58种会议,文献来源分散且涉及领域广泛,有关文献来源、作者等的定量分析结果已另文撰写[16],本文则侧重对系统综述研究步骤(1)所确定的研究问题的回答。(5)分析与完成报告根据系统综述研究步骤(1)所确定的研究问题,对入选文献进行分类、分析与总结。分析结果见下一章节。为了分别回答问题1与问题2,本文需要将入选文献划分为旅游研究和信息科学研究两种视角,分别简称为旅游类研究和信息类研究。而事实上,当两种研究产生交叉与融合,进行上述严格区分是较为困难的。为此,本如下处理:(1)按照文献来源所属学科范畴进行划分,如来源于TourismManagement及《旅游学刊》的文献则划入旅游类,来源于ExpertSystemswithApplications及《计算机工程》的文献则划入信息类;(2)按照期刊载文的学科范畴划分,如《华东经济管理》刊载旅游类文章,则归为旅游类,《北京工商大学学报(自然科学版)》刊载信息技术类文章,则归为信息类;(3)按照入选文献的具体内容划分,一些综合性期刊无法直接确认属于哪一类,则阅读入选文章原文,如果偏重人文社会学视角,则归入旅游类;如果偏重信息科学及技术视角,则归入信息类。由此,经管类、电子商务、地理类等期刊归入旅游类中,测绘类期刊归入信息类中;两类分别含有入选文献147篇和98篇。
综述结果与分析
1:信息科学研究中面向旅游的研究主要有哪些方面?“面向旅游”并不特指专用于或专门针对旅游的研究,而是指其研究问题由旅游领域而产生,或者旅游是其最为典型的应用。面向旅游的信息科学研究几乎涉及了信息科学研究范畴的各个方面,而许多研究领域更是体现了信息科学领域较新及较前沿的研究方向与热点,如表2所示①。面向旅游的信息科学研究中最受关注的研究主题是应用系统、人工智能、地理信息系统、移动应用、推荐系统以及语义网与本体等;而Web服务、虚拟现实、普适计算、计算机仿真也受到了一定程度的关注。下面对表2排序前10的研究主题的进展情况进行详细阐述。应用系统指面向各种终端设备,如电脑、手机、PDA(掌上电脑)、电话等使用者的可用人机交互系统,也包含网站(Web)应用系统。本文为了强调移动应用和推荐系统两类特殊的应用系统,在本类研究主题统计中将其排除,另列类别。应用系统研究占据了面向旅游的信息科学研究的较大比重。一方面是因为信息科学向旅游研究中进行渗透的最初方式正是其在旅游行业中的实际应用;另一方面是入选文献中我国研究占据较大比重且较集中于该类研究。应用系统的相关研究可分为:①战略设计或实施建议,如航空业信息技术应用战略与战术研究[17],以及非洲撒哈拉以南地区的旅游组织实施电子商务的建议[18];②技术架构设计,如基于面向服务的体系架构(serviceorientedarchitecture,SOA)的旅游资源信息服务模型研究[19];③系统设计与开发,如一种智能旅游行程导航系统[20],以及四川[21]、山西[22]和赣东北[23]等目的地或区域管理信息系统的设计与开发。人工智能是面向旅游的信息科学研究较多采用的方法与技术,可将相关研究分成以下几个方面:①推理,即采用人工智能推理技术支撑各种应用系统,如基于贝叶斯网的旅游行程推理[24];②数据挖掘,如旅游突发事件预测预警[25,26]、消费者特征分析[27]、基于机器学习的旅游博客观点挖掘[28]以及数据仓库技术在旅游业中的应用[29];③主体(agent),如主体旅游者进行数据采集、分析并向旅游者进行旅游推荐[30-32];④评价,如基于神经网络的上海旅游可持续发展能力评价[33];⑤决策支持,如旅游目的地选择决策支持系统[34]。旅行活动是一种人地关系,地理信息是设计与开发各种旅游应用系统的重要信息资源,地理信息系统就是为这些应用系统提供地理信息使用接口的重要支撑系统。个性化目的地推荐系统[35]、基于短信服务的餐馆推荐系统[36]、导航系统[20]、位置服务系统[37]、旅游资源监控预警系统[38]以及古建筑信息系统[39]等应用系统都离不开地理信息系统的支撑。上述“应用系统”主题研究中,几乎所有面向目的地与区域的管理信息系统的设计与开发都离不开地理信息系统。有关旅游地理信息系统本身的研究也较为活跃,如雅安市WebGIS(万维网地理信息系统)的实现研究[40]、基于WebGIS的旅游地理信息系统研发[21]以及泰山三维(3D)地理信息系统的研发[41]。移动通信技术,特别是移动终端技术的快速发展,使得面向旅游者手持终端(如手机、PDA)的各种移动应用得到了迅猛发展。相比较于传统的计算机应用,移动应用较好体现了旅游以“人为中心”而不是计算机为中心的理念。相关研究主要集中于面向旅游者服务的信息推送与搜索[37]、导航[42,43]、实时路线及目的地推荐[34,36,44,45];并向普适计算的方向进行扩展,如手机电子门票[46]、基于全球定位系统的车辆监控与导航以及手机与环境之间的交互游戏[47]等。除了面向旅游者服务外,移动应用研究还包含面向旅游研究者、旅游公共管理与服务部门以及旅游企业的旅游行为数据采集与分析,如可通过基于手机数据的散客流分析,对目的地住宿的可容纳量进行估算[48]。移动应用中与位置信息相关的应用也被称为位置服务,如位置信息服务、导航以及实时路线推荐等。推荐系统是为解决互联网“信息过载”问题而提出的一种个性化服务,帮助用户从大量信息中发现其可能感兴趣的或者满足其需求的资源,如信息、服务以及商品等,并自动生成个性化推荐[49]。目前,推荐系统在旅游中的典型应用为旅游行程规划,可面向旅游电子商务用户[50],也可面向互联网用户[4,51,52];可规划旅行的时间、地点以及活动等全套行程规划[4,51-53],也可推荐旅游目的地[35]、餐厅[36]以及住宿[54]等。推荐系统主要采用人工智能[50]、语义网[24,53]、移动应用[36,45]、定位与地理信息系统[36]等技术。相关研究还涉及用户个性语义模型[55]、系统架构设计[56]等方面。语义网(semanticWeb)是传统网站的一种扩展。在语义网中,信息具有明确的含义———语义,人类语言与机器语言之间能够相互理解,机器能够自动地处理和集成网上对于人而言可用的信息,使得人与机器之间的交流变得像人与人之间交流一样顺畅。本体(ontology)是用来描述网络文档中术语的明确含义及其之间关系的技术,能够实现语义网信息处理的自动化,提高网站搜索的准确性以及网站服务质量[57]。旅游领域是语义Web与本体研究的问题来源与典型应用对象,如基于语义Web与本体技术的旅游中小企业间信息交换[58]、动态生成客户供给的客户关系管理[59]、旅游网站信息系统[60]、旅游目的地管理系统[61]以及旅行推荐系统[24,30,53,54,56]。这些系统能够对旅游领域知识进行本体表达,从而集成对于用户有用的或者满足用户需求的语义信息;其中,旅游知识域的本体表达[62]、行程规划的语义信息推理[24]是实现这些系统的关键技术。Web服务(Webservices)是Web上数据和信息集成的有效机制,是解决Web上各种应用系统高维护与更新代价的最为合理的解决方案[57]。因此,Web服务在旅游中主要用于信息集成、交换以及系统之间的互操作[63,64]。Web服务技术对于旅游目的地管理而言非常重要,能够实现旅游目的地营销系统与旅游企业之间以及目的地旅游企业之间的异构数据交换、共享以及集成[65]。Web技术还是Web推荐系统的重要技术之一,能够获取推荐系统所需的动态与实时的万维网数据[52]。虚拟现实技术主要用于旅游目的地、景区、景点的市场营销。国内的相关研究集中于旅游目的地、景区及景点等的虚拟展示,如西安市360度全景虚拟旅游系统[66]、北京妙峰山古建筑群的网络虚拟漫游系统[67]、村镇民俗旅游资源的立体展示[68]。郑鹏等认为这是一种旅游产品的虚拟试用体验[69]。而国外的相关研究则侧重于游客的现场体验,特别针对历史文化遗产与遗迹,如意大利的PEACH(personalexperiencewithactiveculturalheritage,个性化体验活动的文化遗产)项目针对提升游客在博物馆对于文化遗产的体验[70]以及马来西亚凯利城堡(Kellie’sCastle)的虚拟旅游原型研发[71]。虚拟现实技术在旅游中的应用还包含了旅游开发与遗产保护,如十三陵景区的虚拟复原[72]。普适计算模式下人们能够在任何时间、任何地点、以任何方式进行信息的获取与处理。由于移动终端设备及其应用的发展,普适计算在旅游研究中非常活跃,如一种面向移动终端的基于旅游本体的信息广播与推送方法研究,用以解决传统移动终端对于旅游者需要花费昂贵的“漫游”网络连接费用以及需要主动获取信息等问题[73];一个面向德国雷根斯堡(Regensburg)游客的移动终端游戏的设计与应用,游客可以通过在空中晃动手机来与游戏中的历史人物沟通,该游戏以一种有趣的方式向游客介绍雷根斯堡的历史[74]。普适计算是我国目前形成研究热点的物联网应用的基础理论与技术之一。计算机仿真技术研究中面向旅游的研究包含基于概率统计方法对上海旅游服务系统顾客满意度进行仿真[75]以及基于系统动力学方法对新度假制度对城郊旅游的影响进行仿真[76]等。
问题2:旅游研究中与信息科学相关的研究主要有哪些方面?旅游研究中与信息科学方法与技术相关的研究范围较为广泛,表3显示本文入选文献中归入旅游类的研究主题共有43种①。其中最受关注的研究主题是电子商务、网站评估以及在线消费者行为。人工智能、移动通信、地理信息系统等信息科学方法与技术在旅游中受到了相应重视。旅游网站空间、系统评价、网络营销、应用系统以及正在大范围普及的Web2.0互联网应用模式也受到了旅游研究的重视。信息科学领域中的某些前沿研究也在旅游研究中得到了关注,如计算机仿真、推荐系统、Web服务、语义网与本体。进一步对表3各类主题的文献内容进行剖析与归纳,可以得到以下旅游研究中与信息科学方法与技术相关的6个研究范畴:信息技术对旅游的影响研究主要包含信息技术对旅游产业的影响与信息技术在旅游中的应用影响两个方面。其中,信息技术在旅游中的应用影响又分为现状研究、作用研究、影响因素研究等方面。信息技术对旅游产业的影响主要体现在其对传统旅游产业价值链的重构上,集中表现于电子商务对旅游产业的影响[77]、新型电子中介(供应商、互联网门户网站、拍卖网站、数字电视、移动商务等)对传统电子中介(计算机订座系统、全球分销系统等)的影响[78]、信息技术对分销渠道的影响[79]。信息技术在旅游中的应用现状研究主要侧重于旅游企业,如电子商务在北京旅游企业中的应用现状[80]、土耳其旅行社对互联网的使用情况[81]、爱尔兰旅游中小企业和乡村微型住宿业对信息技术使用情况的分析[82]、南非中小旅游企业对于信息技术使用的状况研究[83].信息技术对旅游的作用研究既包含旅游企业整体层面,如信息技术对埃及中小接待企业发展的积极作用[84]、知识管理对于澳大利亚旅游业的作用[85]等;又包含旅游企业的某项具体功能,如信息技术应用对于泰国酒店运营效率的作用[86];还包含旅游资源开发与保护方面,如计算机技术对于泰国古建筑重建的重要作用[87]。信息技术应用的影响因素研究对于旅游业如何有效应用信息技术而言是非常重要的。相关研究包含:①电子商务的应用影响,如泰国旅游企业应用电子商务的影响因素[88]、酒店业应用电子商务的影响因素[89];②网络营销对旅游企业的影响,如互联网广告对旅行社运营的影响[90];③旅游企业对技术应用的态度,如希腊旅行社对互联网技术的使用情况与态度[91];④旅游者对信息技术使用的态度,如游客在度假时是否愿意使用基于技术的信息[92]、影响旅游者使用互联网进行旅游规划的因素[93]。目前,信息技术在旅游中的应用模式研究主要集中于电子商务模式、网络营销以及Web2.0。电子商务模式的相关研究有区域旅游电子商务开发计划研究[94]、旅游电子商务模式现状与趋势研究[95]、旅游电子商务模式[96]以及运营模式研究[97]等。网络营销是除了电子商务之外信息技术在旅游中最主要的应用模式。网络营销研究多围绕网站展开,如英国农村接待企业网站营销现状研究[98]、塞尔维亚旅游网站网络促销现状和形式研究[99]、美国旅游官方网站网络营销使用分析[100]、旅游目的地营销组织网站的客户需求研究[101]。此外,在线葡萄酒旅游[102]以及在线客户关系管理[103]都是一种网络营销方式。随着互联网技术的发展,Web2.0作为一种新型的互联网应用模式受到了旅游领域的高度关注。相关研究可以分为如下几个方面:①营销,即基于Web2.0的网络营销方式,这是目前旅游研究领域最为关注的方面,如Web2.0对克罗地亚旅游产品的营销作用研究[104]、博客对于旅游市场营销的中介作用[105];②旅游者行为与服务,如Web2.0下网络旅游消费行为模式及旅游网站应用研究[106]、基于Web2.0的用户个性化定制研究[107]以及基于人工智能技术的微博“旅游情感”数据挖掘[108];③网站分类,如Web2.0旅游网站的分类机制研究[109]。此外,面向产业价值网络的四川旅游信息资源整合推进模式和机制是一种信息技术在旅游中应用模式的有效探索[110]。网站评价是信息技术应用评价研究中最主要的内容[111]。从评价对象上看,相关研究涉及官方旅游网站[112]、目的地营销组织网站[113]、各国及地区旅游网站[114-116];从评价内容上,包含有效性评价[112]、可用性评价[114,117]、使用分析[118]、功能分析[113,119]、网站设计[116,120]、网站旅游本体分析[121]、游客价值[116]以及网站访问者分析[119]等;从评价方法上有调查法[114]、启发式方法[115]、数据包络分析法[122]、内容分析法[113]、网站日志分析法[118]、领域本体分析法[121]等。随着移动通信技术的发展,移动应用在旅游领域得到了广泛应用,针对移动应用系统的评价研究也受到研究者的关注,如从用户角度对移动应用进行评价[123]、各种移动旅游者指南功能与可用性评价[124]。较传统旅游研究对象,如旅游资源、旅游企业以及旅游者等,信息社会视角的旅游研究对象发生了扩展,如从旅游者的地理时空变化扩展到了在线旅游者行为变化,从旅游资源的空间格局扩展到了旅游网站的网络结构等。在线旅游者行为研究中最受关注的是消费行为研究,如消费影响因素与满意度[125]、忠诚度与推荐行为[126]、在线分享行为[127]。随着社会网络的形成,在线旅游者的情绪研究得到关注,如通过旅游者在论坛、博客(微博)上的评论分析旅游者情绪[3,108,128],相关方法包含内容分析[3]、统计与语言学分析[128]、人工神经网络方法[108]以及数据挖掘技术[127]等。一项研究还将旅游者的博客进行了计算机可视化,用来辅助其他旅游者的旅行计划[129]。此外,旅游目的地营销组织网站的旅游者在线行为也受到研究者的关注[101]。目的地地理尺度的旅游网站空间结构也受到研究者的关注,主要包含方法研究与案例研究。方法研究有统计方法[130]以及网络拓扑图方法[131-133]等;案例包含欧洲[131]、意大利厄尔巴岛[132]以及河北省[134]等。旅游虚拟社区是社会信息化背景下形成的新型社区,部分旅游研究者对其给予了关注,如针对具有中国文化背景的芒果社区网(Mango)的综合性研究[135]。社会信息化下的旅游研究方法包含两个方面的含义。一是指传统旅游研究方法可借助社会信息化背景进行扩展,如网络调查方法[1,136]扩展了传统现场发放问卷的调查方法;基于射频识别(RFID)与全球定位系统(GPS)技术的追踪系统扩展了传统旅游者游憩行为问卷调查方法,并提高了数据的精度[137,138];遥感与地理信息系统(RS&GIS)技术可提高旅游资源监测的准确性[139]等。二是指旅游研究方法对于信息科学方法与技术的借鉴。人工智能是旅游研究中采用最多的信息科学方法与技术,其在旅游研究中的应用可以分为以下几个方面:①需求预测,如基于人工神经网络的西班牙巴利亚利群岛旅游时间序列预测[5]、遗传算法在旅游需求预测中的应用[140]、模糊时间序列及灰色理论在短时间序列旅游需求预测中的应用[141]以及人工智能方法与其他预测方法的比较[142];②在线行为分析,如基于机器学习(machinelearning)的在线消费者行为数据挖掘[127];③基于主体(agent)的旅游系统仿真研究,采用人工智能研究领域的重要分支———多主体系统(multi-agentsystem,MAS)对多层面、多地理尺度旅游系统进行计算机仿真,探索旅游主体之间的相互作用与规律,如基于多主体的旅游空间结构演化研究[143]、旅游者在目的地[144]以及景区范围的动态性研究[6]。计算机仿真方法与技术在旅游研究中的应用也受到了旅游研究者的关注,具体研究包含以下几个方面:①预测,如旅游收入预测[145];②旅游经济研究,如区域旅游经济系统动力学分析[146];③旅游主体行为研究,如上述人工智能研究中基于主体的旅游系统仿真研究[6,143,144]。地理信息系统(GIS)是信息科学与地理科学的交叉研究领域,作为旅游研究的一种研究方法或工具,主要被用于旅游资源评价[147,148]。随着移动终端设备在旅游者中的普及,旅游研究者对移动应用的相关研究给予了较大关注,如上下文适应的移动应用体系框架设计[149]、上下文相关的信息推动服务系统设计[150]以及用于博物馆导游的多媒体技术研究[151]。语义网与本体是信息科学的前沿领域,但由于其对于提升面向旅游者的网络服务质量具有非常重要的作用,也受到了旅游研究者的关注,如用于搜索引擎的旅游域语义表示研究[152]。智能系统作为信息科学的前沿领域,在旅游研究中也受到了关注,除了综述性研究外[153],还出现了有关智能系统设计方面的研究[154]。应用系统的规划建议与系统结构设计是旅游研究者较为关注的信息技术研究,如基于知识管理视角的目的地管理系统设计[155]。而其中以我国的相关研究为最多,如赣东北网络旅游信息系统研究[23]、上饶市旅游资源信息系统[156]。数字旅游是一种典型的旅游与信息技术的综合叉研究主题,在我国旅游研究领域受到了关注,既包含了偏重技术的研究,如数字旅游的体系框架[157],也包含了围绕数字旅游系统建设的保障体系研究,如相关政策法规方面的研究[158]。
问题3:信息科学与旅游的交叉研究有哪些趋势?尽管信息科学与旅游的交叉研究在近12年间经历了快速发展,但其仍然属于新兴交叉学科,其发展需要相关学者更为广泛与深入的探索研究。在本节,笔者在对最近12年信息科学与旅游的交叉研究进行系统整理的基础上,通过捕捉旅游类与信息类研究共同关注的研究主题(表4),以及基于笔者对信息科学以及旅游研究趋势的把握,找到信息科学与旅游交叉研究中的研究重点,其反映了两类科学的交叉发展趋势,或者研究者们重新认识某些对该交叉领域的发展来讲非常重要的问题。以下分别对它们进行阐述:人工智能方法与技术是信息技术发展的高级阶段,研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术,涉及知识表示、自动推理和搜索方法、机器学习和知识获取、知识处理系统、自然语言理解、计算机视觉、智能机器人、自动程序设计等方面的研究内容。尽管目前人工智能在旅游中的应用以旅游需求预测最为成熟,然而其相关理论、方法与技术并没有在旅游领域中得到充分应用。如何充分利用人工智能方法与技术来有效处理与使用旅游数据、信息与知识,深入挖掘旅游者、旅游公共管理与服务部门以及旅游企业的特征、存在的问题并进行决策支持,是信息科学与旅游科学交叉研究中较为迫切与前沿的问题。语义网与本体研究是信息科学领域的前沿领域,是海量网络信息之间相互理解的基础。互联网的发展使得传统面向旅游者的“线下”服务扩展至“线上”,包含以传统计算机为中心的和以新兴各种移动终端为中心的“线上”服务,“线上”服务质量对于信息时代的旅游者体验是非常重要的。基于语义网与本体技术的旅游推荐系统正是提升网络服务质量的有效方法与工具,如何将语义网、本体技术以及旅游推荐系统进行理论、方法以及应用上的有效集成,使其对旅游者具有实际应用价值,是信息科学与旅游科学交叉研究中的另一个前沿问题。普适计算是我国目前形成研究热点的物联网应用的基础。随着移动终端设备及其应用的发展,传统以计算机为中心的网络服务扩展至以移动终端—旅游者为中心,基于普适计算模式的连接物与物、人与物、人与人的物联网以及各种移动应用系统在旅游研究与实际应用中得到了重视。然而,无论是普适计算还是物联网,在信息科学研究中都是前沿领域,存在许多未解问题,因此,普适计算以旅游领域为问题域或典型应用,将同时有助于其本身以及旅游问题的解决。
关键词:政府信息资源 知识库 政府信息分类 信息检索 非结构化数据
一、概述
从简单消息传递到信息处理,再到20世纪90年代Karl-Erik Sveiby博士提出的知识管理概念,知识作为一种资源和资产得到越来越多的重视。人类的信息包括结构化信息和非结构化信息两大类:结构化信息是指经过人工标注、整理、加工过的按特定格式排列的信息;非结构化信息是指存储格式各异,没有经过人工加工、整理过的信息,如:邮件、文本文件、视频等。从《诗经》、《史记》到《圣经》、《荷马史诗》等记载人类文明的信息都可以归入非结构化信息的行列,而结构化信息的出现,则是最近几十年随着数据库技术的发展才逐渐增多的。在政府信息当中,文件、报告、通知、函件、法规等大量的非结构化信息占据主导,Gartner的一项调查显示,人们所存储的数据中,有85%以上是非结构化信息;每过三个月,其周围的非结构化信息就会增加一倍。非结构化信息构成了政府知识的主体,因此对政府领域知识管理的核心问题是对非结构化信息的处理。
起初政府的信息是分散在堆积如山的文件中的,而知识是存在于人的头脑中的。但是随着信息化的发展,人们发现当要寻找某些知识的时候,往往无法在浩瀚的文海中找到所想要的知识,于是人们发现这些非结构化的信息作为知识的载体需要进行管理,由此出现了图书馆目录索引体系,而后出现了信息系统、OA办公系统、文件管理系统,为知识的积累和查询提供方便。随着信息化的发展,信息爆炸时代的到来,在无限的信息化系统,无限的信息孤岛中,人们寻找需要的知识的时候,可能再一次陷入迷茫的困境,人们会再一次发现找不到其所想要的知识。每当信息的载体不断地发展、不断地增加,知识就会再次淹没在浩瀚的载体之中。因此,对于知识载体建立整合机制,建立政府资源领域知识整合的标准体系变得尤为重要。
二、建立基于Ontology的领域知识库
知识是人类在改造现实世界的实践中认识和经验的总和,是人类进行智能活动的基础。知识描述是现在人工智能研究中最活跃的领域,在过去的几年中,知识描述的技术和理论经历了快速的变化和发展。Ontology最早是一个哲学上的概念,后被人工智能研究者引入计算机领域中,使用Ontology描述知识的内容。
⒈Ontology的概述
⑴Ontology的定义
由斯坦福大学的Gruber给出的Ontology的定义被普遍接受。Fensel等人对此定义进行深入分析,认为Ontology是共享概念模型的明确的形式化规范说明,包含4层含义:概念化(Conceptualization)、明确(Explicit)、形式化(Formal)和共享(Share)[1]。
――概念化:通过抽象出客观世界中一些现象的相关概念而得到的模型,所表现的含义独立于具体的环境状态;
――明确:指所使用的概念及使用这些概念的约束都有明确的含义,以避免对同一概念的模糊的二义性的理解;
――形式化:指Ontology是计算机可识别的,能被计算机处理的;
――共享:指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即Ontology针对的是团体而非个体的共识,不是对私有的特殊知识的理解和表述。
尽管人们对于Ontology的定义不尽相同,但是通过以上这些定义可以看出Ontology的一些基本特征[2]:
――Ontology是用来描述特定领域的;
――该领域中的术语以及术语间的关系被明确的定义出来;
――使用一定机制(通常情况下是层次结构,使用Is-a,Has-a等类型关系)来组织这些术语;
――Ontology的使用者对领域中术语的含义存在一种共识。
⑵Ontology的组成
Ontology设计中,Ontology模型通过一系列基本要素来描述客观现实的世界,对领域进行建模,实现领域体系的明确描述。根据Perez分类法组织思想,并结合领域建模结构的特征,认为Ontology模型中应该包含类概念/类(Concept/Class)、属性(Attribute)、关系(Relations)、实例(Instance)等基本要素。
――概念:在Ontology中对概念明确的、格式化的描述,称为类(Class)。概念的含义很广泛,可以指任何的事物,如工作描述、功能、行为、策略和推理过程等。概念表示的是实例对象的抽象集合。
――属性:对于每个概念所具有的特性或者特征的描述称为属性。对于一个概念的属性特征有很多,在描述概念的时候,我们只采用那些和使用目的有关的属性,即有用的属性。同时按照属性的特征,可以将其分为两类:固有属性(仅属于一个概念的属性)和公共属性(属于多个概念的属性)。
――关系:对于概念之间的关系的描述称为关系,关系代表了领域中概念之间的交互作用和联系,关系之间也可能构成新的关系。概念之间存在的关系是错综复杂的,除了子类关系(subclass-of)、部分关系(part-of)、实例关系(instance-of)、属性关系(attribute-of)等基本关系以外。同描述属性选取一样,我们在刻画领域模型的时候,只选取那些和使用目的相关的关系类型来刻画领域。关系形式上可以定义为n维笛卡尔(Descartes)乘积的子集。
――规则:每个属性所应当遵循的限制称为规则。举例来说,对于概念水,具有属性温度、质量等,当温度超过100摄氏度时,水将变为水蒸气,所以,对于水的温度属性需要进行一定的限制,这种限制就是规则。
――实例:从语义上分析,概念类表示的是具有相似特征的对象的集合,实例表示的是概念所描述的一个具体对象,一个概念的实例必须具备该概念所有的属性和属性值。实例也可以具有自己特有的属性和属性值。某个领域是由具体实例通过它们之间的相互关系和作用组成的,Ontology模型只是实际应用领域在Ontology设计人员头脑中理解景象。
⑶Ontology的表示
Ontology主要用于描述领域知识包含的内容、属性。如果希望领域Ontology能够方便的建立,实现领域知识的描述和利用,就应该选择合理、有效的表示方式,使Ontology的表示具有较强的表达能力和实用性。知识的一些表示方法如逻辑语言、框架、语义网络等都可以用来表示Ontology。
①一阶逻辑谓词表示法
一阶谓词逻辑表示法是最早和使用最为广泛的知识表示方法。知识用事实和规则来表示,事实和规则的基本构成单位是谓词。谓词由谓词名和一个参数表构成,每个参数可以是常量、变量或函数。
Cycl和KIF(Knowledge Interchange Format)[3]是一阶谓词逻辑语言的代表。Cycl和KIF都基于一阶谓词逻辑,同时还具有部分的二阶谓词逻辑特性。Cycl是Cyc系统的表示语言,它是一种体系庞大而非常灵活的知识表示语言。该语言在一阶谓词演算的基础上,扩充了等价推理、缺省推理等功能,在该语言的环境中配有功能很强的可进行逻辑推理的推理机。KIF是为不同计算机系统交换知识而设计的知识描述语言。KIF试图建立与不同格式的映射关系,从而实现知识表述格式的转换和系统间的交互。
②描述逻辑
在知识表示的研究中,描述逻辑(Description Logic,DL)[4]是基于对象的知识表示的形式化工具,它是一阶谓词逻辑的可判定子集,能够提供可判定的推理服务,并且继承了语义网络的研究成果,定义了一种可操作的形式化语义,以支持知识描述的无二义性和推导算法的可跟踪性。DL基于逻辑的表示机制,根据概念和概念之间的二元关系描述术语学的知识,二元关系可以用来根据必要和充分条件定义一个概念术语,概念的所有实例必须满足这些条件。DL的一个显著特性就是可以根据描述定义概念(类),描述确定对象必须满足的属性,表达描述的语言允许构造复合描述,包括对对象之间二元关系的约束。
在经过二十多年的研究与发展之后,描述逻辑已经基本趋于成熟并走向应用,它是知识表示的形式化工具,实现的系统有BACK、CLASSIC、LOOM等。由DARPA组织提出的DAML+OIL(DARPA Agent Markup Language,Ontology Inference Layer)这种本体语言即是在描述逻辑的基础上建立的。但是描述逻辑主要还只能处理静态的知识,在对动态世界的表示与推理上却无能为力,尤其是对智能主体的内部知识库的表示显得乏力,也不能对服务的动态性与交互性进行刻画。
③基于框架的表示法
框架(Frame)是Minsky于1975年提出的一种概念,是一种组织和表示知识的数据结构,用它来表示有关事物的知识的时候既可以表示出事物各方面的属性,又可以表示出它们之间的类属关系。它由框架名和一组用于描述框架各方面具体属性的槽(slot)组成。每个槽又可以根据实际情况划分为若干个“侧面”。一个槽用于描述所论对象某一个方面的属性,一个侧面用于描述相应属性的一个方面。在比较复杂的框架中,侧面还可以是子框架调用,作为对槽的进一步说明。槽和侧面所具有的属性值分别称为槽值和侧面值。在一个框架表示知识的系统中,一般都含有多个框架,为了指称和区分不同的框架以及一个框架内的不同的槽,需要分别给它们赋予不同的名字,分别称为框架名、槽名和侧面名。无论对于框架,还是槽和侧面,都可以附加一些约束条件,对于所赋值给予限制。
框架表示法是一种结构化的知识表示方法,它善于表示结构性的知识,能够把知识的内部结构和知识间的联系表示出来,同时与计算机程序所说的结构相似,便于计算机表达和处理。适合表示典型的概念、事件和行为,能够很好的体现概念间的层次结构关系,但是框架表是方法的推理能力有限,不适合表示大量推理性知识。
⑷Ontology的作用
①自然语言理解方面
自然语言的理解就是把自然语言描述的一个受限世界,变换为计算机的表示法描述的一个世界模型。领域Ontology本身作为知识实体是系统的知识库,它由概念以及概念之间的联系构成,是对领域知识的概念化的描述。它可用来进行自然语言的消歧,和进行简单的文本推理。例如,对领域词典的应用,就是可以在对自然语言文本分词的时候,标明特殊的领域词汇的词性,消除词汇在特殊环境下的歧义,在以下的语法和语义分析中起到重要的作用。而文本推理就可以利用Ontology中的缺省的知识填充空缺的意义,或者通过Ontology中概念之间的转换关系找出句子的转义。
②知识工程方面
――知识共享和重用。领域Ontology是实现领域知识共享和重用的基础,它为需要实现共享领域知识的使用者提供了公共的可共享的领域概念。开发领域Ontology的主要目的之一就是在人们和软件智能体之间对信息结构的理解提供一种可共享的、共同的理解机制,可以方便地进行知识共享和交互。通过维护、扩充领域Ontology,使得面向领域的应用系统的开发不必从头开始,大大缩短了开发的周期,节省了开发的费用。知识的重用是将知识利用在应用层中的过程,知识检索是知识重用的一个重要方面,Ontology提供的术语使精确的检索成为可能。
――知识获取。一直以来知识获取都是知识工程的一个公认的瓶颈问题,因此知识获取受到了广泛的重视和研究[5]。知识获取的途径主要有两种,一是从学科专家处获得专业知识,二是从文本或数据库中直接获取。但是,由于专家的研究领域和研究精力的局限,很难给出完整的科学体系,而且据统计90%以上的知识可以从文本中直接获取,因此对从事大规模知识获取的人员来说,从文本中直接获取知识无疑是一种更为可取的办法。但是,由于文本都是以自然语言组织而成的,而自然语言的理解在现在阶段仍然是计算机科学中的一个难题,所以想要由计算机自动获取基本上很难实现,因此,需要采用人工干预的半自动的知识获取办法。
――知识存储。Ontology概念的层次关系为知识的存放提供了很好的解决方案。本文中用关系数据库中的表格存放固定关系的概念,对于不断精化的Ontology则设计为树型结构,知识结构清晰,便于查询和利用。
――知识标准化。Ontology为人们描述目标世界提供了一组通用的词汇,而这种词汇正是实现知识系统化的基础。通用词汇和知识的系统化有利于实现知识的标准化。
⒉面向政府信息资源领域Ontology的建立
⑴需求分析
我们建立Ontology的目的,就是将人们在政府信息资源领域的知识和经验,按照计算机能够识别和处理的方式进行表示,并输入计算机的存储介质中。并利用这些专业知识,帮助系统建立政府资源信息库,并为后期对数据的检索利用和信息挖掘打下基础。
确定Ontology所包含的范围的方法之一就是列出基于Ontology的政府知识库所涉及的信息资源信息(Competency question)作为基本素材。通过资料可以得到对这个Ontology是否包含这些类型问题的足够的信息、答案或解释,是否需要特定层次的详细信息或特定专业领域的表达法等。在本系统中,我们所涉及的术语和概念都来自政府信息资源领域,收集的面向政府信息资源领域知识库,并归纳出一些知识类型,将这些信息所涵盖的范围作为判定政府信息资源Ontology的范围的依据。
具体实现时,我们在宁波市政府信息中心资料库和Internet上寻找关于政府知识领域的相关资料,并对信息资料进行分析,整理出大量政府信息资料的素材,建立如下的模型实例,由于政府信息资源广阔,无法穷举和全面,我们为说明问题,根据重要程度,主要归纳出如下这些问题类型,如表1所示。
表1 问题类型和概念类及其属性
⑵确定Ontology的表现形式
根据政府信息资源领域的特点,本系统中的Ontology以框架结构表示作为领域本体的表示形式,如图1所示。
图1 Ontology表示形式
概念的属性可以是多个,属性的描述形式包括属性名,属性取值的类型,以及侧面和注释。侧面用于对属性的含义进行约束,如时间、范围等,用于说明属性的取值约束条件,是可选项。本文中概念的属性类型,可以是数值、字符串等,也可以是概念类型,甚至是一个本体类型。注释的作用是附加说明属性的含义,也是可选项。
概念和概念之间关系的描述形式和属性描述形式相似,也是包括关系名,关系取值的类型,关系的侧面和注释。
⑶定义Ontology中概念类及其属性和属性侧面
我们再通过考察政府信息资源领域知识,以及该领域的问题库,来定义这些概念类以及它们的属性。目前我们暂时定义了经济领域和社会领域这两个概念类,用经济差距、经济理论、经济体制、经济行业、商业与市场、财政与货币政策、经济结构调整、投资增长与储蓄来刻画经济领域这个概念类,用社会分析、社会评估、社会问题、社会保障、社会心理类等属性来刻画社会领域这个概念类(如表1所示),每种问题类型对应于这两个概念类及其相关属性。可以说,问题类型和概念类及它们的属性是相互对应、相互影响的。
属性可以用不同的侧面来描述属性的值,如:值的类型、取值范围、可取值的个数和值的其他限制条件。属性的赋值类型(slot-value type)有:字符串(String slots)、数字型(Number slots)包括浮点数(Float)和整数(Integer)、时间型(Time slots)、布尔型(Boolean slots)、枚举型(Enumerated slots)、实例型(Instance slots)。对于类的每个属性,我们还要限制其取值的范围,称之为属性的域(Domain)。
⑷创建Ontology中的实体
当定义好了Ontology中的概念、概念的属性和属性的侧面,以及概念之间的关系之后,就可以采用一些抽取方法和手段来抽取对应的实体。
我们通过基于启发式规则的抽取方法从Web上和政府数据资源库里抽取出经济领域和社会领域这两个概念类的实体。
⑸列出政府数据资源库领域Ontology中的重要术语,建立领域词汇表
列举描述或解释要定义的领域Ontology中的术语,得到一个全面的术语列表非常重要,它不仅能对自然语言文本的起标示领域词汇、消除概念歧义等作用,而且也为知识共享奠定了基础。
在本文中建立的领域Ontology中包含一个领域词典,其中包含了政府数据资源库领域的领域词汇,如经济体制、货币政策、社会问题等,以下是我们如何建立该领域词典的:根据问题的集中关注程度,对概念类的各个属性进行评估,来决定是否建立词典;需要建立词典的,会采用自动方式对该属性的内容进行抽词处理,并计算每个词的权重,权重大的则表示该词对该属性比较重要,可以作为该属性的词典,而最后是否放到领域词典中则需要经过领域专家的判定,以兼顾术语收集的效率与准确率;将每个属性的词典表明相应的词性,如经济体制的词可以标为jjtz,然后加入到分词系统ICTCLAS的词典中,以后分词的时候可以用来表明特定的领域词汇。具体如表2所示。
表2 属性词典的建立情况
⑹定义Ontology中的关系
Ontology中存在的关系是错综复杂的,除了包括子类关系(subclass-of)、部分关系(part-of)、实例关系(instance-of)、属性关系(attribute-of)等基本关系以外,还有领域中所特有的各类关系。
领域中概念实体的层次关系,是领域特有关系中比较重要的一种。领域中概念实体的层次关系就表示成概念实体树的形式,概念实体树建立领域概念实体的父子关系。概念实体树在信息检索系统中有重要的作用,如对信息实体进行分类、聚类,以及进行相关性检索等。政府信息资源多维概念实体树是在对政府信息资源领域知识分析的基础上,对领域内部的“经济”和“社会”等概念及它们的实体建立关系。图2建立的是一棵关于政府信息资源库的多维概念实体树。树中的叶节点,“体制改革”、“社会福利”、“和谐稳定”、“环境保护”和“财政税收”均是政府信息资源库的实体。对于这些实体,系统采用了多种分类的方法,如“经济领域”、“社会领域”等,这构成了一棵多维概念实体树。
通过以上的方法,我们基本基于复杂的政府资源信息,用Ontology的方法,建立起政府资源领域知识库的模型,包括:信息的概念分类、概念的属性、领域词汇表和多维概念实体树。
对于将来其他的政府信息资源,我们都可以依据这个模型进行知识构建,不断完善政府信息的概念分类和领域词汇体系。政府资源领域知识库的建立是一个需要不断积累和不断完善的过程,并为知识的检索和挖掘打下基础。
三、政府领域知识库构建的意义和进一步的探索方向
根据Ontology和政府信息资源领域的特点,我们从概念定义、模型组成、分类和表示方法等几个方面对基于Ontology技术的政府资源领域知识库进行介绍和研究,并阐述了如何组织和建立领域Ontology的过程,并说明基于Ontology进行领域知识描述的重要作用。
基于Ontology技术建立政府信息资源领域知识库体系,使得政府信息的搜索和加工建立了底层构架基础。只有当我们按科学的方法建立和健全了这一构架体系,政府知识管理、知识积累和知识挖掘才变得有可能。
我们采用Ontology的思想进行政府领域知识的组建,包括政府领域词典的建立,以及Ontology中概念、属性、关系等的建立,组织和建立好领域知识库是政府知识工程中的关键,它决定着政府领域知识使用的效果和效率。当然目前我们的工作还存在着一些不足,需要将来进一步探索和改进,主要包括以下两个方面:
(1)Ontology的半自动建立。Ontology的建立过程中的很多工作由人工手动完成,需要大量的时间且容易出现出差错,特别是Ontology中词语的类型标注。下一步工作中需要研究切实可行的、用以提高系统自身学习能力的办法,使得在Ontology的建立过程中尽量减少人工干预。
(2)Ontology的扩充和更新。本文目前Ontology中的知识包含的还不够多,如概念类只有举例对经济领域和社会领域两种,需要进行进一步扩充,使之内容更加丰富,更加完善,能够处理更多的用户问题。同时,由于领域中的知识处于不断的更新变化中,因此,需要对已有的Ontology随之进行适度的更新和修改,以保证系统处理的准确性。
参考文献:
[1]邓志鸿,唐世渭.Ontology研究综述[J].北京大学学报:自然科学版,2002,38(5)
[2]Maria Auxilio Medina Nieto.An overview of ontologies[EB/OL].(2003-03-01)[2008-02-18].
作者简介: