前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的搜索引擎研究主题范文,仅供参考,欢迎阅读并收藏。
互联网对商业发展产生了巨大的推动作用,我国商业信息网站已经发展到成千上万家,在传播商业政策和信息方面发挥了显著作用。随着网络信息数量的迅猛增长,“信息过载”、“信息超载”现象引起了人们的重视。如何高效、准确的获得包含用户所需的信息的网页,日益成为需要迫切解决的问题。
垂直搜索引擎是解决这一问题的一个有效方法。面向商业的中文专题垂直搜索引擎有针对性的搜索网上商业专题信息,从而使商务人员高效检索所需的信息。而随着万维网上的信息数量呈指数增长,大量信息垃圾也混杂其中。如何向商业用户提供质量好且数量适当的检索结果成为垂直搜索引擎关注的方向之一。
二、国内外现状与发展趋势
垂直搜索引擎大都处于研究和试验阶段,利用其搜索的结果再加上专业人士的加工而形成的面向某一学科、领域的垂直门户网站也已经出现。目前在国外,对有关主题搜索引擎的研究已经成为一大热点,我国主题搜索引擎的研究则刚刚起步。
目前面向主题的网络搜索主要有两种技术:
一是基于内容的搜索,这种搜索方式是传统的信息检索技术的延伸。它的主要方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。
二是基于链接分析的搜索。网页之间的链接指引关系与传统的引文索引非常相似,通过对链接进行分析,可以找出各个网页之间的引用关系。由于引用网页与被引用网页之间内容上一般都比较相关,所以就可以很容易地按照引用关系对大量网页分类。
三、技术关键
基于面向商业的垂直搜索引擎服务具有其自身的特性,下面列举出实现商业信息垂直搜索引擎的四大关键技术。
1.针对性、实时性和易于管理的网页采集技术:面向商业的垂直搜索带有专业性或行业性的需求和目标,所以只对局部来源的网页进行采集,采集的网页数量适中,但其要求采集的网页全面,必须达到更深的层级,采集动态网页的优先级也相对较高。在实际应用中,垂直搜索的网页采集技术应能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集,即采集技术要能达到更加针对性、实时性和易于管理,并且网页信息更新周期也更短,获取信息更及时。
2.结构化数据的网页解析技术:由于面向商业的垂直搜索引擎服务的特殊性,往往要求按需提供时间、来源、作者及其他元数据解析,包括对网页定内容的提取。在商业垂直搜索服务中,要求对于作者、主题、地区、机构名称、产品名称以及特定行业用语进行提取,才能进一步提供更有价值的搜索服务。
3.全文索引和联合检索技术:面向商业的垂直搜索由于在信息的专业性和使用价值方面有更高的要求,因此能够支持全文检索和精确检索,并按需提供多种结果排序方式。另外,还要求按需支持结构化和非结构化数据联合检索,比如结合作者、内容、分类进行组合检索等。
4.智能化的文本挖掘技术:面向商业的垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合,垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时面对上述要求,垂直搜索还能够按需提供智能化处理功能,比如自动分类、自动聚类、自动标引、自动重排,文本挖掘等等。这部分是垂直搜索乃至信息处理的前沿技术。
四、设计方案
1.技术路线。采用如下的研究开发路线:
(1)针对商业信息的分布特点以及用户的实际需求,在充分调研的基础上,详细了解和比较其他研究人员在类似领域取得的一些重要而有一定创新性的成果,在此基础上初步提出平台的整体架构。
(2)结合面向对象设计技术,对上一步设计出的平台进一步细化,从而明确对该项目所采用的具体设计模式。
(3)根据设计模式所面临的具体问题(例如,如何提高爬行速度问题、系统资源限制问题、网页分类器问题、HTML文档解析问题等)给出有效的解决方案。
(4)将以上的方案付诸实施,形成一个面向商业的信息查询与共享平台;同时对系统的各种参数进行进一步测试,不断地完善和优化,最终形成一个界面友好、响应速度/查全率/查准率均符合用户要求的面向商业的垂直搜索引擎。
2.创新点。为达到商业信息搜索引擎预期的响应速度、查全率和查准率,在系统的开发中有如下创新点:
(1)系统总体为模块化结构,各个模块之间高内聚,低耦合。
(2)系统使用面向对象语言开发,能够有效地重用系统部分代码。
(3)在设计过程中,使用面向对象的思想做指导,建立系统类图,便于开发人员之间的交流。在编码过程中,不断重构代码,使得代码具有很高的运行效率,大大提高其重用性。
(4)系统集成时,使用XML文档作为模块间传递信息的工具。
【关键词】搜索引擎 信息检索 查准率随着计算机网络技术的不断发展,人们对信息需求也越来越高,为了方便人们共享网络信息资源,更有效地利用信息资源,搜索引擎应运而生,国内外出现了一大批著名的搜索引擎。它们都有各自的优缺点,本文通过查全率和个性化服务两方面的比较,对中外著名的搜索引擎进行分析,并对这些搜索引擎提出了一点自己的设想。
一、Goole,百度与中国搜索的查准率之比较
因特网拥有丰富的信息资源,其中以超文本标记语言存贮和传输的WWW(World Wide Web,即万维网)信息资源,因其方便迅速的浏览、一点即开的超链接和声音图像、视频等多媒体显示方式,成为网上信息资源的主流。在互联网发展初期,网站相对较少,信息查找比较容易。随着互联网的迅速发展,Interne资源的骤然增加,特别是web信息的迅速膨胀,使得检索新出现的网页变得越来t越困难,普通网络用户想找到所需的资料如同大海捞针,这时为满足大众信息检索需求的专业搜索引擎便应运而生。
(一)国内外搜索引擎回顾
搜索引擎技术1994年在美国出现,1995年开始进入大规模的商业化开发阶段。由于中西方语言文化的差异,中文搜索引擎的出现相对晚些,但在随后几年的中文搜索引擎得到快速发展,涌现了许多著名的搜索引擎。在内地,北大天网1997年10月29日开始为Internet用户提供WEB信息导航服务,1998年2月搜狐成立,新浪1999年开始搜索服务,2000年百度创立,同年网易开始创搜索服务,2001年TOM的搜索服务及2002年8月慧聪搜索的成立等。2003年9月25日,慧聪搜索携手中国互联网新闻中心共同发起并成立了以搜索引擎应用为基础的联盟组织――中国搜索联盟,12月23日原慧聪搜索正式独立运作,成立了中国搜索。香港地区有1997年创立的添达香港搜索(ti mway.co m)以及2002年创立的巴辣香港(ba )等。台湾地区,1995年8月蕃薯(番薯,藩属)藤()开始繁体中文的搜索服务,成为世界上第一个开始启动中文搜索服务的搜索引擎;1998年1O月penfind(.tw)成立,同年4月开始提供繁体中文搜索服务等。国外著名的搜索引擎从1999年开始也相继开展中文搜索服务,如:Yahoo中国于1999年9月正式开通,2000年9月12日Google启动中文搜索服务,2004年6月21日雅虎在中国推出一搜Ill等。从第一个中文搜索引擎问世至今,互联网上有记录可查的中文搜索引擎有数百个,现已成为人们查找网络信息资源必不可少的工具。中文搜索引擎通常包括两种类型:一种是网页全文搜索引擎,另一种则是网站搜索引擎,前者由程序自动抓取网页进行分析并建立索引,后者由专业编辑人员进行人工分类和维护。它们各自满足不同的搜索需求,而且互为补充。
据此可见,顺应信息检索需求,1994年以来国内外搜索引擎相继涌现,在成就其数量优势的同时,也为其彼此间服务质量优势的角逐提供了平台。国外引擎以Goole为例,国内以百度和中国搜索为例,本文将就其各自的相对查准率进行下列比较。
(二)Google,百度和中国引擎查准率之比较
我们拿一些实例来具体比较一下国内的一些搜索引擎与国外的搜索引擎的区别在哪里,国外以Google为例,国内就拿百度和中国搜索来比较。
相对查准率是衡量搜索引擎的一个重要指标。有人在网上做过这样的测试,即,在这三大搜索引擎中输入同样的30条记录,然后观察它们所搜索出来的信息情况,其结果是这样的:
不管是国外的Google,还是国内的百度与中国搜索,有很多重复或无用的信息呈现,甚至前10条记录中都有这一现象发生。在搜索结果的前30条记录中,重复或无用的信息最多的是中国搜索(共110条)其次是百度(共101条),最少的是Google(共91条)。在前10条记录中重复或无用信息最多的是中国搜索(33条),Google与百度几乎相当;在11-20条记录中重复或无用信息最少的是Google(24条),百度与中国搜索相差无几。就出现在21-30条记录中的重复或无用信息量而言,三者完全相同,都是42条。并且在重复或无用信息中,有一定字面联系、但内容信息无用的链接占有相当的比例。其主要原因之一是搜索引擎采用全文检索,不能完全理解搜索查询请求,也不能很好地理解网页的内容,只要在全文中可以找到所有的检索词,信息就会被检出。这样,有些web页面只在全文中含有检索提问式中的所有相应关键词,在信息内涵上并不符合检索提问的要求,也会被检索出来,造成这一现象的另一个主要原因则是搜索引擎使用的排序技术本身的不足所致,它是由网页的权值决定的。网页的权值与网页被链接的数量及质量有关,被链入的网页数越多、网页的权值越高及被链出的网页数越少,则该网页的权值越高,这样小站、新站、专业站的内容再好,因为不能迅速得到大量高质量的超链,难以得到合适的排名,而一些权值高的网页硕士学位论文讨论认为,即使其内容与搜索词之间没有相关性,只要在网页中有搜索词出现,其排名也会比较靠前。还有一个原因就是重复网页没有完全被过滤掉。因此,许多有用和相关页面无法返回给用户,很多重复无用的信息出现在,Google、百度和中国搜索的相对查准率分别为0.449,0.433,0.399,从数字上看Google的相对查准率比百度与中国搜索的相对查准率高一点六个百分点和5个百分点,但Google与百度前30条记录查准率、Google与中国搜索前30条记录查准率,都经t检验,P>0.05 ,故尚不能认为国外搜索引擎Google的相对查准率比国内搜索引擎百度、中国搜索的相对查准率高。在搜索引擎相对查准率的测试过程中,对其有影响的因素有检索表达式、前N条记录、组的权值、相关范畴以及相关范畴的相关系数等。如何合理地选取表达式及N如何取值是值得研究的问题,另外对前N条记录如何合理地进行分组、组的权值如何分配、相关范畴如何分配以及相关范畴的相关系数如何赋予都是值得探讨的问题。值得探讨的问题。
二、Google,百度及中国搜索个性化服务功能之比较
个性化搜索服务对于搜索引擎来说应该是属于一个卖点。你有怎么样的服务,你就有怎样的服务人群,所以这种拥有自己特点的服务对于每一个搜索引擎来说都是至关重要的。
由于Google、百度和中国搜索默认每页显示10条搜索结果,为了方便查看,减少显示结果的页数,需要到搜索引擎相应的功能区重新设置每页搜索结果显示条数。除中国搜索无法更改外,在Google和百度的高级搜索与个性设置功能区都能重新设置每页搜索结果显示条数。并且在重新设置的过程中发现:搜索与某个指定网页存在链接的所有网页、搜索35种语言的网页、提供包括简体中文和繁体中文共101种语言的搜索界面、提供中文简体和繁体文本之间的"翻译"转换等功能,只有Google拥有。虽然百度与中国搜索只有简体中文界面,百度的无法在检索的结果页进行搜索高级搜索与个性设置,中国搜索也无法在结果页进行个性设置,但都能按地域搜索网页,并且中国搜索还能按行业进行网页搜索等。同时,在利用中外主流搜索引擎搜索中文网页的过程中发现,不同的人使用相同检索表达式得到的搜索结果却完全相同,不会因人的地域、性别、年龄、职业、爱好、专业、心理倾向的差异而有所不同,并且搜索结果都无法按网页更新日期、网页生成日期等其它方式排序,而是都只有按内容相关度排序一种方式。由此可见,百度和中国搜索的个性化服务与Google一样有了一定的体现,个性化搜索服务水平仍然不高,但各具特色。
通过以上的分析,我们不难概括出国内主流搜索引擎存在的几点优势:百度中文网页的收录量超过了Google;国内的百度和中国搜索对中文的理解要比国外的Google好;纵观中外主流搜索引擎的更新周期及最近一天中文网页的更新能力,百度中文网页的更新能力超过了Google;国内的百度与中国搜索的更新周期比国外的Google短。显然,国内主流搜索引擎也存在诸多的不足:中国搜索缺乏对PDF,PS,DOC,PPT等非HTML文档的收录;综观Google、百度和中国搜索的去重、类聚能力和网页的重复率,国内主流搜索引擎的去重能力仍然比国外主流搜索引擎逊色;中国搜索最近一天的网页更新能力明显低于Google,并在使用百度与中国搜索的搜索结果后的网页快照功能查看该网页的快照内容时,仍出现"死链"现象;百度和中国搜索前30条记录中重复和无用信息的总数高于Google国内外主流搜索引擎共同的不足:而国外的搜索引擎也不乏有这样的缺陷;国内外主流搜索引擎的相对查准率虽然基本相等但都没有超过50%(0.5),离用户的情报需求还有相当的距离;国内搜索引擎百度和中国搜索与国外搜索引擎Google的个虽然有了一定的体现,并各具特色,但搜索结果却都不会因人的地域、性别、年龄、职业、爱好、专业、心理倾向的差异而有所不同,并且除新闻网页的搜索结果提供按日期排序和按相关性排序方式外,其它网页的搜索结果都无法按网页更新日期或网页生成日期等排序,只能按相关性进行排序,用户没有选择的余地。
三、结论
如今,知识经济、信息时代均以互联网的存在为自身存在和发展的前提。知识的一半是"找到知识"。信息经过加工转化为知识,知识经过实践继而转化为智慧,此三者的辩证性循环与攀升建构了人类智能发展的历程。而搜索引擎的存在及其功用一定程度上颠覆性地革新了人类信息的提取速度和质量。但是,在信息爆炸的年代,如何提进一步提升搜索引擎互联网信息检索的查准率并使之最大化的发挥作用,是信息提取效率的关键所在。实践证明,加强语义检索的应用是提高搜索引擎质量的一个重要办法也应该是未来的发展方向。
众所周知,查准率是衡量搜索引擎优越性的重要指标,国内外主流搜索引擎的相对查准率都在0.5以下,主要原因是它们都将关键词检索作为主要的检索途径,采用全文检索所致。
目前的关键词搜索是对关键词进行机械式匹配,只注重检索词的外在表现形式,而非它们所表达的概念,并且查询结果完全依赖用户给出的关键词,系统与用户之间无进一步的交互。而在大多数情况下,用户很难简单地用关键词或关键词串来真实地表达他们的检索需求。由于同一概念,对其称呼以前与现在不同,随着地域的改变,同一概念的表达也会不同,不同的学科专业领域,也都有自己的术语命名规则。因此,同一概念可以用不同的词来表达,使得许多关键词都有同义词、近义词、上位词、下位词、全称、简称、俗称、商品名等。同时,不同的用户对同一概念往往会采用不同的检索词,从而使检索效果不佳,相对查准率偏低,重复和无用信息在前30条记录中大量存在。如果搜索引擎的检索子系统可以真正理解检索词的概念含义、理解关键词之间的联系,具有同义扩检和其他相关检索的能力,对用户需求和文本实施概念匹配,将会减少重复网页的出现,提高相对查准率,极大的提高检索质量,使搜索结果真正按相关性排列,从而使检索结果真正符合用户的检索要求,提高用户查询的满意度。
参考文献:
[1]李明.中文元搜索引擎万纬搜索研究[J].现代图书情报
技术,2003,(5).
[2]邹小筑.专业搜索引擎-Scirus科学搜索引擎研究[J].图
书馆建设,2002,(6).
[3]刘海航,黄碧云.元搜索引擎Profusion[J].情报科学,
2002,(9).
[4]李村合.因特网多元搜索引擎SearchX2000的研究[J].情 报学报,2002,(4).
[5]陆兴.八个著名中文搜索引擎的特征及其评析[J].图书馆
理论与实践,2003,(2).
[摘要]随着信息技术的发展,网络的迅速普及,搜索引擎在网络用户的生活中扮演着越来越重要的地位,了解并能熟练使用搜索引擎成为大众的必修课。对搜索引擎的基本知识和种类作简要介绍,并结合亲身实践介绍几种实用的搜索技巧。
[关键词]搜索引擎种类技巧
一、搜索引擎概述
搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。它主要是用于检索网站、网址、文献信息等内容。随着网络技术的发展,各种搜索引擎层出不穷,目前流行的搜索引擎主要是帮助用户搜索表层信息,如google、百度、雅虎等。
二、搜索引擎的分类
目前,主流的搜索引擎有如下几类:
(一)全文索引
根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
(二)目录索引
目录索引虽然有搜索功能,但不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。目录索引中最具代表性的是Yahoo、新浪分类目录搜索。
(三)元搜索引擎
元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile等。中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
三、搜索引擎使用技巧
(一)关键词的选择
目前搜索引擎不具备智能识别能力,较人脑而言还很“弱智”,往往不能很好地把握用户到底想要什么,只会在现成的数据库索引中查找相匹配的关键词。因此,选择合适的关键词是成功检索的第一步。关键词的选择虽然没有什么定式,不过也有一些规律可循,在提取关键词时力求做到规范,避免口语化,便能达到事半功倍的效果。此处用特殊实例来说明:
1.使用特定词汇。有时输入的关键词由于过泛而没有被收录在搜索引擎的数据库索引中,这时可以选择与该主题相关且更具体的词汇。例如,欲搜索某些期刊的投稿电子信箱,一般策略是在搜索框内输入“xxx杂志编辑部”,对知名度高、信息化程度高的期刊而言,一般都能搜出相应的email,可信息化程度不高的期刊就比较难。此时可以尝试如下两种方法提高搜索效率:(1)同时输入两个关键词,缩小检索范围,即“xxx杂志email”或“xxx杂志电子信箱”;(2)关键词中加入电子信箱关键信息,即“xxx杂志@”。因为任何电子信箱中均有“@”,“@”成了查找电子信箱的关键符号。通过这两种方法,很容易就能将期刊编辑部的电子信箱搜到。
2.使用多个含义相近的关键词。对于热门信息来说,搜索时犯愁的是返回条目太多,可对冷门事件或事物来说往往恰恰相反。此时可使用同义关键词和关联关键词来检索,以达到更全面的搜索结果。如:在学术部门的年轻人想查阅申报课题的技巧时会发现相关结果少,此时可用“报课题技巧”、“报项目技巧”、“课题申报经验”、“课题申报指南”等关键词来检索。
(二)局限于某个具体网站或者网站频道
许多单位都会针对同一热门事件在本单位网站发大量文件或文章。这些文章或文件往往名称相同但具体内容和要求却不同。此时,指定网站或频道的搜索功能能为我们提高搜索效率。
(三)按文件类型查找
如需要查找简历模版时可以构建如下检索式:“简历模版filetype:
doc”,此时能搜到word格式的简历模版。此处的filetype:doc是限定检索文件的类型,该字段必须在英文状态下录入,而“简历模版”是检索的关键词。两个字段之间必须用空格隔开。同理,如果需要检索市场营销的教案也可以构造“市场营销教案filetype:ppt”的检索式,检索结果为ppt格式的市场营销教案。该检索式支持txt,ppt,xls,pdf,mp3,swf等常见文件类型。(四)巧用快照
有时会搜到访问不了的“死链网页”和过期文件,而看其内容摘要很符合需要。此时可利用搜索引擎提供的网页快照功能查阅此类文献。
(五)使用不同的搜索引擎
不同的搜索引擎,其信息覆盖范围有差异,我们平时搜索信息时仅集中于某一家搜索引擎是不明智的,因为再好的搜索引擎也有局限性,而使用优秀的搜索引擎可以达到事半功倍的效果。
(六)留意搜索引擎返回的结果
由于竞价排名业务的推广,搜索引擎返回的Web站点顺序会影响人们的访问。所以,为了增加Web站点的点击率,一些Web站点会付费给搜索引擎,以在相关Web站点列表中显示在靠前的位置。好的搜索引擎会鉴别Web站点的内容,并据此安排它们的顺序,但许多搜索引擎无法鉴别。
【关键词】 JAVA 搜索引擎 技术体系
搜索引擎本质上属于一类数据库,它主要由搜索器 、索引器 、检索器以及用户接口所构成。其工作模式包括两种即自动信息搜集与定期搜索。以最常见的谷歌引擎为例,在一定周期时间内会利用蜘蛛程序进行主动搜索,当发掘出新的网站时便可以从网站中提取相关信息并将这些信息置于数据库当中[1]。
也就是说每隔一个周期搜索引擎数据库的数据都会持续性地更新,一方面扩大了搜索引擎的应用范围,另一方面为用户也提供了极大的便捷。在搜索引擎使用过程中用户通过搜寻关键词便可在数据库中进行相关搜索,其中会涉及到各类特殊算法,经过处理后将关联程度以由高至低的顺序向用户反馈。JAVA技术的革新给搜索引擎的发展带来了新的动力,使其朝着更高的层次迈进。
一、JAVA技术特征概述
相对于其他汇编语言,JAVA语言具有良好的兼容性,另外在通用性、安全性方面较其他语言更具优势,另外JAVA语言涵盖了以下特点:首先JAVA语言具有良好的安全性,这种安全性对于网络环境而言有着十分重要的意义,其安全机制能够遏制相关代码攻击[2]。其次JAVA语言具有强制性特征,在其面向对象的过程中,通常情况仅仅支持类之间的单向继承,在多个接口情况下则能够进行多处承接。再者JAVA语言呈现了良好的动态性特点,它可以满足动态性环境变化进行匹配,这使得基于JAVA语言汇编的系统、软件等均得到了良好的兼容性,特别是使对于应用而言易于升级。另外JAVA语言具备多线程特征,这种特征使得相关应用及系统的性能得到了保证,为开发者与使用者带来了更高质量的服务。
二、JAVA技术在搜索引擎中的应用分析
利用JAVA技术可对搜索引擎进行有效优化,其中java 2 PSE、Lucne以及Tomcat等均是常见的开发工具。通过使用这些工具可以使JAVA应用开发环境得到优化,并且能够让搜索java类库以及索引java类库得以实现。本研究中网站搜索引擎构建对JAVA技术的应用进行了分析[3]。以JAVA为基础首先可以对网站内部链接进行优化。从形式上来看网站内部结构复杂,但却表现了显著的层次性。因此为了让网站能够保持正常的工作状态就需要构建出一个通常的信息渠道,保持其畅通性,这样才能促使网站良性运作,并且使得网站内部环境与外部环境关联起来。以网站搜索为例,在网站中置入搜索框,那么该搜索框便可为用户提供快速的信息获取途径。
同时可将其整合成一个针对性的平台界面,归类对象。这种形式可以让用户更好地在平台上进行交互从而让业务面得以扩充。对于搜索引擎而言网页标题也是关键的部分,因此需对其进行优化。标题直接关系到了搜索引擎使用过程中的成效性,会影响搜索引擎的预判。另外从心理层面来看网页标题会对用户产生一定程度的心理引导效应,若标题具有吸引力则能够吸引用户点击并查阅。因此利用JAVA技术结合网站布局在不同页面构建出不同的标题,从而体现标题的差异性。当然标题相互之间具有明显的差异性,但是又体现了统一性,也就是说标题整体内容应该围绕网页内容组织构建,不仅仅能够对网页内容进行明确反映并促使两者可相互匹配。JAVA汇编提升了网站系统的识别能力,让网站的功能性得以增强。
在应用JAVA技术的过程中Internet连接技术发挥了十分重要的作用,由于搜索引擎需要对网站中不同页面的信息进行调用,而JAVA则带来了丰富的功能选择。事实上在网络中应用计算机的过程中都离不开套接字类的作用,而端口则承担了这种角色。
实际应用时在一个特定的时刻存在唯一的服务器程序对相同的端口进行侦听,而ServerSocket与Socket是JAVA定义的两个重要类别,通过上述两类可对关键字进行声明,从而构建出一对一的连接。也就是说利用JAVA保证了套接字可对相关信息数据进行直接读取或写入。另外需要注意的是JAVA可能对中文字体可能会产生乱码,因此需要进行针对性处理,另外可充分利用JAVA的多线程机制使得后台运行保持稳定的状态。
三、结语
JAVA为搜索引擎提供了重要的技术支持,特别是在搜索引擎智能化发展的情况下JAVA技术将得到更大的应用空间让搜索引擎的功能性得以完善。
参 考 文 献
[1] 郭彦秋. 浅析百度与谷歌两搜索引擎的比较与分析[J]. 才智. 2012(06)
关键词:企业信息门户;搜索引擎;数据采集;信息搜索;分类;聚类
中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)31-7574-02
Study on Enterprise Information Portal Search Engine
FENG Shu-wen1,ZHAN Ying1,LI Yi-wei2
(1. Automation Research Institute of Lanzhou Petrochemical Company,Lanzhou 730060,China;2.Oil and Gas Storage and Transportation Branch, Petrochina Xinjiang Oilfield Company, Karamay 834002,China)
Abstract:EIP is an application framework of enterprise information system. It supplies user a platform which integrates with all kinds of application systems, data and network.. Facing the accumulated data and distracted information, we must introduce EIP search engine to supply a fast, effective search function. EIPSE integrate all the enterprise information resource and improve efficiency in application and accession to enterprise information system. EIPSE enforce the construction and application of EIP, improve the level of decision making.
Key words:enterprise information portal;search engine;data acquisition;information research;categorization;Clustering
企业信息门户(EIP,Enterprise Information Portal)是在Internet的环境下,将各种应用系统、数据资源和互联网资源统一集成到一个信息管理平台之上,并以统一的界面提供给用户,是企业信息系统的应用框架。EIP提供对企业的内部、外部各类信息的访问,协助企业提高决策水平、优化生产运作。面对门户建设中积累的海量数据,以及门户技术本身导致的信息不能有效分析、缺乏统一规范、可拓展性差等问题,提供快速、高效检索的功能成为企业信息门户亟待解决的问题。
由于通用搜索引擎存在信息冗余量大、搜索深度不够、搜索精度差、海量信息无序化等问题,无法满足企业对于搜索结果精确度和信息保持最新性的要求等。因此,直接使用通用搜索引擎进行企业信息门户的信息检索并不合适,需要结合企业自身特点和需求开发专用的企业信息门户搜索引擎(Enterprise Information Portal Search Engine)。
1 企业信息门户对搜索引擎需求
通过企业门户搜索引擎与互联网搜索引擎的比较,并结合本企业自身特点,提出企业信息门户对搜索引擎的需求。如表1所示。
本企业信息门户对搜索引擎的需求主要包含以下几方面:
1)搜索引擎必须将门户网站的所有信息都索引进去,支持office系列、txt、PDF等多种文档格式抓取;支持微软AD域的权限模型抓取;支持zip、rar、tar等压缩文件的采集。
2)数据采集之后,对于相应的数据更新,要具备灵活的机制,保证数据的质量与完善,搜索引擎的索引能够及时反映企业信息的变更。
3)系统应提供强大的智能内容搜索功能,搜索方式除了涵盖传统的关键字、布尔表达式、字段匹配搜索等外,还需要支持概念搜索,训练搜索,搜索导航,搜索聚类,甚至能对用户搜索偏好和对结果拟合度的选择进行学习,以提高搜索结果的准确度和价值。
4)系统要对采集到的全部信息进行内容挖掘,实现自动化处理,包括自动分类、聚类。
2 EIPSE设计
2.1 EIPSE的设计原则
1)标准化:遵循技术标准化、结构标准化、数据标准化等相关要求。
2)开放性:系统在体系结构、硬件产品、软件产品、数据交换协议等方面,充分利用开放平台,保证系统具有较好的互操作性、可移植性。
3)可扩展性:软硬件配置具备动态平滑扩展能力,可以通过调整系统框架和相应服务单元的配置,适应业务量的变化。系统架构在开放的、安全应用支撑体系结构之上,具有良好的可扩充性。
4)技术的先进性和成熟性:采用先进和成熟的技术,满足系统在生命周期内具有持续的可维护性和可扩展性,获得更高的发展起点。
5)安全性:充分考虑系统安全性设计,保障数据备份、应用流程、权限管理等各个环节的安全性。在设计系统结构时,各个层次都充分考虑到系统的冗余配置和灾难恢复。
6)可管理性:采用合理的系统体系结构,实现对系统的集中管理和监控。
2.2 EIPSE的架构设计
智能内容搜索服务平台是架构于智能数据处理层(Intelligent Data Operating Layer,IDOL)上,其核心是建立在独特的信息论和概率论的基础之上的模式识别技术,抽取概念和内容挖掘后,为提供多种的搜索应用服务。因此,系统总体架构按照实际应用的流程实现,即从数据的采集和处理,索引和分析、应用与三个层次实现,设计结构如图1所示。
2.3 EIPSE的功能设计
为了充分实现本企业信息门户强大的搜索功能,整个系统主要实现数据采集、信息搜索、分类、聚类、个性化、自动关联以及部分可视化的管理功能。
2.3.1 数据采集平台
数据采集平台是整个系统的基础,是系统对外提供内容服务的源泉,主要从各种数据源(包括文件系统、数据库、内部其他系统以及独立信息源)采集信息。针对不同的数据格式,采用不同的方式,将各数据孤岛的信息采集过来,用于资源平台的整合与使用。如图2所示。
2.3.2 信息搜索
信息搜索包括关键字的搜索、标准搜索、高级搜索、联合搜索、参数搜索、自动摘要等功能。参数搜索可以实现各元数据的统计和分析,并可以以柱状图、饼图、线图等图形形式进行输出,使用户实时了解搜索对象的数量特征。同时,系统可根据每篇文章中的主要概念,自动生成摘要。并且根据用户浏览内容或者检索条件,产生变化的动态摘要,使用户能够通过摘要来判断是否为所需信息。
2.3.3 信息分类
信息分类实现自动分类,精确地根据非结构化文本中的概念进行分类。自动分类是根据一些分类标准,将某个范围的信息内容生成分类树,根据不同的分类主题,用户点击相关的分类树节点即可查看结果。采用自动分类方法,克服了人工分类中信息检索不全面、更新速度慢的缺点,提高了用户的检索速度和检索准确度。
2.3.4 信息聚类
用户使用搜索引擎时会得到大量返回信息组成的线性表,其中很大一部分与用户的查询请求无关,通过对检索结果集合进行聚类,可以使用户检索结果相关的信息比较靠近。通过自动地分析采集过来的所有信息内容,把相似的文档聚类到一起,同时自动生成类别的标题, 以可视化的各类方式提供给用户,由用户选择浏览。
2.3.5 个性化
这里的个性化服务主要包括个性订阅、自动提示、推送等功能。通过用户自己设定感兴趣的内容范围与条件,系统根据用户的设定主题提供内容服务。同时系统能够自动维护用户档案,一旦发现有新的符合用户要求的信息,能够自动收藏到用户档案夹中,或者通过短信、邮件等手段来对用户进行提示。
2.3.6 模块监控管理
模块监控管理系统为内容搜索各模块提供关键的维护、管理、控制和监测功能,采用b/s架构方式从中央位置与所有内容服务(例如连接器、DIH、DAH等等)进行通讯。同时模块监控系统也提供了可视化的整体面板,使内容管理员能够对所有内容模块(或服务)操作进行本地或远程管理,提供可视化的参数管理、参数配置、模块监测、状态报表等。
3 结束语
本文是以某炼化企业正在实施的门户搜索引擎技术为主要研究内容,通过现有的搜索引擎技术进行简单分析,结合企业实际需求和自身特点,对该企业目前采用的门户搜索技术进行了深入研究。研究表明通用搜索引擎用于企业信息门户存在诸多缺陷和不足,只有针对门户搜索开发的搜索引擎具备较好的灵活性和可扩展性,才能满足企业信息化发展的需要。
参考文献:
[1] 周祥,王丽芳,蒋泽军.基于Lucene的企业信息门户搜索引擎设计[J].微机处理,2009(4):62-64.
任何时候在搜索引擎中输入查询关键词,你将会获得数千条的搜索结果,太多的信息总是意味着没有信息。用户对信息的需求正朝着多元化的方向发展,对某一领域的信息需求不再是多而广,而是精而深。其次,用户对信息的要求不再是量,而是注重信息的质,即是否能给用户解决实际的需求,提供的信息准确、权威、及时等等。通用搜索引擎的性质决定了其不能满足用户的特定需求,市场被不断细分,满足人们特定需求的垂直搜索引擎将相继出现。
基于这种现状,众多行业垂直搜索引擎应运而生,像搜索电影的迅雷、搜索软件的狗狗,搜索游戏的17173等搜索平台广泛得到大众的认可。可以大胆的说,将来的搜索市场将不再是简单的几大搜索巨头统治的时代!而商业搜索引擎,特别是针对性比较强的城市商业搜索引擎领域将是含金量最高的市场。因为他涉及到一个城市方方面面的商业需求。《城市商业搜索引擎》以其先进的运营构架、准确的信息采集方法和创新的竞价排名模式造就了整个商业搜索引擎行业的标准,用户完全可以抛弃所谓城市信息港、分类信息、便民网站。
因为我们的信息是通过面对面的信息采集方式获得,是最真实、最全面的!城市商业引擎的推出不仅满足的B2B的市场需要,还可延伸到B2C市场,扩展为一种给人们生产、生活方便快捷的便民综合搜索引擎,其商业价值远高于传统的通用搜索引擎。因此谁能够迅速的建立符合用户需求的搜索平台,谁将成为新一轮搜索行业的领军企业。
基于城市的商业搜索服务-其搜索结果全部是产品或企业相关信息。内容更纯粹,搜索的结果以产品或企业为主题结构化展示出来,便于用户查看、了解。用户可以对搜索结果带有参与性、搜索结果也会随着用户的参与得到不断丰富。这些都让用户更方便、快捷地找到自己想要的产品或服务,极大地满足了人们的商业消费需求。如在工作时间,用户要采购一批办公用品“打印纸”,需要找相应的供应商或服务商,就可以到《城市商业搜索引擎》来查找:搜索结果只显示供应“打印纸”的企业信息,没有其他杂乱的信息,更方便用户找到相应的产品供应商。如对某个企业感兴趣,可以直接点击查看,供应企业信息覆盖包括企业独立展示网站、B2B平台商铺及行业门户商铺在内的数据源,保证了供应商信息数量的最大化。用户还可通过“企业评论空间”来查看不同用户对供应商的看法,了解供应商更多内在的信息,便于对采购供应做出决策。
《城市商业搜索引擎》最大程度地覆盖了商业用户人群!本项目是黑蚁搜索团队在多年从事互联网行业的基础上,根据自身及广大用户的实际需求,结合我国当前的互联网产业发展趋势逐步发展完善而确定的。该项目的提出,一方面符合国家的企业信息化产业政策,另一方面也是将传统行业与互联网有机结合实现真正意义上的网络便民服务的必由之路。
【关键词】Agent;元搜索引擎;个性化检索
Agent技术最早源于分布式人工智能(DAI),从80年代以来,Agent技术已经从DAI领域中拓展开来,广泛应用到很多其他领域,包括电子商务、工作流管理、运输系统、网上信息检索系统以及其他的网络应用等。Multi-Agent技术在元搜索引擎中的应用就是Agent在信息检索系统中的典型应用之一。目前,对于Agent技术的研究主要分为智能Agent、多Agent系统(Multi-Agent System,简称MAS)和面向Agent的程序设计(Agent Oriented Programming,简称AOP)三个方面。本文将Multi-Agent技术运用于元搜索引擎中,提出了一个基于多Agent的元搜索引擎系统模型。该模型既具备Agent技术智能性的特征,还具有元搜索引擎较传统搜索引擎查全率高的优势,不但能够弥补元搜索引擎在智能化程度低、无法满足用户个性化需求等方面的缺陷,还能在一定程度上提高系统的灵活性和易用性。
1.基于Multi-Agent的元搜索引擎系统
由于每个独立搜索引擎的覆盖面有限,人们不得不同时调用多个独立搜索引擎进行检索,于是元搜索引擎应运而生。元搜索引擎是建立在多个独立搜索引擎之上的一种综合性搜索引擎,它接收用户搜索请求并将查询任务分发给各独立搜索引擎,并将各独立搜索引擎返回的查询结果按照一定规则重新整理后呈现给用户。因此,元搜索引擎又被称为“搜索引擎之上的搜索引擎”或“搜索引擎之母”。由于元搜索引擎能够利用多个独立搜索引擎同时进行查询,相对于传统搜索引擎,信息的查全率就有了很大提高。但是,元搜索引擎还处在发展阶段,某些技术尚不够成熟,在一定程度上存在智能化程度偏低、无法满足用户的个性化检索需求的缺陷。为解决这一问题,本文在元搜索引擎中引入Agent技术,建立一个基于Multi-Agent的元搜索引擎系统模型,该模型综合了Agent和元搜索引擎两者的优势,能具备较高的系统性能。
1.1 基于Multi-Agent的元搜索引擎系统模型
图1是建立的基于Multi-Agent的元搜索引擎系统模型。该模型采用Agent组织来实现元搜索引擎的智能化和个性化,利用多个Agent协同工作,通过各个Agent间的交互通讯和合作,不仅能够开发新的问题求解方法,还能够从相互学习中进一步完善提高各Agent的基本能力,理论上可提高查全率与查准率。
该系统主要由用户交互Agent、兴趣学习Agent、查询扩展Agent、查询管理Agent、成员Agent和结果整合Agent以及个性化模式库和引擎性能评价库组成。
1.2 基于Multi-Agent的元搜索引擎模型的系统功能
用户交互Agent是用户与元搜索引擎的交互接口,一方面它获取用户的查询请求,递交给查询扩展Agent;另一方面将用户的行为日志递交给兴趣学习Agent,由兴趣学习Agent分析挖掘用户兴趣,将获得的个性化模式存入个性化模式库中,并实时调整、改善用户兴趣模型,智能地协助用户进行信息检索。查询扩展Agent将请求中所含的有效参数分解出来,按一定语法格式重组后,将查询指令发送给查询管理Agent;查询管理Agent除将查询任务分发给各成员Agent外,还负责管理各Agent之间的协调和通讯;各成员Agent完成搜索任务后,将各自查询结果发送给结果整合Agent,再由结果整合Agent进行归并、去重、排序,最终按统一格式将查询结果返回给用户交互Agent,显示给用户。
个性化模式库用于储存用户的个性化模式,这些个性化模式是由兴趣学习Agent根据用户以往的行为记录经验,对相关信息进行分析、挖掘和推理而得到的兴趣模型,也可通过用户主动提出自己的兴趣爱好或对元搜索引擎查询结果进行评价反馈获得;引擎性能评价库中存放各个成员搜索引擎的性能评价值信息、响应时间信息、返回链接数信息以及异常信息等。
2.多Agent间的通信
在基于Multi-Agent的元搜索引擎系统中,要想检索到想要的结果,实现各Agent之间的信息传递,就需要有共同的通信语言和通信机制来保证各之间正常的交流通信。
2.1 Agent通信语言
目前国际上最通用的Agent通信语言主要是KQML(Knowledge Query and Manipulation Language)和FIPA ACL。本系统中各Agent间的通信语言可采用现在被广泛使用和接受的KQML[15]。该语言既是一种Agent间的消息表达格式,也是一种消息处理协议,它规定了消息格式和消息传送系统,为Multi-Agent系统的通信和协作提供了一种通用框架。因为标准是开放的,各种语言可以用来传送知识,也可以集成在KQML中。
2.2 Agent通信机制
在多Agent系统中,通信方法大致可分为黑板系统和消息/对话系统。
(1)黑板系统原理
黑板系统是传统的人工智能系统和专家系统的议事日程的扩展,通过使用合适的结构支持分布式问题求解。在多Agent系统中黑板提供公共工作区,Agent可以互相交信息、知识和数据。Agent可以在任何时刻访问黑板,获取新的信息。它一般只选取对当前工作需要和预测将要需要的信息。在黑板系统中Agent之间不发生直接通信。每个Agent独立完成所求解的问题。黑板可以用在任务共享和结果共享系统中。各个Agent在访问黑板时要从大量的信息中决定需要的内容。其原理如图2所示。
(2)消息传送原理
采用消息通信是实现灵活复杂的协同策略的基础。一个Agent叫发送者,传送特定的消息到另一个Agent,即接收者。与采用消息通信和黑板系统不同,两个Agent之间直接进行数据交换,一个Agent直接将特定消息发送给另外的一个Agent。为了协同需要,Agent之间的通信协议必须定义好通讯过程、消息格式和通信语言,而且Agent必须明确知道语言的语义。消息的语义内容知识是分布式问题求解的核心部分。面向消息的Agent系统的原理如图3所示。
3.多Agent协商
在基于Multi-Agent的元搜索引擎系统模型中,要想保证各Agent之间通过合作交流完成信息检索,避免产生资源的冲突和死锁,就需要有共同的协商机制来规范控制各Agent的行为,使之井然有序地进行,保证Agent之间通过协商对某些问题达成一致意见。
先根据功能及结构的不同,将本系统模型中各Agent划分为两大类:Facilitator-Agent和Crawler-Agent。Facilitator-Agent(简称F-Agent)又称为管理Agent,它主要负责计划的制定、任务的分配以及Agent之间的通信管理;Crawler-Agent(简称C-Agent)又称为任务Agent,它们执行具体爬行的任务,受到F-Agent的管理。本模型中,除了查询管理Agent具备F-Agent和C-Agent双重身份外,其他各Agent都属于C-Agent。
下面介绍两种应用于搜索引擎中的Agent协商协议。
4.性能评价
在基于Multi-Agent的元搜索引擎系统中,系统的性能主要受到各Agent的自身能力和成员搜索引擎调度机制的影响。对Agent的自身能力评价,可通过其能力值来直接判定;成员搜索引擎的调度机制可通过其对应的成员Agent的奖励情况进行调整。
4.1 Agent自身能力评价
5.结束语
近几年,随着Agent技术的不断成熟,MAS在信息检索中的应用研究逐渐成为热点。利用MAS可以解决元搜索引擎中许多无法解决或解决不好的问题。本文提出一个适用于元搜索引擎的多Agent组织结构,在此基础上将各Agent按功能不同分为管理Agent和任务Agent两大类,同时对Agent的通信、协商以及能力评价都进行了详细研究。随着MAS系统方法的不断改进,Multi-Agent技术在元搜索引擎中的应用也有了良好的发展前景。
参考文献
[1]徐科,黄国景,崔志明.元搜索引擎中基于用户兴趣的个性化调度模型[J].清华大学学报(自然科学版),2005,45(S1): 1915-1919.
[2]董占兵.基于形式概念分析的主题搜索策略研究[D].成都:西华大学,2007:35-62.
[3]Jiang,Y.C.,Jiang,J.C.,A multi-Agent coordination model for the variation of underlying network topology,Expert Systems with Applations,2005(29):,372-382.
[4]Araujo Macedo,R.J.,Assis Silva,F.M.The mobile groups approach for the coordinationofmobileAgents,JournalofParallelandDistributedComputing,2005(65):275-288.
[5]赵文龙,侯义斌.多Agent系统及其组织结构[J].计算机应用研究,2000(7):12-14.
[6]何炎祥,陈莘萌.Agent和多Agent系统的设计与应用[M].武汉:武汉大学出版社,2001.
[7]向丹.专业搜索引擎中的多Agent协调研究[D].成都:西华大学,2007.
[8]Ronald C Arkin,Tucker Balch,Elizabeth munication of behavorial state in multi-agent retrieval tasks[J].Robotics and Automation,2003(3):588-594.
关键词:搜索引擎;web链接;PageRank;HITS
中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)24-6748-02
Research and Improvement of the Web-link Algorithms in Search Engine
WANG Mei
(Jiangsu Maritime Institute, Nanjing211170, China)
Abstract: This article researches algorithms of search engine link structure, analyzes HITS PageRank and the algorithms of apparent defect. Improving measures are put forward. Through the test, the test in the search algorithm improves the quality, etc.
Key words: search engine; web-link; PageRank; HITS
随着互联网的迅猛发展,Web上信息量呈爆炸式增长,网上的资源及其丰富,但同时也充斥着大量的垃圾信息。 人们依据搜索引擎中的关键词进行链接时,迫切需要从纷繁芜杂的信息中找到有用知识,因此,通过有效的链接算法判断网页十分重要。
目前Google、百度等的链接算法使用PageRank算法和HITS算法。PageRank算法的特点在于对网页进行了基于权威值的排序处理,最重要的网页出现在结果的最前面。HITS算法是在描述网页与主题的相关度时引入了权威网页(Authority)和中心页面(Hub)的概念,反映了权威网页和中心网页的相互加强关系。
1PageRank算法和HITS算法
1.1 PageRank算法
PageRank算法是将链接的网页基于权威值按序排列。网页的权威值基于下列考虑:1)一个网页被多次引用,或者虽然没有被多次引用,但是被重要的网页引用,则它可能是很重要的。这种重要的网页称为权威(Authoritive)网页。2)假定用户一开始随机地访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank值。
PageRank算法描述如下:A(u)是网页u的网页集合,N(v)是网页v指向外的链接数,v∈A(u),c是一个用于规范化的因子(Google通常取0.85),则u的PageRank值R(u)计算如下:
R(u)=cΣA(u)/N(v)(1)
但是如果有2个相互指向的网页a,b,他们不指向其它任何网页,另外有某个网页c,指向a,b中的某一个,比如a,那么在计算中,a,b的PageRank值就无法分布而不断地累计。解决这个问题的办法可以在算法中引入衰退因子E(u),因此式(1)改进如下:
R’(u)= cΣA(u)/N(v)+cE(u)(2)
1.2 HITS算法
HITS的算法主要考虑权威网页(Authority)和中心网页(Hub)之间的加强关系。每个网页都会有一个对应的权威值和中心值,如果某个网页有许多中心值高的网页指向它,则它就有高的权威值;同样,如果某个网页指向了许多高权威的网页,那么它将具有较高的中心值。
它的算法描述为:将查询q提交给基于关键字匹配的搜索引擎.搜索引擎返回很多网页,从中取前n个网页作为根集(root set),用S表示。S满足如下3个条件:
1)S中网页数量相对较小。2)S中网页大多数是与查询q相关的网页。3)S中网页包含较多的权威网页
通过向S中加入被S引用的网页和引用S的网页将S扩展成一个更大的集合T,称为基础集。以T中的Hub网页为顶点集V,以权威网页为顶点集U,V中的网页到U中的网页的超链接为边集E,形成一个二分有向图SG=(V,U,E)。对V中的任一顶点v,用h(v)表示网页v的Hub值;对U中的顶点u,用a(u)表示网页的Authority值。开始时h(v)=a(u)=1,对u执行下列(3)式操作修改它的a(u),对v执行下列式(4)操作修改它的h(v),如此不断地重复计算直到a(u),h(v)收敛。
a(u)=∑h(v) (3)
h(v)=∑a(u) (4)
(3)式反映了若一个网页由很多好的Hub指向,则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和)。式(4)反映了若一个网页指向许多好的权威页,则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和)。
2 算法存在的问题和改进措施
2.1 PageRank和HITS算法存在的问题
PageRank算法只返回包含查询项的网页,然后根据网页的PageRank值对搜索到的结果进行排序。它把PageRank值最高的网页放置到最前面,但是如果最重要的网页不在结果网页集中,PageRank算法就无能为力了;另外,用户在网页浏览时,回退浏览较多。
同样,HITS算法也存在问题,比如:1)有些网页在制作时,加入了一些与查询主题无关的链接;比如商业广告,赞助商和用于友情交换的链接,这些都降低了HITS算法的精度。2)有时,主机A上的很多文档可能指向另外一台主机B上的某个文档,这就增加了A上文档的Hub值和B上文档的Authority,相反的情况也如此。3)HITS算法最大的弱点是处理不好主题漂移问题(topic drift),也就是紧密链接TKC(Tightly-Knit Community Effect)现象。如果在集合T中有少数与查询主题无关的网页,但是他们是紧密链接的,HITS算法的结果可能就是这些网页,偏离了原来的查询主题。4)用HITS进行窄主题查询时,可能产生主题泛化问题,即扩展以后引入了比原来主题更重要的新的主题,新的主题可能与原始查询无关。
2.2 改进PageRank算法
去除PageRank算法需要的前提2,增加考虑了用户从一个网页直接跳转到非直接相邻的但是内容相关的另外一个网页的情况。
2.3 改进HITS算法
1) 改进HITS算法中的第Ⅰ问题:
提取根集S中的每个文档的前若干量的词语,串连起来作为查询主题T,计算每个文档的主题相似度,根据不同的阈值进行刷选,阈值可以选择所有文档相似度的中值、根集文档相似度的中值或最大文档相似度。根据不同阈值进行处理,删除不满足条件的文档。
2) 改进HITS算法中的第Ⅱ问题:
假定主机A上有k个网页指向主机B上的某个文档d,则A上的k个文档对B的Authority贡献值总共为1,每个文档贡献1/k,而不是HITS中的每个文档贡献1,总共贡献k。类似的,对于Hub值,假定主机A上某个文档t指向主机B上的m个文档,则B上m个文档对t的Hub值总共贡献1,每个文档贡献1/m。
3) 改进HITS算法中的第Ⅲ问题(TKC问题)
得到根集并且扩展为网页集合T,除去孤立节点;
从集合T构造无向图G’=(Vh,Ua,E)
Vh = { Sh | S∈T and out-degree(S) > 0 } ( G’的Hub边). (5)
Ua = { Sa | S∈T and in-degree(S) > 0 } (G’的Authority边).(6)
E= { (Sh , Sa)}
这就定义了2条马尔可夫链链,Authority链和Hub链。
以上改进算法并非完美算法,仍然有改进的空间,如计算网页的Authority值时,只考虑网页在直接相邻网页集中的受欢迎程度,忽略其它网页对它的影响等等。
3 验证与结果
自行开发搜索引擎系统,对以上HITS算法和改进算法进行测试。
3.1 测试数据
使用搜索引擎中的网络爬虫程序抓取网页,收集近百个网站20多万网页。对这些网页进行分析处理,并加以保存。
先为这些信息按HITS算法建立索引,保存在索引文件夹中。通过这些索引构建搜索器,将该索引映射到内存中,对提交的查询关键字进行快速检索。再对网页信息按改进的算法优化索引,并保存在新的索引文件夹中。
3.2 测试结果
1)生成基础集的质量方面
表2为改进算法与HITS算法生成基础集质量比较。
2)搜索质量
用不同算法,搜索上述关键词的前20名链接网页加以排序,判断这些网页是否符合关键词。
表3为改进算法和HITS算法搜索质量比较。
3)测试结论:用改进算法进行链接搜索,其结果较HITS算法更令人满意。
4 结束语
本文就当前搜索引擎的链接问题分析了2种算法,同时对这2种算法的缺陷提出了改进的措施,使搜索引擎的主题链接在性能上有很大提高。
当然,关于搜索引擎的链接结构,可探讨的问题还有许多,可总结的算法也有很多,以上2种算法还有未及之处,比如没有有效的方法准确判定链接是否包含重要的信息、查询的分类没有明确界限等等。如果算法要取得更好的效果,还需要继续做深入的研究。
参考文献:
关键词:上市公司;门户网站;搜索引擎优化
中图分类号:F27
文献标识码:A
1引言
搜索引擎作为用户与网络的主要接口,是用户搜索网络信息最常用的工具,在连接用户与企业上扮演着关键角色。搜索引擎优化依托于搜索引擎而出现,是一种针对搜索引擎的检索特点、排序规律,对网页进行科学调整的优化方法。上市公司门户网站是用户获取产品信息的重要途径,其通过搜索引擎优化可以使网站更易被搜索引擎检索收录,提高网站在搜索引擎内的排名,进而吸引目标用户,提高网站流量。
现有研究中,焦丽和路波基于自身经验对搜索引擎优化策略进行了分析。唐卫东和刘存后结合某网站的优化实例,提出基于关键词效能的搜索引擎优化策略。范哲重点分析了国内12家优秀企业门户网站的外部链接优化情况。蒋雪瑛和徐福缘则以两个农村创业型网站为例研究了国内小型创业网站的搜索引擎优化策略。
上述研究虽然从不同的角度探讨了公司网站的搜索引擎优化情况,但缺乏对上市公司门户网站搜索引擎优化实施情况的分析,且相关结论也缺乏大样本数据的支持。
区别现有研究,本文调查82家汽车制造业上市公司的门户网站,从标题、关键词、描述、网页大小及反链接设置等方面对网站的搜索引擎优化运用情况进行分析,最后提出上市公司门户网站的搜索引擎优化建议。
2研究设计
搜索引擎优化是一种提升网页在搜索引擎自然搜索结果中的排序位置的优化方法。具体的搜索引擎优化技术包括标题优化、关键词优化、描述优化、网页优化、链接优化、错误页面优化和网站结构优化等多个方面。
由于上市公司门户网站的搜索引擎优化涉及面广,部分数据难以获取,本文主要分析标题、关键词、描述、网页大小和链接优化,以及百度收录和百度权重两种优化效果表现。由于优化数据会随着时间变化而改变,本文数据均在2017年2月27日,通过站长工具网站(http:///)收集。具体数据收集过程如下。
第一,上市公司名单获取。通过中国证券监督管理委员会网站(http:///pub/newsite/scb/ssgshyfljg/)获得2016年4季度上市公司行业分类结果,并从中选择汽车制造业上市公司名单,共93家。本文选择汽车制造业的原因在于:随着经济生活水平的提高,用户对汽车的需求逐渐增多,上网获取汽车信息的需求也逐渐增加,用户与汽车公司门户网站的接触也越来越多。
第二,网址获取。基于93家上市公司名单,通过百度搜索获得公司门户网站网址。
第三,数据收集。打开站长工具网站,逐一对93个网址进行SEO综合查询,记录相关的搜索引擎优化数据。
第四,数据整理。对收集到的93组数据进行整理,删除有重要变量数据缺失的公司数据,最终获得82组数据。
3调查结果
通过对82组上市公司门户网站的相关数据进行整理,其具体的搜索引擎优化实施情r如表1所示。
3.1标题优化
标题是搜索结果的重要组成部分,是网页留给用户的第一印象,可以提示网页最主要的内容。调查显示82家公司均设置标题,且超过半数的公司网站标题的设置与公司名称有关。而其他的标题形式也多为公司名称与经营产品的组合,只有极少数的标题仅用“首页”等字样。
3.2关键词优化
关键词优化是搜索引擎优化的核心内容。选择合适的关键词有利于搜索引擎检索到公司网站,也有利于公司更为准确的传递其产品信息。调查显示82家公司中有60家设置了关键词,且多以公司名称和经营产品为关键词形式。
3.3描述优化
描述也是搜索结果的重要组成部分,是对网页主要内容的简要解释。调查显示82家公司中61家设置有描述标签,占74.39%。特别的,描述标签的长度一般不超过200字符,需要精简准确的描写出网页的重要内容。设有描述标签的61家公司中,仅有1家超过200字符。
3.4网页大小优化
网页大小越大越能提供给搜索引擎和用户更多的信息。但过大的网页又不能被搜索引擎完全检索。因此,网页设置时需要对网页进行适当压缩,以便于搜索引擎的检索和收录。调查显示82家公司网站中,49家网站有对网页进行压缩,占59.76%。
3.5反链接优化
反链接是指其它网站指向该网站的外部链接,又称导入链接。反链接代表其他网站本网站的信任和支持,反链接越多,证明本网站越受其他网站欢迎。网站拥有更多的高质量的反链接,越容易被搜索引擎检索,且获得更高的权重和收录。调查显示82家公司中72家有反链接,占87.8%,但其中46家公司的反链接数量在10条以下。
3.6百度收录
百度收录是指网站被百度搜索引擎收录网页的数量。从表1中可以看出,82家公司网站的收录数相差较大。半数的公司其百度收录数处于100到1000之间。
3.7百度权重
百度权重是指关键词排名给网站带来的流量,代表网站受欢迎程度,可以划分为等级0-10。从表1中可以看出权重值超过5的网站只有3家,半数以上的网站百度权重在3以下。
4问题及建议
4.1问题
通过对调查结果分析发现:
第一,上市公司门户网站主要关注标题的设置,对关键词和描述的设置有所忽视。且在标签(包括标题、关键词和描述)内容的选择上比较单一,主要围绕公司名称,只有部分考虑到公司的经营产品等内容,但也未考虑到更多的其他内容。且还有小半部分公司网站直接忽视了关键词和描述的优化。
第二,在网页大小的压缩上,也存在部分公司未对网页进行压缩,这不利于搜索引擎的检索,也可能导致用户在打开网站时,由于网页过大,受到网络带宽的影响。
第三,在反链接优化上,大多公司虽然都考虑到了对反链接的设置,但未足够重视。这还可能是公司网站未加强推广,以至于公司网站缺乏知名度,不能吸引来自外部的链接。
此外,从百度收录和百度权重的统计来看,网站的百度收录数偏低,百度权重值也不高。这也间接反映了上市公司门户网站在搜索引擎优化上的实施还不到位。
4.2建议
首先,要重视标签的设置。标题以公司名称的形式是合理的,但可以进一步优化。标题在搜索引擎结果页面中暴露程度最大,最易吸引用户注意。因此,标题要精确的总结页面的中心内容,还要简洁、醒目。在关键词优化上,公司不仅要重视对关键词内容的选择,还要注意对关键词的管理,控制关键词的数量和出现的次数等,避免造成关键词堆砌。此外,关键词反映了公司网站的定位,所以随着公司网站定位的变化,以及响应竞争者的竞争活动等,关键词的选择应该是变化的。
其次,要控制网页大小。网页越大,呈现给搜索引擎和用户的信息可能更多,但需要花费更多的时间去检索和等待。因此,公司网站要合理的压缩网页大小。此外,公司网站还可以通过调整网站的内容和结构安排来为网页“减负”。
最后,要加强反链接的设置。反链接可以增加网站被检索的可能,好的反链接还会增加网站在搜索引擎中的排名。因此,公司网站不仅要主动的去接触其他的与本公司有关的高质量的网站,与其建立链接,还要加强对自身内容的管理,使其更加丰富和权威,增加网站的价值,吸引其他网站来主动链接。最后,公司还要时常关注链接的有效性,避免出现错误链接和失效链接。
5总结
本文以82家汽车制造业上市公司门户网站为样本,调查分析了相关网站的搜索引擎优化实施情r。调查发现相关网站对搜索引擎优化还不够重视,在标签设置,网页压缩和引入反链接上都需要进一步的加强。为了提高上市公司门户网站在搜索引擎中的收录和排名,吸引更多的用户,创造更好的收益,上市公司门户网站应重视对搜索引擎优化的实施和管理。
参考文献
[1]Egri G,Bayrak C.The Role of Search Engine Optimization on Keeping the User on the Site[J].Procedia Computer Science,2014,(36):335342.
[2]李忆,袁志会,袁梓翔.搜索引擎优化技术对网站友好性影响的实证研究[J].情报杂志,2014,(09):173180.
[3]焦丽,路波.搜索引擎优化策略研究[J].生产力研究,2010,(07):118119.
[4]唐卫东,刘存后.基于关键词效能的搜索引擎优化策略分析[J].现代情报,2011,(10):3641.
[5]范哲.国内优秀企业门户网站外部链接的分析与思考[J].情报杂志,2009,(09):146151.