前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的个性化推荐主题范文,仅供参考,欢迎阅读并收藏。
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)03-0250-03
1 概述
随着信息时代的不断发展,网络给人们的生活带来了翻天覆地的变化,人们可以足不出户就能够在网络上购买到自己想要的任何商品。网络的便利,使得人们的购物方式得到了改变,同时也滋生了很多购物平台的产生。无论大型还是小型的电子商务平台,都会存在着一些弊端,信息过载问题,就是商品的种类太过于丰富多样性,以至于用户不能很快地查找到自己喜欢的商品。所以平台开发商们就会想尽办法来避免这种情况,个性化推荐应运而生,个性化推荐就是在正确的时间把正确的商品推荐给正确的用户,来拉拢用户,防止用户的流失,从而提升自己平台的竞争力。
1.1课题背景及研究的目的
当今时代是信息的时代,每天人们都会被不同的海量数据所围绕,如何从这些繁杂的数据中找到自己想要的数据,是我们每个人都迫切需要的。我们都希望每个平台系统都能给我们展示出契合我么自己的数据,这样我们就不需要花费太多的精力在寻找数据上。
基于和老师同学们一起做的这个ICON项目(一个类似图片交际购物系统),因为用户的不断增加,所上传的图片也越来越多,为了满足用户查找数据的方便,就打算给系统添加一个个性化推荐策略。由于自己对推荐这一块比较陌生,阅读了多篇关于推荐系统的论文及报告,大多都会涉及诸多复杂的算法,就想到针对我们这个系统来设计一个较为简单的个性化推荐。
1.2 本文主要研究的内容和组织架构
1.2.1 本文主要工作
本文主要探讨了一下个人设计的简单个性化推荐策略及相关工作。介绍了该推荐策略的研究背景和目的,然后又详细地介绍了该策略算法。最后就该研究成果在ICON项目中的应用效果进行了展示,说明了我们算法的可行性。
1.2.2 本文的组织架构
第一章是绪论部分,介绍了个性化推荐系统的背景,以及研究目的。简单个性化推荐策略的由来。
第二章是算法简述部分,大概地介绍了一下算法。
第三章是算法详解部分,在本章节中详细介绍了算法的构成。
第四章是指标的权重计算部分,介绍了算法中一个比较重要的权重计算方法,并计算出了算法中各个特性的权重值。
第五章是结果分析部分,对推荐前后用户滞留系统的时间和点击look的数量进行观察比较,得出分析结果。
2 算法简述
1) 找出平台关键点;
2) 统计关键点数据;
3) 画出涉及关键点的表格;
4) 整理分析,推荐图片;
5) 通过图片推荐给用户商品。
3 算法详解
3.1 找出平台关键点
用户发表一个look(即图片),都会给这个look选择一个性别、季节、品牌、风格等,其中风格包含有正装、暗黑、韩国风、运动、嘻哈等多达20多种的不同风格,其中肯定会有一种是你发表的look风格。性别和风格是主要的,从这两个特性中我们就能看出你平时穿衣打扮,因为发表的每一张look都是对自己平时的一个真实写照。用户发表的每一张look都是对应自己所购买的衣服,从而我们就可以从look中对应到相应的商品中。
抛开性别这个普遍的共性来分析,我们可以根据用户平时发表的look的风格来观察该用户的穿衣习惯,从而得到用户可能喜欢的商品类型,继而向用户推荐他们想要看到或者想要购买的衣服。
在icon的系统中,用户看见自己喜欢的look时,可以对其进行点赞或者收藏。用户也可以关注其他的用户,成为他的粉丝,随时关注他(她)发表的look,你们之间也可以相互交流探讨穿衣打扮的技巧。
在认真观察项目后,可以看出用户发表look的风格就是所谓的关键点。
3.2 y计关键点数据
用户发表的look,关注的look,点赞的look,以及收藏的look我们都统一存到了数据库中。平台是用mybatis连接的数据库,所以,数据我们可以写sql语句直接获取到,而不用去分析历史数据或者网络爬虫去解析用户浏览行为等。
这个算法,我要求只需要能获取到用户偏重的前三个就行,所以常用到的mysql中的limit关键字,limit接受一个或两个数字参数,参数必须是一个整数常量,如果给定两个参数,第一个参数指定第一个返回记录行的偏移量,第二个参数指定返回记录行的最大数目。在使用limit时,要先判断查询到的数据集的数目有多少,防止查询的时候出错。
举个例子,通过tbl_look表和tbl_user_likes表来查找id为131的用户点赞的look风格的前三个的mysql语句:
SELECT tul.id,tul.uid,tul.lookid,tl.style,COUNT(tl.style) AS sc FROM tbl_user_likes tul ,tbl_looks tl WHERE tul.uid=131 and tl.id=tul.lookid GROUP BY tl.style ORDER BY sc DESC LIMIT 3
3.3 画出涉及关键点的表格
为了更形象的观察用户的自己的风格以及自己和其他人的风格,我们将查询的数据用表格的形式展示出来。这样就可以一目了然的通过观察表格得出合理的结论。
3.4 整理分析,推荐内容
分析表1,因为用户发表、点赞和收藏的数量差别可能比较大,所以我们就按照表格中展示的三项以及它们的权值来计算每个用户表侧重的风格。
每个用户的风格评分计算如下:
[fur=i=03wiri]
[fur]表示u用户r风格的评分,其中[wi]表示每个i指标的权值,会在第四章详细介绍权值算法;[ri]表示u用户r风格是否存在i指标的参数,存在为1,不存在为0。
经过计算,我们得出甲用户和丁用户都比较侧重ABC折三种风格,并且甲和丁也互相关注了,那么我们完全就可以认为甲和丁用户风格类似,可以看成是相似用户。按照基于用户的协同过滤算法来考虑的话,我们可以把E风格的服饰推荐给丁用户,而把G风格的服饰推荐给甲用户。
我们还可以得出,BC风格总是在一起,EF风格总是在一起,我们就可以这样认为,喜欢B风格服饰的人通常也会喜欢C风格的服饰,喜欢E风格服饰的人通常也会喜欢F风格服饰的人,反过来也一样。按照基于内容的系统过滤算法考虑的话,我们就可以把B风格的服饰推荐给乙用户。
3.5 通过图片推荐给用户商品
整个系统的模式是这样的,通过用户的各项特征找到一个关键点,再由该关键点给用户推荐look,最后由推荐的look来决定用户可能喜欢的商品(服装)。如图1所示:
4 指标的权重计算
各项指标的权重根据定量统计法算法计算得出。
定量统计计算权重的步骤如下:
1) 按照没有关联、有点关联、关联和非常关联四个等级绘制出统计表格。
2) 以67%(2/3)位界限,若选择“关联”和“非常关联”的比例合计小于67%,就删除该指标,不予考虑。
3) 分别把没有关联赋值为1,有点关联赋值为2,关联赋值为3,非常关联赋值为4,选择出没有关联之外以上数据都进入统计,那么三种选项的权重分别为[w′1]=2/(2+3+4)=0.22;[w′2]=3/(2+3+4)=0.33;[w′3]=4/(2+3+4)=0.45。
4)指标权重计算:
[wi=pii=13pi]
其中[pi]为指标i的统计权值和:
[pi=j=13w′iaij]
其中,[aij]表示i指标除没有关联外的其他关联度的统计数,[a11]就表示指标1有点关联的统计人数,[a32]就表示指标3关联的统计人数。
我们对使用该系统的用户进行了一次统计,随机抽出统计过的100名用户来计算权值。
首先画出统计的表格如下:
分别代表用户发表、点赞和收藏look的风格权值。通过计算得到的数值可明显看出,用户发表和收藏的look风格所占比重比较大,点赞风格所占比重较小。所以,发表和收藏风格的特性能较大反映出用户的风格类型,而点赞风格的特性稍次于发表和收藏特性。
5 结果分析
项目中我们引入了cnzz流量统计、网络分析数据专家,可以通过cnzz来获取到用户滞留平台的时间和点击各个look的数量。
为了验证该个性化推荐策略的可行性,我们随机抽取了四名用户,利用cnzz获取到在推荐系统应用的前后,用户滞留系统的时间(从进入系统到退出系统的滞留时间),以及用户点击look的数量,描绘成线形图如下:
通^这两个柱状图,可以明显的观察到推荐策略应用前后的效果,证明了我们所做的工作的可行性。
参考文献:
[1] 丁宏飞,黄战.个性化电子商务系统中用户兴趣模型的研究[D].广州:暨南大学,2008.
[2] 王国霞,刘贺平.个性化推荐系统综述[J].计算机工程与应用,2012(9).
[3] 刘玮.电子商务系统中的信息推荐方法研究[J].情报科学,2006(4).
[4] 米鹏,段建勇,付晓宇.面向社区用户的推荐策略研究[D].北京:北方工业大学,2016.
[5] 曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报,2002(5).
[6] 于波,陈庚午,王爱玲,等.一种结合项目属性的混合推荐算法[J].计算机技术应用,2017(5).
如何关闭微博个性化广告推荐 2、点击右上方的【设置图标】进入设置。
如何关闭微博个性化广告推荐 3、点击【隐私设置】选项进入。
如何关闭微博个性化广告推荐 4、点击底端【个性化广告推荐】的开关按钮。
如何关闭微博个性化广告推荐 5、点击关闭后,页面显示【设置成功】即可。
2、在“美团”窗口中,点击下方“我的”菜单选项。
3、在弹出窗口中,点击右上方“设置”符号选项。
4、在“设置”窗口中,找到“通用”选项并点击它。
5、在“通用”窗口中,找到“隐私管理”选项并点击它。
6、在“隐私管理”窗口中,找到“接收个性化推荐”选项并点击“关闭”按钮。
7、在弹出窗口中,点击“确认关闭”按钮选项。
关键词:社会化标签;学习平台;协同过滤
中图分类号:TP311.56 文献标志码:B 文章编号:1673-8454(2014)19-0044-04
引言
泛在学习是一种随时随地的、个性化的学习过程,是人们最喜欢的一种学习模式。泛在学习是现在信息社会最流行的一种非正式学习方式,它弥补了数字学习的不足和限制,也是构建学习型社会的主要途径之一。泛在学习环境中需要数量巨大的各类学习资源,但由于泛在学习的随时随地性与个性化等特点,学习主体对各类资源的需求层出不穷,如果能在数量巨大的各类学习资源中找到学习者需要的学习资源,屏蔽那些学习者不喜欢的学习资源,建立起这种学习者与学习资源的匹配机制,将大大提高学习者的学习效率。[1]不同的学习者兴趣爱好不同,为不同的学习者提供自己喜欢的学习资源,让学习资源来适应学习者,这将是以后研究的热点。
一、个性化学习的现状
目前绝大多数的网络学习资源平台都可以对本平台的资源进行管理,可以进行资源的分类浏览和基于关键知识点的资源检索功能,当不同的学习者访问网络学习资源平台,平台为所有学习者的服务是完全一样的,未考虑每位学习者的个性化需求,不能为学习者提供他们需要的、想要的服务和需求。 “大量资源”和个性化学习网络的人的需求之间的矛盾就已经存在,这种矛盾的存在,一方面降低了资源的有效利用、造成了资源的浪费;另一方面给学习者使用资源带来了诸多困难。[2]
个性化推荐是目前一种重要的解决“信息过载”问题和提供个性化服务的方案。个性化推荐是利用已有的Web用户兴趣爱好和行为信息,讲web学习者和学习资源关联起来,通过Web用户与Web用户、Web用户与学习资源之间相似性、相关性关系挖掘和发现学习者潜在感兴趣的学习资源,进而对Web学习者进行个性化推荐服务。本质上是对信息进行帅选、提取,它根据Web用户的偏好、兴趣等,对其提供具有个性化特征的信息产品推荐。
二、推荐策略的组合使用
1.社会化标签的引入
社会化标签是近几年新使用的一种标注网络资源的工具,其思想是根据用户的访问内容来判断用户的行为和需求,和基于内容的推荐很类似。基于内容的推荐技术是以资源信息为研究对象,利用信息检索技术来分析项目的内容,通常应用邻居函数和分类技术来分析和聚类项目的文本内容,并基于项目特征与用户档案产生推荐。[3]通过使用社会化标签,资源信息变得更加准确和明白,进而给资源信息定义了一种新的社会属性。
标签由用户定义,反应了用户的兴趣偏好,我们可以通过分析用户标签来判断出用户的兴趣爱好。同时,标签表达了与资源之间的语义关系,可以用来分析资源的潜在属性。我们可以根据标签建立相似资源集,为目标用户找到感兴趣的学习资源,同时社会化标签还提供了解决冷启动问题的方法。
因为标签可以由用户自己定义,会遇到同义词标签的问题,解决方法为:通过穷举的方式查询同义词库,对同义词标签进行归一。
2.协同过滤算法的改进
(1)通过社会化标签计算资源之间的相似度
对于新增的学习者,由于学习者对资源的评分很少,不能进行很好的协同过滤的推荐,这就是冷启动问题。这里我们根据用户注册时填写的兴趣标签,向学习者推送学习者所感兴趣标签相似度最大的资源。
对于评分数据稀疏的问题,我们通过社会化标签计算资源之间的相似度,通过资源间的相似度来对评分矩阵进行进一步的填充。其流程如图1所示。
1)计算资源之间的相似度。这里使用向量空间模型(VSM)对资源和社会化标签进行描述,向量空间模型就是用一组关键词及其权重(形如((key1,weighty1),(key2,weight2),(key3,weighty3),(keyn,weightyn)),其中n为关键词维度)。这里的关键词即转换为社会化标签,而权重通过TF-IDF算法计算得来(具体计算时,对于资源――标签,weight的计算公式为:tag在该资源中年出现的次数/该资源所有的标签数 + tag标识过的资源数量/总的资源数量),形成(tag1,weight1), (tag2,weight2), (tag3,weight3)……(tagn,weightn)再根据标签和资源形成资源―标签矩阵表。[4]
2)通过Pearson算法计算资源之间的相似度,选取相似度最大K个资源。Pearson算法:Tij表示标签i和标签j所标注的资源的交集,j表示标签j所占的平均权重,i表示标签i所占的平均权重。
3)根据资源的相似度来填充学习者――资源评分矩阵,解决数据稀疏问题。相似资源的集合Su,Rn,表示资源n的评分,sim(u,n)表示资源u、n的相似度,u表示资源u所得到的平均评分。
(2)通过协同过滤算法得到最相似的Top-N个学习者
协同过滤算法是根据学习者和资源的评分矩阵,计算出学习者之间的相似度,来推算出那些学习者没有进行评分的资源的评分,并且系统综合学习者的兴趣爱好,给学习者推送他们可能会评分高的资源[10]。基于协同过滤的个性化推荐具体流程:
1)得到m个用户对n个资源的评分矩阵。
2)通过Pearson算法计算用户的相似度,选取相似度最大的前k个用户。
Pearson算法:Iij表示用户i评过分的项目和j评过分的项目的交集,j表示用户j评分的平均分。
3)根据用户的相似度得到用户对其他的没有评过分的项目的评分,产生推荐。相似用户的集合Su,Rn,j表示用户n对项目i的评分,sim(u,n)表示用户u、n的相似度,u表示用户u对项目的平均评分。
三、学习平台的架构
本学习平台设计主要分为三部分:学习者管理模块、资源管理模块、个性化推荐模块。其总体架构如图2所示。
学习资源建设主要通过两种方式:服务器中存放的大部分的学习资源、学习者自己上传自己感兴趣的资源。学习者模块主要是记录学习者的学习情况,分析学习者的兴趣爱好。学习者和资源之间有一个资源描述文件,该文件记录了资源本身的内容特征、学习者访问的次数、访问的时间和各种行为,形成一种学习者和资源之间的关系表。
个性化推荐模块是平台的主要功能模块。该模块中最主要的是推荐算法,推荐算法的使用直接会影响到本系统的准确性。该平台采组合使用了多种推荐算法,引入了社会化标签,并且对协同过滤算法做了一定的改进。
四、学习者模型和资源模型的具体构建
1.学习者模型
对学习者的学习兴趣抽取,并对兴趣爱好进行量化,建立学习者模型,并且不断地更新用户的兴趣变化,进一步地完善学习者模型,凸显出以学习者为中心的学习理念[2]。其创建流程如图3所示。
(1)显性数据的获取
显性数据主要包括学习者注册时填写的学习者的基本学习情况和相关的兴趣爱好以及学习者的直接评分和评价。学习者注册信息主要有学习者的教育层次、正在学习的课程资源、使用的资源标签、喜欢观看视频还是文字等。其相关数据如表所示。
(2)隐性数据的获取
学习者在平台中学习时,对学习资源就会产生收藏、下载、浏览、在页面停留的时间、浏览的次数和评价等学习行为,这些学习行为就表现出了他的学习兴趣,我们将学习者的学习动作收集并记录下来。根据学习者的行为的不同进行打分,作为学习者对资源的评分。[5]例如:浏览一次得2分、浏览并且收藏了得4.5分等。
用户特征的提取中,不同用户的浏览行为反映了不同用户的兴趣爱好,而且,用户的兴趣总会随着时间的变化,具有一定的漂移性,动态转移的。这样,在用户模型中,用户的兴趣度值也会相应变化的;用户对感兴趣的资源也会在一段时间内是高频点击浏览的,时间也是会越长的,那么,用户就会对其相应感兴趣的资源的兴趣度值也会提高。[6]
2.学习资源模型
学习资源是学习者学习、交流、互动的根本和媒介,建立符合学习者的学习资源模型同样重要,目前大多数学习资源的建立都是根据学习者的学习需求建立的,但是学习资源之间的联系很松散,学习资源都是在杂乱无序的生长,所以我们对学习资源进行统一的管理和归类。[7]
学习资源分为学习主题、学习文档、学习序列,每个资源都必须要用两个以上的标签进行标注,这样每个学习资源都用标签来代替,标签的引入有助于对资源内容进行分类,实现资源的统一管理和高度共享。
五、展望
1.推荐系统实时性的提高
推荐系统都需要学习者的反馈,所以会产生一个冷启动的问题,一个新的资源很难很快地推荐给学习者。如果系统可以及时地向学习者推荐新的学习资源,推荐的质量就要受到很大的影响,如何保证这两个的协调需要进一步的研究。
2.深化学习资源特征的描述
可以把学习资源先根据某些标准进行分类,并且和学习者的教育级别相结合,在大的方向上向学习者推荐。随着信息时代的发展,信息量的扩大,数据挖掘技术的发展,我们可以将协同过滤算法和数据挖掘相结合,向学习者更准确地推荐学习资源。同时加大对新的资源的引入和分类,将信息更及时地推向给学习者。
参考文献:
[1]杨丽娜,肖克曦,刘淑霞.面向泛在学习环境的个性化资源服务框架[J].中国电化教育,2012(7):84-88.
[2]杨丽娜,颜志军,孟昭宽.基于个性化推荐思想的虚拟社区学习共同体动态构建[J].现代教育技术,2012(1):88-92.
[3]王永固.基于协同过滤技术的学习资源个性化推荐研究[J].远程教育杂志,2011(3): 66-71.
[4]李高敏.基于协同过滤的教学资源个性化推荐技术的研究及应用[D].北京交通大学,2011:58.
[5]程成.基于社会化标签和混合模式的教学资源个性化推荐系统的设计[D].北京交通大学,2012:66.
关键词:推荐系统;Mahout;单机内存算法;组件
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)25-0171-02
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代进入了信息过载的时代。推荐系统的出现可以帮助用户发现对自己有价值的信息,同时能够让信息展现在对它感兴趣的用户面前。个性化推荐系统依赖于用户的行为数据,目前被广泛地应用在包括电子商务、社交网络、电影和视频、音乐、个性化邮件和广告、基于位置的服务、阅读等领域中,从而提高相关网站的点击率和转化率。Mahout是来自Apache的、开源的机器学习软件库,主要提供了机器学习领域的推荐引擎(协同过滤)、聚类和分类算法的实现,为推荐系统的应用和研究提供了支持。
本文通过对Mahout中的推荐算法进行研究,使用一个示例对推荐算法进行评估,从而找到一个有效的推荐程序应用到示例中,为用户实现推荐。
1 Mahout的推荐算法
基于Hadoop分布式框架的机器学习算法库Mahout封装了多种机器学习算法的分布式实现,由多个组件混搭而成,各个组件的组合可以定制,从而针对特定应用提供理想的推荐。通常包括的组件如下:数据模型由DataModel实现;用户间的相似性度量由UserSimilarity实现;用户近邻的定义由UserNeighborhood实现;推荐引擎由一个Reommender实现。从数据处理能力上,Mahout推荐算法可以分为单机内存算法和基于Hadoop的分布式算法,本文仅讨论单机内存算法。
1.1 推荐数据的表示
推荐引擎的输入是偏好数据(preference data),通常用(用户ID,物品ID,偏好值)的元组集合来表示。在Mahout中使用DataModel对推荐程序的输入数据进行封装,GernericDataModel是现有DataModel实现中最简单的,它通过程序在内存中构造数据表示形式,将偏好作为输入,将用户ID映射到这些用户数据所在的PreferenceArray(一个接口,表示一个偏好的聚合)上。若用户和物品的数据无偏好值时,可以使用GenericBooleanPrefDataModel来实现。基于文件的数据使用FileDataModel,从文件中读取数据,将所得的偏好数据存储到内存,即GernericDataModel中。基于数据库的数据用JDBCDataModel实现,若使用MySQL数据库,可以使用其子类MySQLJDBCDataModel。
1.2 相似性度量
基于用户的推荐程序和基于物品的推荐程序都依赖于UserSimilarity这个组件,及用户或物品之间的相似性,缺乏对用户或物品的相似性定义的推荐方法是毫无意义的。相似度算法包括了欧氏距离相似度(EuclideanDistanceSimilarity)、皮尔逊相关系数相似度(PearsonCorrelationSimilarity)、曼哈顿距离相似度(CityBlockSimilarity)、对数似然相似度(LogLikehoodSimilarity)、谷本系数相似度(TanimotoCoefficientSimilarity)等
1.3 用户近邻
近邻算法适用于基于用户的协同过滤算法,选出前N个最相似的用户构成邻域,作为最终推荐参考的用户。近邻算法分为2种:基于固定大小和基于阈值的。NearestNUserNeighborhood实现基于固定大小的邻域,指定N的个数,如选出前10个最相似的用户;ThresholdUserNerghborhood实现基于阈值的邻域,指定比例,如选择前10%最相似的用户。
1.4 推荐算法
Mahout的推荐算法以Recommender作为基础父类,实现类有基于用户的推荐算法、基于物品的推荐算法、基于物品的KNN的推荐算法、Slope-one推荐算法、基于奇异值分解(SVD)的推荐算法、基于聚类(TreeCluster)的推荐算法。推荐算法对比如表1所示。
2 Mahout在推荐系统中的应用
上节介绍了Mahout提供的推荐算法,接下来讲述如何在数据集上使用Mahout开发推荐系统。首先分析样本数据,对数据做预处理,然后选取一个方法,收集数据、评估结果,多次重复这个过程,找到最优的推荐算法创建一个推荐引擎。
本示例数据来自捷克的一个约会网站(http://libimseti.cz)。该网站的用户可以对其他用户的档案进行评分,分值从1到10不等,分值1代表“喜欢”,分值10代表“不喜欢”。
2.1 数据的输入
示例数据集有17359346份评分,存储为ratings.dat文件,是一个简单地以逗号分界的文件,包含用户ID、档案ID和评分,档案是指其他用户的档案。每行代表一个用户对另一个用户档案的一次评分,如:1,133,8,表示用户ID为“1”的用户对档案ID为“133”的评分值为8。输入数据的格式直接可以用于Mahout的FileDataModel。即用户和档案是数字,文件按字段依次以逗号分隔:用户ID,物品ID,偏好值。
2.2 寻找一个有效的推荐程序
为了创建一个推荐引擎来处理示例数据,需要从Mahout中挑选一个推荐程序。通过在基于用户的推荐程序和基于物品的推荐程序下选择几种不同的相似性度量和邻域定义进行尝试性测试,测试结果如表2、表3所示。
以上的结果较为理想。这些推荐程序估计的用户偏好平均偏差在1.12~1.56之间,而取值范围为1~10。最佳的方案是选择基于欧氏距离相似性度量和2个最近邻域的基于用户的推荐程序,其评分估值为1.12。
从结果看出,平均误差,即估计值和实际值的平均差值翻了大概2倍,具体值超过了2,显然基于物品的推荐方法相较于基于用户的推荐方法效果不佳。
Slope-one推荐程序在数据模型中的大多数物品对之间求得一个差值。示例数据集中有168791个物品(档案),意味着潜在存储了280亿个差值,它太庞大因而无法存入内存。可以考虑在数据库中存储这些差值,但会极大地降低性能。对于示例数据集,Slope-one推荐程序也并非最佳选择。
读者还可以尝试更多的组合进行测试,经过目前所做的测试进行对比分析,这里在Mahout中选择最佳方案:基于用户的推荐程序,采用欧氏距离测度且邻域为2。
2.3 评估性能
使用Mahout的LoadEvaluator类评估该数据集上使用的推荐程序,采用如下的标识类参数:-server Cd64 CXmX2048 CXX:+UseParallelGC CXX:+UserParallelOldGC。在测试机上平均每次推荐会用218ms。这个程序在运行时仅占用1GB左右的堆空间。这些测试结果是否可被接受,依赖于应用的需求和可用的硬件资源。对于许多应用而言,这些测试数据应该还是符合要求的。
3 结束语
本文通过使用一个来自约会网站的数据作为示例,分析了数据的格式,使之成为适合Mahout应用的数据输入格式。通过尝试性测试不同算法组件的组合进行对比,找出最佳的推荐程序,并对推荐程序进行性能评估,使读者了解在Mahout选择和创建一个推荐引擎的基本过程。本文仅讨论了基于单机内存的算法,基于Hadoop的分布式算法将是今后考虑的研究方向。
参考文献:
[1] 朱倩,钱立.基于Mahout的推荐系统的分析与设计[J].科技通报,2013(6):35-36.
[2] 韩怀梅,李淑琴.基于Mahout的个性化推荐系统架构[J].北京信息科技大学学报:自然科学版,2014(4):51-54.
关键词:移动电子商务;个性化推荐;基于位置的服务(LBS);用户兴趣模型
一、引言
2011年中国移动电子商务进入了快速发展的轨道,部分电商企业在移动终端取得了非常不错的成绩,到2012年年末,中国移动电子商务的发展进入爆发期。相对于传统电子商务而言,移动电子商务具有移动性、虚拟性、非结构化数据、个性化和社会性等主要特征,其移动性一般体现在用户的可移动特征及用户需求对情境的依赖性。推荐系统便是在这种大的环境下产生的,主要是为用户推荐其感兴趣的对象。
二、个性化推荐系统简介
个性化推荐系统主要是为了向用户自动推荐,是从信息中找出符合用户喜好或需求的资源,在此基础上为用户提供一种智能推荐系统,解决互联网信息过载的问题。
(一)个性化推荐系统的构成
个性化推荐系统可分三个部分:输入模块(Input Function)、推荐模块(Recommendation Method)和输出模块(Output Function)。一个完整的个性化推荐系统包括三个部分:用户信息的收集和分类、建立用户喜好的模型、使用算法为用户推荐。
(二)电子商务活动与个性化推荐系统的结合
客户在选择商品时往往会碰到在商家提供的浩大的信息面前无法快速找到所需产品信息的问题,在此种情形下,商家通过个性化推荐可快速地为客户提供服务,找到其所需的商品,最终完成购买活动。
1.将电子商务网站的浏览者转变为购买者
个性化推荐可快速的为客户找到其所需的商品,可以将一个网页的浏览者变成一个实实在在的购买者。可减少商家客户的流失率,减少客户浏览网页查询商品目录的时间。
2.提高电子商务网站的销售能力
个性化推荐可减少客户浏览网页的时间,为客户提供精准的推荐,如果推荐的产品得到客户的认同,可大大地提高网站的销售量,订单数量也会增加。
(三)个性化推荐系统的分类
从技术实现角度来看,个性化推荐系统主要划分为四大类:一是规则基础上的推荐;二是内容基础上的推荐;三是协同过滤基础上的推荐;四是混合型推荐。
1.规则基础上的推荐
规则基础上的推荐主要是通过系统之前的规则进行推荐。规则基础上的推荐所用的语句为IF-Then,根据事先设定的规则,“IF”主要规定了所出现的各种情形,在各种情形基础上,“Then”将输出提供的各种推荐资源和服务。这种规则也是可变的,客户也可以制定规则。规则基础上的推荐相对比较简单,客户理解起来比较容易。
2.内容基础上的推荐
内容基础上的推荐主要是基于用户之前喜欢的产品,通过分析之前所喜好的产品特征,通过相似度计算和其他技术,最终为客户提供与其偏好相似的新产品系列。
3.协同过滤推荐
协同过滤推荐是一种综合推荐,结合客户之前的购买活动特征与新晋的目标客户之间的相似度进行比较,为新客户进行推荐。
4.混合型推荐
和如上两种推荐不同,混合型推荐不涉及比较用户模型和信息的相似度,而主要是利用用户对于各个资源的评分或评价来发掘各个用户之前的相似点,应用这些相似点为新客户提供更加精确的推荐。混合型推荐成立的前提是具有相似点的客户对于一种资源的评价一致,那么其对另外一种资源的评价也将是一致的。这样我们便可将不同兴趣的用户进行划分分类,为同一类的客户推荐相似的产品。
三、移动客户端与个性化的结合
使用移动客户端的用户,其兴趣和需求并不是固定不变的,而是随着时间和用户所处的情景而变化。例如,用户在旅行时往往会关注天气、旅馆和交通工具信息;在休假时一般会关注娱乐信息和促销信息。这些都极大地增加了预测用户行为和分析用户偏好的难度。
(一)移动电子商务环境下个性化推荐的特点
随着3G技术的发展及移动客户端的开发应用,用户可在移动环境下进行办公或购物。相比传统电子商务环境下的推荐,移动商务环境下的个性化推荐拥有新的特点,主要表现在推荐范围和推荐时间方面。从推荐范围来看,移动环境下的推荐并非是固定的,面对的用户群也不是有限的;移动推荐系统所面对的是“移动”的用户,而不是传统的位置相对不变的传统的台式机访问,移动环境下更多的要考虑用户的空间位置变化,要随时将用户位置纳入到推荐序列中。
(二)基于LBS的个性化推荐系统
1.LBS简介
LBS(Location Based system)是在互联网快速发展的基础上新兴的位置服务。伴随着手机终端的迅速发展,使用LBS的用户总数也在逐年增加。LBS也被称为位置签到服务,其定义为采用GPS基站等相关定位技术,结合GIS,以短信、彩信及客户端软件为用户提供的基于地理位置的信息服务。下图主要展示了我国提供LBS企业的市场情况。
特别对于旅行者而言,LBS可实时了解到旅行者的空间位置信息,针对移动变化的位置也可以提供准确的推荐。
2.LBS的特征及其对个性化推荐的要求
(1)LBS的特征
LBS的突出特征体现在位置敏感、突发性和即时访问三个方面。在LBS环境下,可以方便地跟踪到用户的地理位置信息,很容易地识别用户的身份及对用户的需求进行处理。在移动环境下,即使发生突发事件,也能及时满足用户的需要,这些都提高了用户使用LBS的便利性。例如,用户可及时了解天气、酒店和所感兴趣的其他信息,不会受到时间、地点的阻碍,同步性增强。
(2)LBS对个性化推荐系统的要求
LBS环境下的用户处于不断变化的情境之下,用户的兴趣可分为短期的和长期的,因此必须区分出长期兴趣和短期兴趣,对于用户兴趣的变化要进行及时响应,最终才能为用户做出精准的个性化推荐。
四、个性化推荐系统与情境的结合
(一)传统二维推荐系统
传统的推荐系统将用户作为一个推荐列表输出,将用户项目描述成一个函数,主要包括:输入数据、二维推荐函数、推荐输出列表。
传统推荐系统使用的数据一般以用户、项目、评分的形式出现。首先收集数据,之后构建推荐函数,在构建函数过程中主要是使用函数处理用户u及每个用户对项目的评价或评分,在分析后根据用户的项目评分排序最终生成推荐列表。
(二)基于情境的推荐系统
和传统的推荐系统相比,融入了情境的推荐流程会发生变化,数据由U*I*R变为U*I*C*R,该模型中引入的C为情境维度,也就是将情境加入到推荐模型中。随着应用情境信息阶段的不同,有了在推荐系统中整合情境信息的三种不同的方式。
1.前置情境过滤
这种方式的推荐模型主要是将情境C纳入到用于选择或构建相关数据之中,在处理数据之前便将情境融入模型中。前置情境过滤方法使用情境信息作为过滤条件来选择最相关的用户X项目数据来生成推荐。前置情境过滤相比较其他两种的优势主要是其使用是为传统推荐方法。
2.后置情境过滤
与前置情境过滤相比较而言,在后置情境过滤下,一开始并没有将情境信息融入进来,应用传统的推荐系统事先将各种数据进行处理和评分,在此之后再将情境信息C引入到模型中,调整之前的推荐结果,主要是剔除与情境不符合的推荐列表,调整列表推荐的顺序,找出最符合用户特定情境的推荐列表。
启发式和模型式是后置情境过滤的两种方法,前一种方法主要是找到用户所共有的特征然后使用这些属性来调整推荐。对于后置情境过滤而言,其可以使用任何传统推荐技术。
3.情境建模
情境建模方法直接应用了情境所包含的内容信息,这种方法使用的为多维推荐,其整合了情境信息、用户数据、项目信息的预测模型或启发式计算方法。
四、结论
移动环境下的个性化推荐研究日益被业界重视。抓住了用户兴趣建模也是抓住了个性化推荐的核心,本文主要在传统的推荐模型下将情境信息引入到用户兴趣模型,将情境融入到推荐矩阵中,将情境与用户对项目的兴趣度相结合,为移动环境下的用户模型构建提供理论框架。
参考文献:
[1]吴丽花,刘鲁.个性化推荐系统用户建模技术综述[J].情报学报,2006(02).
[2]曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报,2002(10).
[3]裴仰军.个性化服务中用户兴趣模型的研究[D].重庆大学,2005.
[4]费洪晓,戴戈,穆等.个性化信息过滤系统中用户兴趣模型建立和更新[J].计算机系统应用,2007(08).
随着印本图书资源的不断丰富,如今的图书馆成为名副其实的“书海”。没有“罗盘”的用户进入图书馆非但不能遨游书海,反而迷失于书海,因此,用户希望拥有能够快速帮助自己找到目标书籍的“罗盘”,降低寻找书籍的精力和时间成本,而图书馆工作者也希望能够为用户提供一种高效的工具来满足用户需求,改善用户体验。图书馆个性化推荐系统正是解开这把双向锁的钥匙,为解决用户和图书馆所面临的信息过载问题而提出的一种智能系统[1,2],成为跨越用户与馆藏资源之间信息鸿沟的桥梁。
如齐普夫省力法则所述,一个系统即使其效用性很高,但是其易用性不好也会使用户的使用概率大打折扣。从目前图书馆的推荐系统来看,大多数是从推荐的准确性及推荐算法改进方面开展的,注重用户模型的研究,但忽略了用户与信息标志物之间的距离问题,即在信息推送的同时,读者并不在该书籍附近,如果是非必需的书籍,读者忽略推荐的可能性就会比较大,推荐就起不到良好的效果。而基于定位的个性化推荐加入用户此时所处位置,将位置与用户的兴趣相结合,便能很好地为用户提供个性化服务。本文试图参考大众点评基于位置信息服务的个性化推荐方式,结合RFID无线射频识别技术,探寻一种适合于定位图书馆用户的方法。
2 RFID技术与图书馆个性化推荐系统的国内外研究现状
2.1 RFID技术的国内外研究现状
RFID是一种非接触式的自动识别技术,主要利用无线射频信号和空间耦合的数据传输原理,对物体进行自动识别,并读写相关数据,而在识别系统和特定目标之间无须接触。在图书馆中,应用RFID系统可以将图书的书名、条形码、借阅记录以及读者信息等汇集在一起,并能快速识别,起到优化借还书操作程序,提高馆藏图书清点速度,提高图书整价和归位等良好效果,此外,它具有的良好穿透能力也能改进用户自助体验,省时高效,提高用户的满意度。目前,RFID技术在国内外发展都很快,应用范围很广,如图书馆、门禁系统、高速公路自动收费系统、停车场管理系统、食品安全溯源等。
国外图书馆应用RFID技术开始较早,同时发展也比较迅速。目前,在英国、美国、德国、日本及新加坡等都有较成熟的RFID系统。Elisha OndiekiMakori[3]指出,在发展中国家,RFID技术被当做一种现代信息系统广泛应用于图书馆,提高图书馆为用户服务的效率和质量。Yogesh K. Dwivedi[4]以问卷调查的方法调查了经常使用RFID技术的181名图书馆用户,调查结果表明,系统质量、用途和用户满意度是影响用户选择RFID的主要因素。此外,国外图书馆使用RFID技术还显现出很多优势,如提高用户满意度,提高工作效率等[5]。
国内图书馆应用RFID技术较晚,2006年,“射频识别(RFID)技术与应用”等20个重大课题,同时设立了中国国家高技术研究发展技术,意味着国家正以计划和资金启动RFID技术的全面应用,图书馆成为试点对象,逐渐开始了RFID技术的使用,集美大学、汕头大学、北京石油化工学院、西安理工大学、北京理工大学等图书馆随后使用了RFID技术[6]。余昭芬提出,RFID技术可以为智能便携式找书器的到来奠定基础,实现与图书馆固定资产数字化管理的无缝对接,对图书借阅数据的统计与分析,使现代图书馆实现智能化书车管理,实现智能化移动书亭成为可能[7]。
2.2 高校图书馆个性化推荐系统的国内外研究现状
高校图书馆的个性化推荐,是指图书馆根据用户的兴趣爱好、借阅记录、个人需求等,主动分析用户的兴趣爱好特点,进而智能高效地为用户提供一一对应式的图书推荐。图书馆的个性化推荐方法是主动服务用户,使用户满意推荐结果并快速、准确地定位自己所需要的书籍。
国外图书馆个性化推荐的研究始于20世纪七八十年代,当时学者们提出“采用图书馆推送的服务来满足读者的需求”,此概念可以称之为最初关于图书馆个性化推荐的雏形[8]。随着信息技术的飞速发展,美国康奈尔大学研制了MyLibrary系统,随后,很多大学及公共图书馆以此为标准,创建并使用了类似MyLibrary的系统和服务,如My Gateway(美国华盛顿大学图书馆)、BraryDog(德国梅克伦堡州公共图书馆),My Library(美国加州工艺州立大学图书馆),My Library@UT(美国西南得克萨斯医学中心图书馆),my.library(加拿大多伦多大学图书馆),MyLibrary(新西兰克莱斯特彻奇教育学院)以及My UCLA(美国加利福尼亚大学洛杉矶分院)[9]。
在国内也有不少学者对图书馆的个性化推荐展开了相关研究,孙雨生和董慧针对当前数字图书馆个性化推荐过程中出现的问题,分析了互联网、语义网、网格技术在数字图书馆个性化推荐领域的应用局限性,提出基于语义网格的数字图书馆个性化推荐体系结构与总体框架[10]。聂飞霞对数据挖掘的关联规则与聚类分析技术进行了系统研究,并将其应用到高校图书馆数据挖掘工作中,对读者的阅读兴趣以及图书的利用率进行分析,最终设计了一个适合西北大学图书馆的个性化推荐服务系统[11]。此外,还有很多学者致力于探讨适合高校图书馆个性化服务的推荐算法、推荐模型和推荐系统。
3 利用RFID技术实现图书馆个性化推荐服务探讨
伴随着移动网络及智能手机的普及,信息环境发生了巨大的变化,引发了由静态信息服务向动态信息服务的转变,带来数字化信息服务的全面升级[12-14]。着眼于图书馆领域,移动信息环境的变革将催生出有别于传统图书馆信息服务的新方式。
3.1 普适环境给图书馆个性化推荐服务带来的变革
在移动终端设备、移动通信网络飞速发展及用户信息需求个性化的影响下,普适环境悄然兴起,由此所产生的普适服务也逐渐呈现在用户面前。普适服务是基于Weiser于1991年提出的普适计算思想[15],在普适计算模式下,通过计算机、通信和数字媒体等多种技术的融合,将信息空间与人们生活的物理空间关联成一个和谐的智能环境,从而提供无处不在的信息服务,人们可以随时随地、无任何障碍地获取这些服务。普适环境中用户位置信息的变换性使得在普适服务中用户的个性化特点逐渐凸显。具体表现在:
(1)实时性推荐
在有线网络时代,台式机及笔记本电脑等设备限定了用户的位置,使用户在静止的状态下接受图书馆推荐服务。进入普适服务时代,移动设备的便捷性使得用户在请求图书馆提供服务时常常是在不断的“移动”中,这种位置信息的不断变换就要求系统有较强的快速反应能力,能够实时反馈用户的服务需求,如果用户已经从文学库移动到历史书库了,系统才将用户在文学库的服务要求结果反馈给用户,此时用户的需求因为位置的变换也已发生改变,延迟性的服务结果无法满足普适服务的要求。
(2)云端化推荐
虽然目前智能手机已进入八核时代,但和传统的PC设备相比,移动终端在硬件方面仍然具有较大差距,无线网络信号的不稳定性及延迟性,同样使得移动端设备只能作为接收设备,大部分的数据处理都需放在云端才能实现。
(3)开放式推荐
图书馆目前所采用的信息推荐服务方式多为定制化服务,其中RSS是图书馆最为常用的信息推荐服务方式,只有申请了相关服务并填写相关资料的用户才能享受推荐服务,没有开通的用户则无法使用,而普适服务的开放性使得每一个用户在信息获取方面都处于相同的地位,只要是该图书馆的用户,拥有相应的移动接收终端,进入服务环境后就能够享受图书馆提供的信息推荐服务。同样,加入RFID电子标签的书籍也是整个开放普适环境中的一份子,用户或管理员能够随时随地感知书籍的位置信息,提高找寻及管理效率,有效节约时间成本。
3.2 定位技术在图书馆个性化推荐服务中的作用
个性化推荐能够促进借阅转化,改善借阅体验,提高馆藏利用率,还能完善用户体验效果,增加用户对图书馆的黏性。而定位技术能够准确定位用户所在书库,给用户提供当前位置附近的书籍,往往更能贴近用户此时的需求,达到令用户满意的效果。笔者总结出目前利用RFID定位技术在图书馆个性化推荐中的作用主要有以下三点:
(1)实现书库隔离
利用RFID进行空间定位是一种全新的定位技术,它可以有效定位用户当前所在位置,现有的个性化推荐是针对整个图书馆这一整体而言的,推荐的书籍也是分散在不同的书籍库中,在个性化推荐中,加入定位技术可以为后续的计算提供强有力的支撑。此外,按照图书馆所采取的分类标准,把整个图书馆分成不同的书库,以位置信息为尺度实现书库之间的隔离,有助于后台数据库的整理,简化计算的流程,而且“位置―用户―书籍”的立体化结构可以更方便地分析用户之间的关联性,这样就可以为推荐提供更加有针对性的参考。
(2)实现数据降维,减小运算负荷
传统的推荐方式往往是以整个图书馆的书籍为基础进行计算,当有新的用户出现时,为了寻找相似性用户,保证推荐的准确性,往往需要调用所有学生的数据记录,因此,运算负荷比较大。而利用RFID技术进行个性化推荐,在个性化推荐中加入位置因素,可以通过寻找用户所在位置,然后调用用户当前所在书库中的数据,而不需要调用整个图书馆的数据,并且当出现新的需求变更时,只需在本书库内进行兴趣偏好的更新,就可以大大降低运算维度,从而降低计算机的运算负荷,提高运算的速度。
(3)提高推荐的实时性和针对性
用户在寻找书籍时,一旦有目的地来到某个书库,就表示用户此时的需求是该书库中的书籍,而利用RFID技术进行个性化推荐,在个性化推荐系统中加入定位技术,可以快速地定位用户当前所在位置,根据用户的位置,将计算得出的书籍推荐给用户,不但具有实时性,即用户在图书馆的某一个书库时只给用户推荐该书库中的书籍,不需要很长的时间间隔,而且具有很好的针对性,推荐的书籍正好是用户所在位置附近的书籍,同时提高了借阅率,促进了图书的流通。
关键词:搜索引擎;关键词推荐;个性化;专利分析
引言
随着互联网的普及,搜索引擎已经成为人们获取信息的主要手段之一。搜索引擎采用的主要交互方式为用户自主输入关键词,检索系统根据输入的关键词提供检索结果。然而,由于用户输入的关键词通常较短,且可能存在歧义、意图模糊等情况,使其不能精确地表达其搜索意图。为了帮助用户更好地构造关键词,通常搜索引擎会使用个性化关键词推荐技术。其通过分析文档结构、用户浏览行为及用户对文档的评价等信息,建立用户的兴趣模型,推荐出用户实际所需的关键词,提高搜索准确性,改善用户智能、便捷的搜索体验。
1 个性化关键词推荐技术概述
早在上世纪90年代,学者就开展了一些关键词推荐相关研究,如今已成为搜索引擎的必备技术之一。个性化关键词推荐根据所依赖的数据源不同大体可分为三类:基于文档词典、基于搜索日志和其他相关技术,如图1所示。
(1)基于文档词典的关键词推荐技术是以当前关键词返回的文档内容为对象,对文档进行概括来提取关键词,并将关键词按类别进行聚类,最后将关键词反馈给用户。该技术不考虑用户的历史记录,根据文档内容之间的相似度来提取用户兴趣,并基于各种词库(如分类词库、同义词库、关联词库、外语词库、纠错词库和分词词库等)来推荐关键词。
(2)基于用户搜索日志的关键词推荐技术是从用户角度出发,以用户搜索日志中的历史记录作为对象,采用聚类技术计算关键词之间的相似度,并返回相关度较高的关键词。该技术通常会从搜索日志中分析用户操作行为,提取用户标识和群体特征。
(3)对于个性化关键词推荐中的其他相关技术,其主要包含了能够使用户更加便捷地使用搜索引擎所采用的一些其它技术。例如,与用户之间进行语音交互、结合用户当前位置信息等手段来提供关键词。
2 个性化关键词推荐相关专利申请分析
本文在CNABS和DWPI数据库中,通过“搜索”、“关键词”、“推荐”及其中英文扩展词汇作为主要关键词,并排除IPC分类号为G06Q的噪声文献,检索得到的2016年5月以前公布的300余篇专利文献作为样本,对全球的专利申请量的趋势、申请区域分布以及重要申请人分布进行分析,从中得到技术发展趋势,以及各阶段专利申请人所属的国家分布和主要申请人分布。其中,以每个同族中最早优先权日期视为该申请的申请日,一系列同族申请视为一件申请。
2.1 国际专利申请量趋势分析
图2给出了个性化关键词推荐技术的全球专利申请趋势,大致可以分为四个时期,各时期划分以申请量增长率的变化为标准。
2.1.1 萌芽阶段(2003年之前)
搜索引擎起源于1990年,经历近10年的发展后,开始向个性化趋势迈进。1998-2003年是个性化搜索引擎中的关键词推荐技术从无到有的萌芽阶段,该阶段申请量极少。具有代表性的申请人是国际商业机器(IBM)公司以及皇家飞利浦(KONINK PHILIPS)电子股份有限公司。
2.1.2 平稳增长阶段(2004年-2007年)
从2004年开始,关于个性化关键词推荐技术的专利每年的申请量明显比2003年之前的申请量多,申请量和申请人的发展总体趋势趋于平稳增长。在此阶段,申请量前三位的国别分布如图3所示。美国申请的专利量占67%,其中,前四位的申请人分别是微软公司、谷歌公司、雅虎公司、IBM公司。另外,韩国和中国分别占25%和5%,这也从侧面说明这个时期内,中国和韩国在搜索引擎所涉及的IT技术领域发展迅猛。
2.1.3 快速增长阶段(2008年-2011年)
在2008年-2011年之间,除了2009年出现了下滑趋势(经济环境背景的影响)以外,该技术的申请量和申请人数量呈现跨越式增长。这是由于在此期间IT产业的迅猛发展,使得企业对于个性化关键词推荐技术的关注度急剧提升,因此出现了申请量的快速增长。在此阶段,申请量占前四位的国别分布如图4所示。可以看出,中国在这一时期内的申请保持着较快的发展,并且申请量超过起步较早的韩国和日本,这与中国在2008年之后各种IT类型企业迅猛发展息息相关。而美国的申请量趋于稳定,技术发展成熟度也较高,保持着绝对的领先地位。
2.1.4 成熟阶段(2012年-至今)
个性化关键词推荐技术的专利申请量从2012年至今呈现出稳步增长的趋势。在此阶段,申请量占前五位的国别分布如图5所示。在这一阶段,中国国内的大型公司充分意识到了知识产权的重要性,申请量超过了美国成为第一。特别是国内如百度、奇虎、腾讯等公司申请的专利在数量和质量上都有明显提升。
2.2 本领域重要申请人分析
本节对本领域重要申请人方面做进一步分析,主要考虑申请人历年的申请总量,按照申请总量进行排名。前16名申请人分布如图6所示。其中GOOG:谷歌(美国);MICT:微软(美国);BAID:百度(中国);YAHO:雅虎(美国);IBMC:国际商业机器公司(美国);QIHU:奇虎(中国);ABAB:阿里巴巴(中国);NHNN:NHN株式会社(韩国);TNCT:腾讯(中国);ETRI:韩国电子通信研究院(韩国);EBAY:电子湾(美国);FUIT:富士通株式会社(日本);INCR:INCRUIT公司(n国);KING:金山软件(中国);NITE:日本电信电话株式会社(日本);SOGO:搜狗(中国)。
从图6可以看出,在本领域,诸如谷歌、微软、雅虎、IBM等的国际化大公司一直是较为活跃的申请人,这些申请人在申请数量以及质量方面都占据领头羊地位;诸如百度、奇虎、阿里巴巴、腾讯等的国内知名大公司也占据着较重要的席位。
3 个性化关键词推荐相关专利技术发展分析
个性化关键词推荐技术可分为基于文档词典、基于搜索日志和其他相关技术。图7给出了从1998年到2015年,三类技术相关的专利申请量分布。从图7可知,基于文档词典和基于搜索日志的个性化关键词推荐技术为主要技术。
本章将对基于文档词典和基于搜索日志这两类技术的发展路线方面进行分析,给出了每个年度具有代表性的专利技术。
以申请时间为主线,基于文档词典的个性化关键词推荐技术示例性专利如图8所示。
以申请时间为主线,基于搜索日志的个性化关键词推荐技术示例性专利如图9所示。
4 结束语
本文结合国内外专利申请的状况,对个性化搜索引擎中关键词推荐专利技术进行了较为全面的分析和研究,并对其发展历程进行了回顾。从以上分析可知,我国关键词推荐技术虽然起步较晚,但近十几年发展很快,也涌现出一批具有竞争力的大企业。另外,目前基于文档词典和搜索日志的关键词推荐技术已经发展成熟,且应用广泛。今后的关键词推荐技术应该会向混合推荐方向发展,充分发挥每种推荐方法的优势,提高推荐的效率。
参考文献
[1]张博,周瑞瑞,鱼冰.协同过滤推荐算法专利综述[J].河南科技,2015(10):3-5.
[2]王莹,罗坤,姜磊,等.基于内容的图像检索技术的专利技术综述[J].电视技术,2013,37(2):62-65.
[3]李亚楠,王斌,李锦涛.搜索引擎查询推荐技术综述[J].中文信息学报,2010,24(6):75-84.
关键词:个性化推荐;协同过滤;聚类;广电运营
1 背景
近年来,广电运营在高清、互动电视平台的建设方面取得了长足的进步,包括点播、时移、回看、资讯信息在内的大量交互业务在各地纷纷上马,大大改善了各地电视用户的收视体验,同时也为运营商平台化进行了深入的探索和验证。个性化推荐技术是解决上述问题的重点方案之一,通过主动把热点内容、最新内容或者用户喜好的内容推送给用户,用户无需进行繁琐的内容浏览,就能快速定位到自己感兴趣的内容,一方面提升了用户体验,另一方面也大大增加了运营商投资购入的节目内容的长尾效应[1]。本文针对广电家庭用户个性化推荐技术的难点,重点讨论利用协同过滤推荐技术与注重速度和精度的智能聚类算法来为用户精准推荐和推送其感兴趣的节目内容。
2 协同过滤推荐技术
2.1 协同过滤算法分类
随着协同过滤技术在电子商务领域的广泛应用,协同过滤算法主要分为基于内存、基于知识、基于模型和混合式推荐等,其中各种算法各有千秋,只能根据自身的实际情况选择适合自身的算法。
2.2 聚类技术
一种基于用户相似度矩阵实现近线分析的算法简单描述为新物品上线后,通过门户Portal、选单、榜单及非个性化推荐方式被老用户收看后,可以基于系统通过用户协同过滤算法得到的用户相似度矩阵,将新物品推荐给与收看过该物品的用户相似的其他用户[3]。通过这种基于相似群体(簇)推荐的方式,可以将新物品的推荐能够快速推荐给大量老用户。
而聚类技术就是将有共同特性的项目或事物聚集在一起,在该模型中通过将有共同兴趣爱好的用户聚集在一起,认为该聚集簇中的目标用户与邻居用户有相同的产品风格喜好,从而就可以向目标用户推荐邻居用户喜好的商品,这种模型推荐算法不仅可以推荐用户所喜欢已知种类的商品,还可以向用户推荐用户可能会喜欢的新鲜商品。
3 k-means聚类算法
3.1 K-means聚类算法原理
K-means的算法原理是:首先从数据集(包含N个数据样本点)中随机选择k个数据样本点作为初始聚类中心,对于剩余的(N-k)个其他数据样本点,分别将他们分配给距离那k个中心簇最近(相似度最大)的簇中,然后再分别重新计算他们的聚类中心(即该簇中所有数据样本点的均值),不断重复这一过程,直到聚类中心不再改变,标准测度函数开始收敛为止。否则继续迭代执行聚类,其算法描述如下:
输入:数据集(包含N个数据样本点),初始k个数据簇中心。
输出:满足终止迭代条件的k个数据簇。
3.2 基于k-means算法的用户聚类
现实生活中,相似的用户有共同的用户特征、喜好特征、行为特征,而非相似用户的用户特征、喜好特征、行为特征等也都大相径庭。具体来讲,从用户特征可以从这几个大的方面来进行区分,比如说,性别,年龄,职业,学历等多方面,一般来说,不同学历的人,由于他们对知识基础的积累层次不一,导致他们选择不同的分别适合他们自己的视节目对象,相似的用户群体他们的职业、年龄或者其他方面具有一定的相似性,导致他们选择了共同的电视节目。从喜好特征来讲,有相同爱好的用户,自然他们在选择电视节目对象时,很有可能选择同一个对象。从行为特征来讲,两个有相似行为特征的用户很有可能选择的电视节目对象也是同一类,所以在本文中,我们认为相似的用户在选择电视节目对象时也具有一定的相似性,所以我们根据用户订阅过的电视节目对象便可以将相似的用户聚类。
4 改进的K-means算法
4.1 改进策略
(1)计算出数据集中N个样本点两两之间的距离(本文衡量的是相似度)dis(),找到满足的两个样本点d1和d2,并将它们设为初始两个聚类中心。
(2)在剩余的(N-2)个样本点中,选取满足
的样本点d3作为第三个初始聚类中心样本点,其中,di是除去数据集中样本点d1、d2、d3的任意一个样本点。
(3)依此类推,直到剩余的(N-k+1)个样本点中,选取满足
的样本点dk作为第k个初始聚类中心样本点,其中,di是除去数据集中样本点d1,d2,…dk的任意一个样本点。
(4)对于数据集中剩余的(N-k)个样本点,计算每个样本点与上面求得的k个聚类中心样本点之间的距离,并将这些样本点归入距离其最近的聚类中心簇中。
(5)重新计算k个数据簇的聚类中心值和标准测度函数,中心值为该簇类所有样本点的平均值,其计算公式为,标准测度函数为,其中,nj为第j类中的数据样本点个数,为聚类子类Dj的数据样本点。;
(6)如果满足(表示子类簇中样本点的误差平方和已经收敛)或达到了最大的迭代次数,表示子类样本成员不再发生变化,就可以结束聚类。否则,返回4)步骤继续迭代,其中,是一个任意小的数,E1与E2代表前后两次迭代的测度函数值。
4.2 相似特征用户聚类算法流程
通过建立的矩阵模型对相似特征用户进行聚类,首先,根据用户与电视节目资源对象标签之间的订阅关系来建立矩阵模型,根据这个矩阵模型可以获得所有的数据集样本点,矩阵的每行数据代表一个样本点,且每个样本点都是高维的,然后就是对该海量数据集应用k-means聚类算法来对相似用户(簇)聚类,然而由于K-means算法对初始聚类中心点比较挑剔,为了合理高效的得到有效的聚类中心点,先采取简单随机抽样算法,在抽样的数据样本集中应用改进的最大距离法对初始聚类中心得到优化,同时,将K-means算法中的距离量度换为本文改进的相似度计量方式,最后根据抽样样本输出的K个聚类中心,在总数据集上应用K-means算法,将相似特征用户进行聚类。