前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络的基本思想主题范文,仅供参考,欢迎阅读并收藏。
【关键词】:高速公路 防逃 人脸识别 高清视
中图分类号:U412.36+6 文献标识码:A
人脸识别的分类与概述
人脸识别就是通过计算机提取人脸的特征,并根据这些特征进行身份验证。人脸与人体的其他生物特征(指纹、虹膜等)一样与生俱来,它们所具有的唯一性和不易被复制的良好特性为身份鉴别提供了必要的前提;同其他生物特征识别技术相比,人脸识别技术具有操作简单、结果直观、隐蔽性好的优越性。人脸识别一般包括三个步骤:人脸检测、人脸特征提取和人脸的识别与验证。其处理流程如图
输入图像 人脸图像人脸特征输出结果
人脸识别的一般步骤
人脸识别方法繁多,早期研究较多的方法有基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法。目前人脸识别方法主要研究及应用的是基于统计的识别方法、基于连接机制的识别方法以及其它一些综合方法。下面是这几类方法的基本介绍:[2]
(1)基于几何特征的人脸识别方法
几何特征矢量是以人脸器官如眼睛、鼻子、嘴巴等的形状和几何关系为基础的特征矢量,其分量通常包括人脸指定两点间距离、曲率、角度等。早期的研究者Brunelli[3]等人采用改进的积分投影法提取出用欧式距离表征的35维人脸特征矢量用于人脸识别。Huang Chung Lin等人[4]采用动态模板[5,6,7]与活动轮廓模型提取出人脸器官的轮廓[8,9,10]。基于几何特征的人脸识别方法有如下优点:符合人类识别人脸的机理,易于理解;对每幅图像只需要存储一个特征矢量,存储量小;对光照变化不敏感。但这种方法同样存在一些问题,如从图像中提取这些特征比较困难;对强烈的表情变化和姿态变化的鲁棒性差等。
(2)基于模板匹配的人脸识别方法
模板匹配大都采用归一化相关,直接计算两幅图之间的匹配程度。最简单的人脸模板就是将人脸看成一个椭圆[10,11]。另一种方法就是将人脸用一组独立的小模板表示,如眼睛模板、嘴巴模板、鼻子模板等,采用弹性模板方法提取这些模板特征[12]。Brunelli等人专门比较了基于几何特征的人脸识别方法和基于模板匹配的人脸识别方法,他们得出的结论是:基于几何特征的人脸识别方法具有识别速度快和内存要求小等优点,但基于模板匹配的识别率要高于基于几何特征的识别率。
(3)基于统计的人脸识别方法
基于统计特征的识别方法包括基于特征脸的方法和基于隐马尔可夫模型的方法。特征脸(Eigenface)方法[13]是从主成分分析导出的一种人脸识别和描述技术。主成分分析实质上是K-L展开的网络递推实现,K-L变换是图像压缩中的一种最优正交变换,其生成矩阵一般为训练样本的总体散布矩阵。特征脸方法就是将包含人脸的图像区域看作是一种随机向量,因此可以采用K-L变换获得其正交K-L基底。对应其中较大特征值的基底具有与人脸相似的形状,因此又称之为特征脸。
隐马尔可夫模型(HMM)是用于描述信号统计特性的一组统计模型。基于人脸从上到下、从左到右的结构特征,Samaria等人[14]首先将1-D HMM和2-D Pseudo HMM用于人脸识别。Kohir等[15]采用1-D HMM将低频DCT系数作为观察矢量获得了好的识别效果。Eickeler等[16]采用2-DPseudo HMM识别DCT压缩的JPEG图像中的人脸图像。Nefian等[17]采用嵌入式HMM识别人脸。
(4)基于连接机制的人脸识别方法(神经网络弹性图匹配)
基于连接机制的识别方法,包括一般的神经网络方法和弹性图匹配(Elastic Graph Matching)方法。神经网络在人脸识别应用中有很长的历史[18]。Demers 等[19]提出采用PCA方法提取人脸图像特征,用自相关神经网络进一步压缩特征,最后采用一个多层处理器来实现人脸识别。Laurence等[20]通过一个多级的SOM实现样本的聚类,将卷积神经网络(CNN)用于人脸识别。Lin等[21]采用基于概率决策的神经网络(PDBNN)方法。最近,径向基函数RBF神经网络因具有逼近性好、空间描述紧凑和训练速度快等特点而被用于人脸识别。Gutta等[22]提出了将RBF与树分类器结合起来进行人脸识别的混合分类器结构,后来他们用RBF神经网络进行了针对部分人脸的识别研究[23],他们的研究表明利用部分人脸也可以有效地识别人脸。Er等[24]采用PCA进行维数压缩,再用LDA抽取特征,然后基于RBF进行人脸识别。Haddadnia 等[25]基于PZMI(Pseudo Zernike Moment Invariant)特征,并采用混合学习算法的RBF神经网络进行人脸识别。此外,Lucas 等采用连续的n-tuple网络识别人脸。
弹性图匹配方法是一种基于动态链接结构的方法[26]。在人脸图像上放置一组矩形网格节点,每个节点的特征用该节点处的多尺度Gabor幅度特征描述,各节点之间的连接关系用几何距离表示,从而构成基于二维拓扑图的人脸描述。根据两个图像中各节点和连接之间的相似性可以进行人脸识别。Wiskott等[27]将人脸特征上的一些点作为基准点,强调了人脸特征的重要性。他们采用每个基准点存储一串具有代表性的特征矢量,大大减少了系统的存储量。Würtz 等[28]只使用人脸面部的特征,进一步消除了结构中的冗余信息和背景信息,并使用一个多层的分级结构。Grudin等[29]也采用分级结构的弹性图,通过去除了一些冗余节点,形成稀疏的人脸描述结构。Nastar等[30]提出将人脸图像I(x,y)表示为可变形的3D网格表面(x, y, I(x,y)),将人脸匹配问题转换为曲面匹配问题,利用有限元分析的方法进行曲面变形,根据两幅图像之间变形匹配的程度识别人脸。
(5)基于形变模型的方法
基于形变模型的方法是一个受到重视的方法。通过合成新的视觉图像,可以处理姿态变化的问题。Lanitis等[31]通过在人脸特征边沿选择一些稀疏的基准点描述人脸的形状特征,然后将形状变形到所有人脸图像的平均形状,再根据变形后的形状进行纹理(灰度)变形,形成与形状无关的人脸图像。然后分别对形状和灰度进行PCA变换,根据形状和纹理的相关性,用PCA对各自的结果进一步分析,最终得到描述人脸的AAM(Active Appearance Model)模型。通过改变这些参数可得到不同变化的人脸图像,模型参数能够用于人脸识别。Romdhani 等[32]采用激光扫描仪获得人脸的3D数据,分别对一些基准点构成的形状和基准点的灰度(或彩色)完成PCA,得到3D人脸形状和灰度(彩色)基图像,通过变化参数就可获得不同的3D人脸模型。通过施加一些先验约束可以避免合成不真实的人脸图像。利用线性形状和纹理误差,通过3D模型向2D输入图像的自动匹配实现人脸识别。
项目采用的识别算法
人脸自动识别技术经过多年来的研究已经积累了大量研究成果。但是仍然面临很多问题,尤其是在非约束环境下的人脸识别。结合本研究项目及应用环境综合考虑,采用特征脸方法对视屏资料中的司机脸部进行提取识别。
特征脸方法是90年代初期由Turk和Pentland提出算法,具有简单有效的特点, 也称为基于主成分分析(principal component analysis,简称PCA)的人脸识别方法。把人脸图像空间线性投影到一个低维的特征空间。PCA实质上是K-L展开的网络递推实现。K-L变换是图像压缩技术中的一种最优正交变换。人们将它用于统计特征提取。从而形成子空间法模式识别的基础。若将K-L变换用于人脸识别,则需假设人脸处于低维线性空间。由高维图像空间K-L变换后,可得到一组新的正交基,由此可以通过保留部分正交基获得正交K-L基底。如将子空间对应特征值较大的基底按照图像阵列排列,则可以看出这些正交基呈现出人脸的形状。因此这些正交基也称为特征脸,这种人脸的识别方法也叫特征脸法。
特征子脸技术的基本思想是:从统计的观点,寻找人脸图像分布的基本元素,即人脸图像样本集协方差矩阵的特征向量,以此近似地表征人脸图像。这些特征向量称为特征脸(Eigenface)。
利用这些基底的线性组合可以描述、表达和逼近人脸图像,因此可以进行人脸识别与合成。识别过程就是将人脸图像映射到由特征脸张成的子空间上,比较其与已知人脸在特征脸空间中的位置,具体步骤如下:[33]
(1)初始化,获得人脸图像的训练集并计算特征脸,定义为人脸空间;
(2)输入待识别人脸图像,将其映射到特征脸空间,得到一组权值;
(3)通过检查图像与人脸空间的距离判断它是否为人脸;
(4)若为人脸,根据权值模式判断它是否为数据库中的某个人。
1. 计算特征脸
假设人脸图像包含个像素,因此可以用维向量Γ表示。如人脸训练集由幅人脸图像构成,则可以用表示人脸训练集。
其均值为:
(2-1)
每幅图像与均值的差为:
(2-2)
构造人脸训练集的协方差矩阵:
(2-3)
其中 。
协方差矩阵的正交分解向量即为人脸空间的基向量,也即特征脸。
一般比较大(通常大于1000),所以对矩阵直接求解特征向量是不可能的,为此引出下列定理:
SVD定理:设是一秩为的维矩阵,则存在两个正交矩阵:
(2-4)
(2-5)
以及对角阵:
(2-6)
满足
其中:为矩阵和的非零特征值,和分别为和对应于的特征矢量。上述分解成为矩阵的奇异值分解(SVD),为的奇异值。
推论:
(2-7)
由上述定理可知:
人脸训练集所包含的图像一般要比图像的像素数小的多,因此可以转求矩阵
(2-8)
的特征向量,M为人脸训练集图像总数。
矩阵的特征向量由差值图像与线性组合得到:
=(2-9)
实际上,m(m
(2-10)
识别
基于特征脸的人脸识别过程由训练阶段和识别阶段两个阶段组成。在训练阶段,每个己知人脸映射由特征脸张成的子空间上,得到m维向量:
(2-11)
距离阈值定义如下:
(2-12)
在识别阶段,首先把待识别的图像映射到特征脸空间,得到向量
(2-13)
与每个人脸集的距离定义为
(2-14)
为了区分人脸和非人脸,还需计算原始图像与其由特征脸空间重建的图像之间的距离:
(2-15)
其中:
(2-16)
采用最小距离法对人脸进行分类,分类规则如下:
(1)若,则输入图像不是人脸图像;
(2)若,则输入图像包含未知人脸;
(3)若,则输入图像为库中的某个人脸。
实际上,特征脸反映了隐含在人脸样本集合内部的信息和人脸的结构关系。将眼睛、面颊、下颌的样本集协方差矩阵的特征向量称为特征眼、特征颌和特征唇,统称特征子脸。特征子脸在相应的图像空间中生成子空间,称为子脸空间。计算出测试图像窗口在子脸空间的投影距离,若窗口图像满足阈值比较条件,则判断其为人脸。
基于特征分析的方法,也就是将人脸基准点的相对比率和其它描述人脸脸部特征的形状参数或类别参数等一起构成识别特征向量,这种基于整体脸的识别不仅保留了人脸部件之间的拓扑关系,而且也保留了各部件本身的信息,而基于部件的识别则是通过提取出局部轮廓信息及灰度信息来设计具体识别算法。现在Eigenface(PCA)算法已经与经典的模板匹配算法一起成为测试人脸识别系统性能的基准算法;而自1991年特征脸技术诞生以来,研究者对其进行了各种各样的实验和理论分析,FERET测试结果也表明,改进的特征脸算法是主流的人脸识别技术,也是具有最好性能的识别方法之一。
该方法是先确定眼虹膜、鼻翼、嘴角等面像五官轮廓的大小、位置、距离等属性,然后再计算出它们的几何特征量,而这些特征量形成一描述该面像的特征向量。其技术的核心实际为"局部人体特征分析"和"图形/神经识别算法。"这种算法是利用人体面部各器官及特征部位的方法。如对应几何关系多数据形成识别参数与数据库中所有的原始参数进行比较、判断与确认。Turk和Pentland提出特征脸的方法,它根据一组人脸训练图像构造主元子空间,由于主元具有脸的形状,也称为特征脸,识别时将测试图像投影到主元子空间上,得到一组投影系数,和各个已知人的人脸图像比较进行识别。
结束语
从目前国情来讲,在一段时间内高速公路收费还会继续存在,某些司机逃费的侥幸心也同样会有。通过带路径识别功能的 RFID 复合卡作为通行卡,利用 RFID 卡的信息对车辆进行跟踪,在不增加硬件投入的情况下,直接可以给车道收费系统提供抓拍高清图像,以及其它报警联动系统提供图像等,可有效解决高速公路冲卡逃费问题,可广泛应用于封闭式管理的公路收费系统。
参考文献:
[1]江艳霞. 视频人脸跟踪识别算法研究. 上海交通大学博士学位论文,2007.
[2]Brunelli R and Poggio T., Feature Recognition: Features Versus Templates. IEEE Transactions on
PAMI, 1993, 15(10):1042 -1052.
[3]李刚. 基于特征脸法的正面人脸识别研究. 国防科学技术大学硕士学位论文,2002.11
[4]JOHN CANNY. A Computational Approach to Edge Detection. IEEE TRANSACTIONS ON PATTERN
ANALYSIS AND MACHINE INTELLIGENCE, VOL.PAMI-8, NO.6, NOVEMBER 1986.
[5]张建飞、陈树越等. 基于支持向量基的交通视频人车识别研究[J]. 电视技术,2011
[6]肖波、樊友平等. 复杂背景下基于运动特征的人面定位[J]. 重庆大学学报,2002
[7] 《中华人民共和国交通部公路联网收费技术要求》,交通部
[8] 《广东省高速公路联网收费系统》,DB44 127-2003,广东省质量技术监督局
[9] 《视频安防监控数字录像设备》,GB 20815-2006
[10]《安全防范工程技术规范》,GB 50348-2004
论文摘要:当点扩展函数未知或不确知的情况下,从观察到的退化图像中恢复原始图像的过程称为图像盲复原。近年来,图像盲复原算法得到了广泛的研究。本文在介绍了盲图像恢复算法的现状的基础上进一步研究其的发展方向。
一、引言
图像恢复是图像处理中的一大领域,有着广泛的应用,正成为当前研究的热点。图像恢复的主要目的是使退化图像经过一定的加工处理,去掉退化因素,以最大的保真度恢复成原来的图像。传统的图像恢复假设图像的降质模型是己知的。而许多情况下,图像的降质模型未知或具有较少的先验知识,必须进行所谓的盲恢复。其重要性和艰巨性而成为一个研究热点。目前所能获取的观测图像是真实图像经过观测系统成像的结果。由于观测系统本身物理特性的限制,同时受观测环境的影响,观测图像和真实图像之间不可避免地存在着偏差和失真,称观测系统对真实图像产生了降质。图像恢复的目的就是根据降质的观测图像分析和计算得出真实图像。
二、图像盲恢复算法的现状
总体来说,图像盲复原方法主要分为以下两类:一是首先利用真实图像的特别特征估计PSF,然后借助估计得到的PSF,采用经典的图像复原方法进行图像的复原。这类方法将PSF的估计与图像的复原过程分为2个不同的过程,因而具有较少计算量的特点;二是PSF辨识和真实图像估计相结合,同时辨识PSF和真实图像。这类算法较为复杂,计算量较大。另外,对于点扩展函数也考虑了空间变化的复杂情况。针对目前的盲复原算法的现状,根据退化模型的特点,重新将算法分为空间不变的单通道盲复原算法、空间不变多通道盲复原算法和空间变化图像盲复原算法3类。
(一)单通道空间不变图像盲复原算法
在这类算法中,最为常用的是参数法和迭代法。
1)参数法。所谓参数法,即模型参数法,就是将PSF和真实图像用某一类模型加以描述,但模型的参数需要进行辨识。在参数法中,典型的有先验模糊辨识法和ARMA参数估计法,前者先辨识PSF的模型参数,后辨识真实图像,属于第1种类型的图像盲复原算法,因而计算量较小;后者同时辨识PSF和真实图像模型参数,属于第2种类型图像盲复原算法。
2)迭代法。所谓的迭代法,不是通过建立模型而是通过算法的迭代过程,加上有关真实图像和PSF的约束来同时辨识PSF和真实图像的方法。迭代法是单通道
图像盲复原算法中应用最广泛的一类算法,它不需建立模型,也不要求PSF为最小相位系统,因而跟实际更为接近。在这类算法中,迭代盲复原算法(IBD),基于非负性和决策域的递归逆滤波器算法(NAR2RIF),基于高阶统计特性的最小
熵算法等最为典型。
(二)多通道二维图像盲复原
多通道二维图像盲复原,这类方法将数字通讯领域应用的一维多通道盲原分离算法扩展到二维情况并用于图像的盲恢复。这类算法中有两种代数方法,一种是先辨识模糊函数,再采用常规的恢复算法进行复原;另一种是直接对逆滤波器进行估计。此类算法的优点在于不需对初始图像进行估计,也不存在稳定性和收敛性问题,对图像以及模糊函数的约束是松弛的,算法具有一般性。但是第1种算法要求采用复原算法具有收敛性;第2种算法对噪声敏感。
(三)空间改变的图像盲复原方法
在许多实际的应用中,模糊往往是空间变化的,但由于处理工作的难度,目前的研究较少,基本有相关转换恢复和直接法两类。
相关转换恢复的基本思想是区域分割,即将整幅图像分为若干局部区域,然后假设在各个局部区域模糊是空间不变的,利用空间不变的图像复原有关算法进行复原。这类方法都是基于窗口的模糊辨识技术,图像的估计取决于窗口的大小,由于模糊参数是连续变化的,在范围较大时空间不变的假设是不成立的,因而模糊的估计精度较差,而且这种方法只能针对部分空间变化的模糊进行处理,缺乏通用性;其次在区域的边上存在振铃现象。
直接法的基本思想是直接对图像进行处理。如采用简化的二维递推卡尔曼滤波器进行图像模型和模糊模型的直接转换方法,其缺点是只能针对有限的模型,而且模型数增加,计算量会显着增大;采用共轭梯度迭代算法,但只见到一个31×31的文本图像处理的结果报道,对于大图像处理效果尚需进一步的研究;将空间变化图像系统建立成马尔苛夫随机模型,对复原过程,采用模拟退火算法进行最大后验估计的方法,这种方法避免了图像的窗口化,并能克服模糊参数不连续性造成的影响,但这种方法只能局限于将模糊过程建立成单参数的马尔苛夫随机模型的情况,而且计算量也较大。
三、图像盲恢复的应用前景
(1)现有算法的改进以及新的算法研究。现有各种算法还存在许多不足,有必要对算法进一步改进。如IBD算法中,如何选择初始条件才能保证算法的收敛;如何选择算法终止条件才能保证恢复的质量;如何选择滤波器中的噪声参数才能减少噪声的影响。又如NAR2RIF算法中,如何进一步解决噪声敏感问题,支持域的确定以及如何将算法扩展到非均匀背景的情况等。提出新的算法更好地解决图像盲复原问题,也是今后研究的热点。
(2)基于非线性退化模型的图像盲复原算法。在实际应用中,严格来讲,所有的退化模型都是非线性的。对模型采用线性化的方法进行近似处理,虽然算法简单,但对非线性严重的情况处理效果并不理想。基于多项式以及神经网络两种参数模型处理非线性信号盲分离算法,算法扩展到二维图像情况需要进一步研究。研究基于非线性退化模型的图像盲复原算法也是下一步研究方向之一。
(3)去噪处理算法研究。加性噪声的存在,使图像的复原问题变成了一个病态问题,而且由于一般假设只知道噪声的统计特性,因此要从退化图像中完全去除噪声是不可能的。另外,由于噪声的存在,恢复的效果并不理想,结合降噪的图像盲恢复的算法研究有很现实的意义,这方面也进行了部分工作。为克服噪声的影响,一般采用先进行降噪,后进行复原;二是将降噪和复原同时进行这两类方法。目前,大多数算法中将噪声描述成高斯噪声进行研究,在实际应用时有较大局限性。对于非高斯情况的研究采用基于噪声的高阶统计特性的去噪算法研究也是很重要的研究方向,也可采用其他类型的方法进行降噪,利用自组织映射的非线性独立组件分析方法进行图像降噪处理算法。
(4)实时处理算法。算法的的复杂性是制约算法应用的一个重要方面。可采用正则化的离散周期Radon变换的方法将二维的卷积转化为一维进行处理,以提高算法的速度;也可采用神经网络的实时处理算法。算法的实时性是算法实际应用的先决条件。
(5)应用研究。算法的应用是推动算法研究的动力。虽然图像盲复原算法在天文学、医学、遥感等方面获得了较大的应用,但将算法应用到一般的工业图像实时检测、机器视觉、网络环境下的图像传输恢复、刑事侦破等方面还有大量的工作要做。
参考文献:
[1]薛梅,杨绿溪.用于含噪二值图像的改进NAS-RIF图像盲复原算[J].数据处理.2006.17.(2).
关键词:消费意图识别;查询商业意图识别;消费意图模板;社会媒体
中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2015)04-
Consumption Intent Recognition for Social Media: Task, Challenge and Opportunity
FU Bo, LIU Ting
(Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, Harbin 150001,China)
Abstract: Social media is the platform where people freely share with each other information such as comments, experiences, and an opinion. Among the large amount of posts, some may reveal the users' underlying commercial intention (CI). The consumption intent is a desire or hope for something to purchase. For instance, a post like “Please recommend for me a Nokia mobile phone about 2,000 RMB” may indicate an immediate or future purchase. Such information is valuable for better advertisement services. The paper introduces the problems this task try to resolve, the main challenges of this task, representative emerging work related to this task. After that, the paper proposes several directions that are worth exploring in future.
Keywords: Consumption Intent; Query Commercial Intent; Consumption Intent Pattern; Social Media
0 研究背景
近年来,网络数据资源呈现几何式、爆炸式增长,巨量的网络数据中蕴含着大量的用户的,对诸如产品购买等有价值的行为信息及个性化需求信息,这些关于产品类的信息需求表达了人们的各种消费意愿和消费需求。例如,Google、Baidu等搜索引擎查询日志记录了人们从互联网搜索所需产品的信息;Twitter、新浪微博等社会化媒体平台的时尚性、广泛性和互动性能帮助人们即时所需产品的信息;京东商城、淘宝网等电商网站记录了用户浏览和购买行为。只有充分了解利用用户的信息和需求,才能做到有的放矢。互联网各种不同的媒体上存储了大量用户资料、用户之间的社交关系以及用户的行为数据,如表1所示。
可以看出,各种不同媒体中所积累的海量用户信息为构建新的社会化应用,以及理解人们当前和潜在的消费需求带来了前所未有的新机遇。在如此庞大用户基数的支撑下,互联网的巨大潜力正日益体现,与现实社会的互动渗透更加紧密深入。互联网上出现的不同媒体在商业、生活、政治等各方面,也正发挥着源自其强大信息传播的重要作用。截至2014年12月底,我国网络购物用户规模达到3.61亿,较2013年底增加5 953万人,增长率为19.7%;我国网民使用网络购物的比例从48.9%提升至55.7%。根据艾瑞咨询预测,2017年的网络购物交易规模将达到56 340亿元,占社会消费品零售总额的比例为15.7%,较2010年提升12.8个百分点。特别是在商业营销上,约有51%的消费者在成为企业品牌的粉丝后,购买该品牌商品的意愿也会相应提高5个百分点。可以说,互联网上用户对产品的需求与日俱增,并且形式多种多样。在经济全球化和信息网络化的今天,主动掌握个体兴趣偏好和群体消费趋势等用户消费需求信息,就可以在市场营销、产品计划等实现智能精准决策,在此背景下,消费意图(Consumption Intent)识别的相关技术应运而生。
表1 互联网不同媒体数据和对应的国内外流行站点
Tab.1 Examples of different media and the corresponding domestic and foreign websites
1 任务
消费意图,是指用户表达出的对购买产品服务等一些商业消费需求的意愿[1]。消费意图识别技术是对带有消费需求色彩的互联网用户生成的文本或用户本身行为数据进行的分析和整理,通过网络的方式挖掘出用户当前或潜在的消费需求。
面向社会媒体的消费意图识别的任务可以分为基于内容的消费意图识别和基于用户的消费意图识别。其中,基于内容的消费意图研究包括消费模板的抽取、消费意图识别以及消费意图中的消费对象抽取等。具体地,基于内容的消费意图是指导用户通过互联网与购买需求相关的信息,如:“我想买一部手机,谁能给推荐一下吗”,即是一个显式消费意图内容,这里的“手机”即为消费对象;而基于用户的消费意图则是指一条信息没有明确的表达购买产品或服务的意图,但通过推理可发现用户潜在的商业需求,间接地表明用户将来会购买与母婴用品相关的产品或服务。然而到目前为止,关于消费意图并没一个标准的定义及分类体系。通过大量的调研,即可发现基于内容的消费意图文本中有意义的信息主要有触发词语(如“想买”)、消费对象等,而基于用户的消费意图也会包含有一些用户历史行为。下面本文将逐一介绍目前显式消费意图识别研究中的主要任务和主要实现技术。
最初的消费意图识别任务源自前人对带有消费意图的词语或模板的分析,如“想买”即是带有消费意图的模板。随着互联网上大量的带有消费意图的文本出现,研究者们逐渐从简单的消费意愿的模板的分析研究过渡到更为复杂的用户当前需求以及潜在需求的研究。基于此,按照处理角度的不同,可分为基于文本内容的消费意图识别和基于用户的消费意图识别。其中,前者处理的文本内容包括互联网上用户在搜索引擎输入的单个查询、单条微博文本等用户的内容,如微博消费意图文本“想给儿子买个电动挖掘机”,表明了用户的消费意愿是想为受众目标“儿子”购买一台“电动挖掘机”的消费对象;后者处理的对象主要是以用户为中心,如一个用户一直对母婴用品有消费意图。按时消费意图的时效不同,可分为现实需求和潜在需求。现实需求是指已经存在用户当前的需求。潜在需求是指消费者虽然有明确意识的欲望,但由于种种原因还没有明确的显示出来的需求。
2 挑战
互联网用户的消费意图识别存在着各种各样的挑战。具体地,可将其划分为三种。现给出如下论述:
2.1 网络数据采集的挑战
互联网数据形式多样化,不同媒体平台的用户和内容具有异构性,因而针对网络数据的采集需要就不同类型的内容分别进行处理,提取有价值的内容信息和用户行为信息。例如,在线社区中的用户信息大部分以超文本标记语言(HTML)的网页方式展现,挖掘基于社区中的用户消费意图文本,需要针对HTML这种非结构化的数据精准地抽取出用户名、用户发贴内容等元数据信息。而社交媒体网站的数据挖掘则需要通过采集记录内部系统日志来实现,如Facebook的Scribe。因而,在进行消费意图研究的相关工作中,都首先需要挖掘出不同媒体中的含有消费意图的内容或具体行为。
2.2 数据稀疏的挑战
互联网上存在着大量的垃圾信息。例如社会媒体用户中有33%左右的用户微博的是自己的状态信息,诸如“好无聊怎么办”,而仅有8.7%的微博内容传达了有价值的信息。由于微博上用户可以借助个人习惯的方式表达自己的感受,因而在这些有价值的信息中,微博内容信息通常是随意、零散和有噪声的。
2.3 跨社区的挑战
互联网上社会媒体、论坛、电商网站等迅速发展,积累了大量的用户信息,为社会计算的相关研究提供了前所未有的海量数据。例如,Ding等人[2]基于微博用户的消费意图研究电影票房预测问题。也有学者分别研究了用户评价[3]和在线论坛中的用户[4]消费意图识别问题。但是这些相关工作都只关注面向单个社区或社交媒体的消费意图识别问题,这是因为不同媒体的用户之间往往没有显式的链接,就使得一个媒体中的用户与其他媒体的用户之间是无法进行关联的。此外,虽然每个用户在不同媒体平台上拥有不同的用户信息,但是这些用户信息在不同的平台之间是非共享的。可以观察到,由于不同媒体平台在主题以及功能上的不同,用户的信息碎片化地分布在不同类型的媒体平台中。
3 相关工作
3.1 消费意图模板的抽取
模板(pattern)是自然语言领域中的常见概念,是指从自然语言实例(如短语、句子等)中泛化而来的抽象表达。正因为模板较之实例有着更好的概括和泛化能力,因此被广泛使用于信息抽取、机器翻译、自然语言生成等研究中。一个模板通常包含两部分,即模板词(patternwords)和模板槽(pattern slots),其中前者可看作模板的常量部分,后者则是模板的变量部分。例如,对于模板“想给[x]买个[y]”,“想给”和“买个”是模板词,而“[x]”是模板槽。在模板匹配过程中,模板词必须严格匹配,而模板槽可匹配任意内容。这里,通过在模板槽中填充具体内容从而生成模板实例的过程称作模板的实例化(instantiation)。例如,在模板“想买[x]买个[y]”的前后两个槽中分别填充“儿子”和“iPhone6”,便将上述模板实例化为“想给儿子买个iPhone6”。显然,一个模板可以实例化为多种不同的实例。
模板在信息抽取以及自动问答中已然获得十分广泛的应用,因此这两个研究方向的许多学者都曾提出过模板的抽取方法。与这些方向的研究类似,在消费意图类模板抽取的研究中,一部分学者使用基于规则的方法抽取模板。规则的制定通常要基于一系列的语言分析与预处理,如词性标注、命名实体识别和句法分析等。相应地,制定的复述规则也包括词序列规则、词性规则以及句法规则等形式。有学者[3,5]基于规则和基于图的方法分别获取意图模板。在基于图的方法中,通过将意图模板抽取看作为图上随机游走过程,而且定义的图节点将分别为模板节点和原始内容节点,其基本想法是,若模板节点+原始内容节点仍能出现在原始语料中,则该模板为候选模板,进而通过图迭代的方法获取最终模板。依据这一方法抽取得到的愿望模板可如下所示:
可以看到,基于规则的方法其缺点在于规则的可扩展性差,人工编写规则的工作量大,成本较高。具体来讲,由于人们在语言表述上具有复杂性和灵活性,规则的制定过程费时费力且难以覆盖所有的语言现象。规则往往依赖于具体语言、领域和文本风格,可移植性不好。同时基于规则的方法代价昂贵,且迁移性差,因此越来越多的研究者开始利用基于统计的方法来识别消费意图。
有研究者基于种子实例从产品评价中抽取产品受众者,即上述模板中的“[x]”。例如,Wang等人[6]将抽取产品受众者的模板用于产品推荐系统的目标人物抽取环节。研究中首先为其产品推荐系统设计了一个受众人分类体系,然后针对该体系人工编写少量“种子”实例。比如,对于“I bought my son this phone.”类型的产品评论,其编写的种子实例为“buy somebody something”。该方法利用种子实例作为输入,并使用基于boostrapping的方法从产品评论中匹配该种子实例的字符串,进而生成模板。依据此方法抽取得到的受众者模板如下所示:
3.2基于内容的消费意图识别
Goldberg等[3]首次提出了“buy wish”的概念(即本文定义的显式消费意图,如:想买一部手机)。研究是从用户在互联网上的愿望清单和产品评论中的内容来识别其中的消费意图。过程中,即事先人工给定了一些通用的消费意图规则模板,比如“I wish for”,而后再利用规则模板去匹配具有消费意图的句子。这种方法较为简单,但基于人工制定模板的匹配方法效果不甚理想,特别是系统的召回率很低。进而,作者提出了基于二元图方法自动抽取消费意图模板,如此生成的消费意图模板表达能力更强,使得系统识别的效果的性能也相对提高,特别是召回率有了显著的提升。在此基础上,作者加入了文本中词汇作为消费意图识别的特征。尽管采用词特征比较简单,但是通过实验结果发现文本中的词特征对于消费意图识别是非常有效的。
Chen和Hsu[4]也提出过相似的概念“Intention Posts”。研究者基于不同领域间消费意图表达方式相近的假设,即用于学习的训练样本与新的测试样本近似地满足独立同分布的条件。利用这种迁移学习(Transfer learning)的思想只需要在一个领域标注数据,并将其应用于一个新的没有任何标注的目标域数据。面对着消费意图文本中表达意图的内容通常只有一个或几个关键字,同时数据不平衡的问题,作者提出了Co-Class算法 。 首先,利用已有领域的标注数据构建一个分类器,然后将分类器应用到目标域的无标注数据中。这样,在目标数据中便可以重新形成特征选择,进而构建新的分类器。这两个分类器将共同对目标实施数据分类。这一迭代过程运行即直至类别标签对目标数据标注不再改变为止。作者分别在四个领域的语料上进行了迁移学习的实验,而通过实验则证明了提出的Co-class算法对跨领域迁移学习的消费意图识别任务是有效的。
Wang等[7]在不同领域的消费意图识别任务上展开了相关研究。研究提出了基于图的方法来识别Twitter中表达用户意图的内容。具体来说,该方法将要分类的Twitter内容和意图关键词(如:对句子“I want to buy an xbox”中“buy an xbox”即为文中定义的意图关键词)作为图上的节点,利用意图关键词和Twitter句子之间的关系形成边和边权重来构建图,继而使用图传播算法来完成在不同领域类别上的消费意图分类。此外,Ding等人[2]提出了基于领域自适应卷积神经网络的微博文本消费意图识别方法,并将此方法应用到了电影票房预测的任务上,研究证明,消费意图特征有助于预测电影票房,其原因在于用户对电影的消费意愿能直接反映出用户购票的活跃度。
3.3基于内容的消费对象识别
相比而言,已有研究主要针对基于内容的消费意图进行识别,很少研究消费意图句中的消费对象识别。本文定义消费对象是指消费者提出所需要购买的对象,即某段文本内容中所论述的对象。由于广告商所关注的正是用户针对某一消费对象的消费意图,而也就是这一存在使得消费意图研究更加突显其现实重要意义。但目前针对消费意图对象的相关研究较少。Wang等人[6]提出了从微博中挖掘趋势相关产品的问题。相应地即将“趋势”定义为在微博上被用户热烈讨论的话题。例如,如果有人在微博上说“最近北京空气很差”,那么就希望从空气很差这一趋势中,挖掘出空气净化器,口罩等与之相关的产品。
一般而言,现有的研究是从文本内容中挖掘产品命名实体[8-10]或是评价对象[11-14]。这里期望能从产品命名实体和评价对象抽取的研究中借鉴一些有价值的和方法,从而对消费对象抽取研究有所启发和促进。一方面,事实上产品命名实体抽取的研究属于命名实体识别的研究范畴。命名实体(Named Entity:NE)挖掘,主要是指从文本中挖掘出人名、地名、机构名等。早期命名实体的研究方法是基于人工规则的算法。近年来,一些机器学习的方法被应用到命名实体的研究之中。一部分学者采用基于分布假设计算词义相似度,其基本思想是那些倾向于出现在相似的上下文中的词意思相近,通过人工给定一组实体作为种子,其上下文作为模板并使用迭代的方法获取了给定目标类别下的新实体。以往的产品命名实体识别的研究主要是基于有指导的方法,然而这类方法需要标注大规模的训练语料,由于产品命名实体中词汇量比较大,新词频繁出现,经常出现缩略语,构建足够训练规模的产品命名实体训练集是比较困难的。这个问题对于消费对象识别来说同样存在,由于社会媒体中用户的内容随意,导致消费对象的成分多不完整,通常由缩略语等代替,故而诸如产品型号类:5s(指iPhone手机的型号5s)这种产品型号边界未必能够被识别出来。
在情感分析中有研究从评论中挖掘用户的评价对象。一般而言,现有的方法将评价对象的范围限定在名词或名词短语的范畴内,当然并非所有的名词或名词短语都是评价对象,因而需要对其进行识别。有研究者基于经验性的规则[12]或关联规则的方法找出频繁出现的评价对象[13-14],然后基于经验性的剪枝方法从中过滤错误的评价对象实例。还有学者将评价对象与产品属性之间关联起来,即认为产品属性可以作为评价对象的一种表达方式,如对一个手机来讲,“手机的像素”是手机的一个属性,而“触屏手机”是手机的部件之一。首先,该方法获取大量的名词短语作为候选评价对象;继而采用了某些关系指示短语(比如“属性-从性”关系指示词:attribute-of)来获取评价对象,最后利用候选评价对象和关系指示短语之间的共现关系,得出该候选评价对象是否是真正的评价对象。
4 未来的研究方向
消费意图识别作为产品推荐和自然语言处理领域的一个重要方向,还有许多有意义的问题值得研究,其中热点的研究方向和问题主要包括:
(1)虽然研究者们已经提出了多种方法用于消费意图句的识别、消费意图模板和消费对象识别等方法。然而总的来看识别出的准确率较低,仍有许多噪声数据无法过滤,特别是隐性消费意图识别鲜有研究。因此接下来的一个主要目标就是如何找到一种有效的方法对不同平台中的消费意图句进行准确识别。同时,迫切需要其后的研究者把消费意图识别的各项任务做细、做深。尤其是希望能找到一种对于各个平台或各个不同领域都适用的识别方法。
(2)目前来看,消费意图识别的大部分工作都集中在显式消费意图识别的研究任务中。然而与显式消费意图识别任务不同,隐式消费意图识别的研究任务也是比较有意义的问题。即在一个用户表达的文本中,挖掘出潜在的购买目标。这方面的研究工作还比较少且仍未臻深入。此外,相对于消费意图句的识别而言,基于用户消费意图的研究也还未展开,尤其是在跨平台上的研究远达到充分和全面。然而总的看来,基于隐式消费意图的研究和基于用户的消费意图研究方面还有许多的问题有待解决。
(3)消费意图研究中的评测问题一直是困扰研究者的一个主要问题。因此希望广大研究者们能够共同努力,推出一套大家都能认可和接受的评测体系和数据,这样定会极大的促进本研究的发展。本文基于内容的消费意图识别中各类实验大都采用人工评测的方法,基于用户的消费意图识别评价中采用了自动评价的方法。由于人工评测主观性强且费时费力,因此找到一种消费意图研究的自动评测方法还是非常有必要的。
(4)消费意图识别研究在众多相关研究中都有很大的应用潜力,如有研究是基于消费意图的电影票房预测取得了不错的性能。但这方面具体应用的例子仍不多。所以在今后的研究中,应该积极探索消费意图识别在各种实际任务中的作用,这样才能更好地推动此项研究深入开展。
6 结束语
社会媒体是一个基于用户关系的信息分享、传播以及获取平台,并实现即时分享。这即使得微博成为一个崭新的信息传播和用户交互的方式:一方面,人们通过微博各种消费需求信息,向家人、朋友、同事等寻求帮助,期望从朋友中获得产品的信息;另一方面,越来越多的用户也乐于在微博上分享各种感兴趣的话题和爱好进行即时分享。因而,迫切需要了解用户的消费意图或兴趣。消费意图识别作为产品推荐和自然语言处理领域的一个重要方向,目前的研究还远未足够。因此就需要在已有工作的基础上进一步钻研,针对尚且存在的问题展开攻关。另外,随着消费意图识别方法和技术的逐渐成熟,相应研究成果也将更为广泛地投入到实际应用中去,以促进诸如产品推荐、信息抽取、在线广告以及市场营销等相关研究的发展。
参考文献:
[1] B. Fu, T. LIU. Weakly-supervised Consumption Intent Detection in Microblogs [J]. Journal of Computational Information Systems, 2013, 6(9):2423C2431.
[2] X. Ding, T. Liu, J. Duan, et al. Mining User Consumption Intention from Social Media Using Domain Adaptive Convolutional Neural Network [C]// Proceedings of AAAI 2015, Austin, Texas,USA:AAAI,2015: 2389-2395.
[3] J. Ramanand, K. Bhavsar, N. Pedanekar. Wishful Thinking: Finding Suggestions and ‘buy’ Wishes from Product Reviews. [C]// Proceedings of NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text, Los Angeles, California:ACL, 2010:54C61.
[4] A. Goldberg, N. Fillmore, D. Andrzejewski, et al. May all Your Wishes Come True: A Study of Wishes and How to Recognize Them. [C]// Proceedings of NAACL HLT 2009, Boulder, Colorado:ACL, 2009:263C271.
[5] J. Wang, W. X. Zhao, H. Wei, et al. Mining New Business Opportunities: Identifying Trend Related Products by Leveraging Commercial Intents from Microblogs [C]// Proceedings of EMNLP 2013, Seattle, USA:ACL, 2013:1337C1347.
[6] Z. Chen, B. Liu, M. Hsu, et al. Identifying Intention Posts in Discussion Forums [C]// Proceedings of HLT- NAACL2013, Atlanda, GA, USA:ACL, 2013:1041C1050.
[7] J. Wang, G. Cong, X. W. Zhao, et al. Mining User Intents in Twitter: A Semi-supervised Approach to Inferring Intent Categories for Tweets [C]// Proceedings of AAAI 2015, Austin, Texas, USA:AAAI, 2015: 318-324.
[8] 刘非凡, 赵军, 吕碧波等. 面向商务信息抽取的产品命名实体识别研究[J].中文信息学报, 2006, 20(1):7C13.
[9] F. Luo, Q. Qiu, Q. Xiong. Introduction to the Product-entity Recognition Task [C]// Proceedings of Web Society (SWS), 2011 3rd Symposium on, Port Elizabeth, South Africa: Web Society,2011:122C126.
[10] F. Luo, H. Xiao, W. Chang. Product Named Entity Recognition Using Conditional Random Fields [C]// Proceedings of Business Intelligence and Financial Engineering (BIFE) 2011, Wuhan,China:[s.n.],2011:86C89.
[11] Y. Zhao, B. Qin, S. Hu, et al. Generalizing Syntactic Structures for Product Attribute Candidate Extraction [C]// Proceedings of NAACL 2010, Los Angeles, CA:ACL, 2010:377C380.
[12] J. Yi, T. Nasukawa, R. Bunescu, et al. Sentiment Analyzer: Extracting Sentiments about a Given Topic Using Natural Language Processing Techniques [C]// Proceedings of ICDM 2003, Melbourne, Florida, USA:ICDM, 2003:427C434.