前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络过程主题范文,仅供参考,欢迎阅读并收藏。
中图分类号 TP18 文献标识码:A 文章编号:1009-3044(2016)10-0194-03
Abstract: In this paper, the convolution neural network recognition in the leaves, and the process by convolution of image visualization. Experiments show that the neural network application identification convolution leaves a 92% recognition rate. In addition , this neural network and support vector machine comparative study can be drawn from the study , convolutional neural network in either speed or accuracy better than support vector machines, visible, convolution neural network in the leaves aspect has good application prospects.
Key words recognition leaves; SVM; convolutional neural network
1 概述
树叶识别与分类在对于区分树叶的种类,探索树叶的起源,对于人类自身发展、科普具有特别重要的意义。目前的树叶识别与分类主要由人完成,但,树叶种类成千上万种,面对如此庞大的树叶世界,任何一个植物学家都不可能知道所有,树叶的种类,这给进一步研究树叶带来了困难。为了解决这一问题,一些模式识别方法诸如支持向量机(Support Vector Machine,SVM)[1],K最近邻(k-NearestNeighbor, KNN)[2]等被引入,然而,随着大数据时代的到来,这些传统分类算法暴露出越来越多的不足,如训练时间过长、特征不易提取等不足。
上世纪60年代开始,学者们相继提出了各种人工神经网络[3]模型,其中卷积神经网络由于其对几何、形变、光照具有一定程度的不变形,因此被广泛应用于图像领域。其主要特点有:1)输入图像不需要预处理;2)特征提取和识别可以同时进行;3)权值共享,大大减少了需要训练的参数数目,是训练变得更快,适应性更强。
卷积神经网络在国内研究才刚刚起步。LeNet-5[4]就是一种卷积神经网络,最初用于手写数字识别,本文研究将卷积神经网络LeNet-5模型改进并应用于树叶识别中。本文首先介绍一下卷积神经网络和LeNet-5的结构,进而将其应用于树叶识别,设计了实验方案,用卷积神经网络与传统的模式识别算法支持向量机(SVM)进行比较,得出了相关结论,并对进一步研究工作进行了展望。
2人工神经网络
人工神经网络方面的研究很早就已开展,现在的人工神经网络已经发展成了多领域、多学科交叉的独立的研究领域。神经网络中最基本的单元是神经元模型。类比生物神经元,当它“兴奋”时,就会向相连的神经元发送化学物质,从而改变这些神经元的状态。人工神经元模型如图1所示:
上述就是一个简单的神经元模型。在这个模型中,神经元接收来自n个其他神经元传递过来的输入信号,这些信号通过带权重的w进行传递,神经元接收到的总输入值将与神经元的阈值进行比较,然后通过“激活函数”来产生输出。
一般采用的激活函数是Sigmoid函数,如式1所示:
[σz=11+e-z] (1)
该函数图像图2所示:
2.1多层神经网络
将上述的神经元按一定的层次结构连接起来,就得到了如图3所示的多层神经网络:
多层神经网络具有输入层,隐藏层和输出层。由于每一层之间都是全连接,因此每一层的权重对整个网络的影响都是特别重要的。在这个网络中,采用的训练算法是随机梯度下降算法[5],由于每一层之间都是全连接,当训练样本特别大的时候,训练需要的时间就会大大增加,由此提出了另一种神经网络―卷积神经网络。
2.2卷积神经网络
卷积神经网络(CNN)由于在图像分类任务上取得了非常好的表现而备受人们关注。发展到今天,CNN在深度学习领域已经成为了一种非常重要的人工神经网络。卷积神经网络的核心在于通过建立很多的特征提取层一层一层地从图片像素中找出关系并抽象出来,从而达到分类的目的,CNN方面比较成熟的是LeNet-5模型,如图4所示:
在该LeNet-5模型中,一共有6层。如上图所示,网络输入是一个28x28的图像,输出的是其识别的结果。卷积神经网络通过多个“卷积层”和“采样层”对输入信号进行处理,然后在连接层中实现与输出目标之间的映射,通过每一层卷积滤波器提取输入的特征。例如,LeNet-5中第一个卷积层由4个特征映射构成,每个特征映射是一个24x24的神经元阵列。采样层是基于对卷积后的“平面”进行采样,如图所示,在第一个采样层中又4的12x12的特征映射,其中每个神经元与上一层中对应的特征映射的2x2邻域相连接,并计算输出。可见,这种局部相关性的特征提取,由于都是连接着相同的连接权,从而大幅度减少了需要训练的参数数目[6]。
3实验研究
为了将LeNet-5卷积网络用于树叶识别并检验其性能,本文收集了8类树叶的图片,每一类有40张照片,如图5所示的一张树叶样本:
本文在此基础上改进了模型,使用了如图6卷积神经网络模型:
在此模型中,第一个卷积层是由6个特征映射构成,每个特征映射是一个28*28的神经元阵列,其中每个神经元负责从5*5的区域通过卷积滤波器提取局部特征,在这里我们进行了可视化分析,如图7所示:
从图中可以明显地看出,卷积网络可以很好地提取树叶的特征。为了验证卷积神经网络与传统分类算法之间的性能,本文基于Python语言,CUDA并行计算平台,训练同样大小8类,一共320张的一批训练样本,采用交叉验证的方法,得到了如表1所示的结论。
可见,无论是识别率上,还是训练时间上,卷积网络较传统的支持向量机算法体现出更好地分类性能。
4 总结
本文从人工神经网络出发,重点介绍了卷积神经网络模型LeNet-5在树叶识别上的各种研究并提取了特征且进行了可视化,并与传统分类算法SVM进行比较。研究表明,该模型应用在树叶识别上较传统分类算法取得了较好的结果,对收集的树叶达到了92%的准确率,并大大减少了训练所需要的时间。由于卷积神经网络有如此的优点,因此在人脸识别、语音识别、医疗识别、犯罪识别方面具有很广泛的应用前景。
本文的研究可以归纳为探讨了卷积神经网络在树叶识别上的效果,并对比了传统经典图像分类算法,取得了较好的分类精度。
然而,本文进行实验的样本过少,当数据集过多的时候,这个卷积神经网络算法的可行性有待我们进一步的研究;另外,最近这几年,又有很多不同的卷积神经网络模型出现,我们会继续试验其他的神经网络模型,力求找到更好的分类算法来解决树叶识别的问题。
参考文献:
[1]Bell A, Sejnowski T. An Information-Maximization Approach to Blind Separation and Blind Deconvolution[J]. Neural Computation, 1995, 7(6):1129-59.
[2]Altman N S. An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression[J]. American Statistician, 1992, 46(3):175-185.
[3]Ripley B D, Hjort N L. Pattern Recognition and Neural Networks[M]. Pattern recognition and neural networks. Cambridge University Press,, 1996:233-234.
[4]Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
关键词:卷积神经网络;点击率预测;搜索广告
中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2015)04-
Click-Through Rate Prediction for Search Advertising based on Convolution Neural Network
LI Siqin, LIN Lei, SUN Chengjie
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: Click-Through Rate (CTR) prediction is the foundation of search advertising. Nowadays, lots of researches have been explored to predict CTR, and most of those researches either rely on liner model or employ method of recommendation system. However, the relations between different features in CTR predication have not been fully explored in previous works, and the relations between different features also cannot be fully embodied. In this paper, CTR prediction for search advertising based on convolution neural network is proposed, and process of convolution neural network simulating the process of human thought on feature learning is explained. Furthermore, the performance of different features have been analyzed in the task of predicting CTR. Experiments are conducted on the dataset of KDD Cup 2012 Track2 and the proposed method achieves 0.7925 in AUC, demonstrating the effectiveness of the proposed approach.
Keywords: Convolution Neural Network; Click-Through Rate Prediction; Search Advertising
0 引 言
随着Web搜索技术的成熟,搜索广告已经成为互联网行业的主要收入来源之一,其根据用户输入的查询词,在搜索的结果页面呈现出相应的广告信息。广告媒介的收益通过每次点击费用(CostPerClick,CPC)与广告点击率(Click-Through Rate,CTR)预测共同影响而得到,即CPC*CTR。由于用户点击广告的概率随着广告位的排放顺序呈递减趋势,因此对CTR进行准确高效的预测,并将CTR高的广告投放在搜索结果页面靠前的位置,不仅能增加广告媒介的收益,还能提高用户对搜索结果的满意程度。
广告点击率预测是广告算法中最核心的技术,近年来被学术界广泛关注。部分学者使用基于推荐方法的模型来解决CTR预测问题。霍晓骏等人[1]采用协同过滤算法,为页面找到与其相似的其他邻居页面,实现CTR的预测,以此作为基础进行广告推荐,但当相似页面的数量增加时,该方法的结果质量会严重下滑。Kanagal等人[2]提出了一种聚焦矩阵分解模型,针对用户对具体的产品的喜好以及相关产品的信息进行学习,解决因用户-产品交互活动少而造成的数据稀疏问题。在文献[2]的基础上,Shan等人[3]提出了一种立方矩阵分解模型,通过对用户、广告和网页三者之间关系的立方矩阵进行分解,利用拟合矩阵的值来预测CTR,虽然立方矩阵分解模型增加了一维交互关系,但所刻画的交互关系仍然十分局限,不能在CTR预测中充分挖掘广告所有特征之间的联系。
作为典型的预测问题,很多研究中通过将CTR预测问题看作分类或者回归问题来解决,其中最常见的是应用线性模型来预测CTR。Chapelle等人[4]使用动态贝叶斯网络,通过对用户产生的点击过程建立模型,考虑级联位置的信息模拟出特定位置与相近位置的相关性,以判断该位置上的广告是否满足用户搜索要求。Chakrabarti等人[5]利用点击反馈的相关性,通过在网页和广告词等特征上使用逻辑回归模型提高广告检索和预测的效果。Wu等人[6]基于融合的思想,将不同线性模型的实验效果相结合,来提高搜索广告CTR预测的结果。真实的场景中CTR的预测并非简单的线性问题,因此,一些学者开始使用非线性模型来解决CTR的预测。Dave等人[7]在搜索广告点击信息以及广告商账户信息上提取语义特征,使用基于投票思想的梯度提升决策树模型,提高了CTR预测的效果。Zhang等人[8]利用神经网络模型对影响搜索广告点击率的因素进行的探索,从特征因素方面提高CTR预测的结果,但是资源单一,数据交互的关系没有获得良好的利用。
本文对基于卷积神经网络(Convolution Neural Network,CNN)的CTR预测进行研究,通过卷积与亚采样操作的结合,能更好地学习出数据特征之间的关系,不仅解决了线性模型无法模拟真实广告数据场景的问题,也解决了浅层学习模型无法深入挖掘特征间相互关系的问题,并且较之于传统的神经网络,CNN能更好地理解特征之间的关系。在真实的数据集上的实验验证了本文的方法能够提高搜索广告中CTR预测的AUC值。
1卷积神经网络模型
1.1 卷积神经网络基本模型
卷积神经网络作为人工神经网络之一,目前已成为深度学习领域中研究的热点,权值共享以及局部窗口滑动的特点使之能更好地模拟出生物神经网络。卷积神经网络在结构上有两个重要的组成部分:卷积层和亚采样层。如图1所示。
图1 卷积层与亚采样层结构
Fig.1 Convolution layer and sub-sampling layer structure
在卷积层中,原始特征通过卷积核进行卷积得到输出的特征,使用不同的卷积核就可以得到一系列不同的输出特征。对卷积层的计算,有如下公式:
(1)
这里, 是sigmoid 函数, , ; 代表输入特征上选定的窗口,即在卷积过程中当前卷积核在计算时所对应在输入特征上的位置; 和 分别是第 层输入特征和第 层输出特征上相应的值; 是卷积核的权重值; 是特征的偏置,每一层对应一个。
卷积过程,一个卷积核通过滑动会重复作用在整个输入特征上,构建出新的特征。同一个卷积核进行卷积时,共享相同的参数,包括同样的权重和偏置,这也使要学习的卷积神经网络参数数量大大降低了。而当我们使用不同的卷积核进行卷积时,可以得到相应的不同的输出特征,这些输出特征组合到一起,构成卷积层的输出。
在亚采样层,前一个卷积层的输出将作为该层的输入特征,首先设定大小的窗口,然后通过滑动,用窗口区域中最大(或平均)的特征值来表示该窗口中的特征值,最后组合这些特征值得到降维后的特征。亚采样过程可表示如下:
(2)
这里,类似于卷积层, 和 分别是第 层输入特征和第 层输出特征上相应的值, 是特征的偏置; 表示取最大值 或者平均值 的函数。
典型的卷积神经网络通常由n(n>=1)个卷积层和亚采样层以及最末尾的m(m>=1)全连接层组合而成。一个亚采样层跟随在一个卷积层后出现,通过这若干卷积层和亚采样层后得到的特征,将经过全连接层与输出层相连。全连接层公式如下:
(3)
这里, 是sigmoid函数, 是计算第 层到第 层时的权重值。
1.2基于卷积神经网络的CTR预测模型
研究中使用卷积神经网络对搜索广告的CTR进行预测,网络结构如图2所示。
图2 卷积神经网络在搜索广告点击率预估中的应用
Fig.2 Convolution neural network in search ad click rate through prediction
实验中一共设置了两个卷积层、两个亚采样层以及一个全连接层。首先从历史日志中提取相应的特征构建出输入(Feature_Input),设置好卷积的窗口大小后根据公式(1)对输入特征进行卷积,每一次卷积是对窗口内所有值的组合,因此卷积过程相当于特征融合过程。对卷积后得到的特征,设置亚采样的窗口并根据公式(2)进行最大值-采样,选取出窗口中的最有表达能力的特征值(最大特征值)表示整个窗口的特征,因此亚采样过程相当于特征的萃取过程。整个卷积和亚采样过程的结合,模拟出了人对事物的理解和总结的过程。最后将特征经过一层全连接后连接到输出,得到最终的预测结果。
在一次特定的卷积(或亚采样)全过程中即训练的一次迭代过程中,权值并不会随着窗口的滑动而改变,即在计算中,所有窗口滑过的特征享受同样的权值。这也是CNN区别于其他神经网络的特点――权值共享。如此即使得CNN更方便训练,更能多角度地对特征进行学习。
2特征构建
本文所采用的实验数据集为KDD Cup 2012中Track 2提供的数据集。该数据由腾讯公司下的搜索品牌搜搜(SOSO)搜索引擎提供,因为涉及公司商业信息,数据经过哈希处理。实验数据集中,每条记录包含12个属性,各属性详解如表1所示。
研究按照实际含义将这12个属性构造了四大类特征:历史点击率特征、相似度特征、位置特征和高影响力特征。
2.1基于卷积神经网络的CTR预测模型
历史点击率特征是不同类别ID在历史数据中的点击率,虽然比较简单但十分有效,因为历史点击率在一定程度上代表了类别ID对某个广告感兴趣程度的高低,当一个ID对某个广告的历史点击率高时,意味着其对这个广告更感兴趣,后续点击的概率也更大。
历史点击率( )是点击数( )与展示数( )之比,在统计计算过程发现有很多情况下有些类别信息没有点击实例,因此研究采用了平滑方法解决零值问题,根据公式(4)来计算平均点击率。计算公式如下:
(4)
公式中的 和 是调节参数,根据公式(4)计算出AdID,AdvertiserID,QueryID,KeywordID,TitleID,DescriptiomID,UserID的历史点击率。
2.2相似度特征
相似度特征用来刻画属性两两之间的相似程度,用户搜索的内容与被投放的广告属性相似度高时,广告被点击的概率更大。例如当搜索内容Query与广告关键字属性Keyword相似度高时,意味着网页投放的广告与用户期望搜索的广告结果相似度高,更符合用户点击广告的动作。
通过对Query、Keyword、Title、Description的属性描述文件构造出相关的TF-IDF向量,Query为用户搜索内容,Keyword,Title,Description是广告的相关属性,数据集提供的属性信息都是经过哈希后的数字形式,但是属性之间的相对含义不变,然后计算相互之间的余弦相似度作为特征。
2.3位置特征
该特征描述的是指定广告在搜索结果页面中的位置信息。用户搜索时需求的多样化要求在对广告进行排序和投放时,在结果页面靠前的位置中尽可能地投放满足用户需求的广告,从而最大化用户的满意度、提高用户点击的兴趣[9]。因此,研究即用当前预测广告的相对位置Pos来刻画该广告在结果页面中排序靠前的程度,其定义如下:
(5)
这里, 指页面投放的广告总数, 指当前所预测广告的位置。
2.4位置特征
在预测模型中,ID属性信息通常采用one-hot形式的特征编码方式,在将不同的属性经过one-hot编码后的特征向量组合在一起,这样方式简单直观,却使得特征的维度巨大并且非常稀疏。然而在这庞大且稀疏的特征中,绝大部分维度上的特征值对整个模型的预测结果贡献非常小甚至为零,只有少数维度上的特征值对预测结果有较高的影响力。因此研究采用L1范数正则化的方式,在逻辑回归模型的代价函数中加入L1范数[10],使得模型学习得到的结果满足稀疏化,在学习参数中按大小顺序取出前N维权重较大的,将这N维权重对应位置上的特征值构建新的特征,称为高影响力特征,考虑到实验硬件,取N=180。
3 实验结果与结论分析
3.1数据准备
实验目标是通过给定的信息预测搜索网页的广告点击率,由于数据量过大并且正负样本不平衡,实验中从训练集随机采样10%作为本文实验中模型训练的训练集,既缩小了样本空间,同时随机采样也保持了原始数据的分布信息。实验中随机抽取部分样本作为验证集用于参数的调节。本文所用测试集为 KDD Cup 2012中track 2的全部测试数据,因此本文的结果与KDD Cup 2012中track 2比赛的结果具有可比性。数据的统计信息如表2所示。
这里, 、 分别表示结果中预测对的正样本数和负样本数, 、 分别表示结果中预测错的正样本数和负样本数。对于广告点击率预测问题,较大的AUC值代表了较好的性能。
3.2实验设置和结果分析
实验的操作系统为Ubuntu 12.04 LTS OS,卷积神经网络在4G RAM 的NVIDIA GeForce GT 610 GPU条件下运行。过程中选用了Dense Gaussian对卷积层、亚采样层的边和节点进行初始化,用常数初始化输出层,学习卷积神经网络各边权值时的优化函数使用梯度下降算法,其中学习率为0.01、动量项为0.9,训练步数为100,设置公式(4)中参数α=0.05,β=75。实验时使用逻辑回归模型(LR)、支持向量回归模型(SVR)和深度神经网络(DNN)作为对比方法,所有方法都使用相同的特征,其中DNN的层数以及每层的节点数与卷积神经网络相同。
具体地,首先探究了卷积神经网络中节点的设置,因为在CNN中后续层的节点数根据第一个卷积层和每层卷积(或亚采样)滑动窗口的大小计算得到,并以第一个卷积层节点的设置为实验变量,同时控制DNN中每层的节点数均与CNN相同,在验证集上的实验结果如图3所示。
从图3可以看出,随着节点的增加,AUC的值也在不断增长,在一定范围内,节点数越多,实验的结果越好。但随着节点数的增大,模型的训练时间也在延长,对设备的开销需求也在升高,综合上述因素,最终将第一层的节点数设为9 216。
CNN与各对比实验的实验结果如表3所示,可以看出CNN的效果最佳,此外在表中还列出了KDD Cup 2012 track 2比赛中第一名的结果。DNN的AUC值优于LR和SVR,验证了深度学习模型比浅层学习模型更适合解决CTR预估问题,同时CNN的结果高于DNN,说明CNN中卷积层的特征融合和亚采样层的特征萃取过程是有效的。本文中CNN目前的实验结果略低于KDD Cup 2012 track 2中第一名的结果,原因是比赛队伍使用了多模型融合并提取了庞大的(千万维)输入特征。
进一步地,实验探索了每一类特征对搜索广告点击率预测的贡献。在所有特征的情况下,去掉某一类特征来进行预测,实验结果如表4所示。实验结果表明,去掉任意一类特征都将使得实验效果有所下降。其中去掉历史点击率特征效果下降得最明显,说明用户是否点击广告,与其之前的点击行为非常相关。而去掉位置特征时,效果下降得最为不明显,因为在实验使用的数据集中,每个页面最多仅呈现三个广告,页面中的广告数少时,位置对用户点击的影响小。
4 结束语
对搜索广告点击率的有效预测不但能够更好的提高在线广告投放的性能,增加广告商的收益,还能增强用户的体验。研究使用卷积神经网络CNN对搜索广告点击率进行预测,对特征因素的分析之后,在真实数据的环境下对搜索广告点击率进行预测的实验本文的方法的效果相对于其他方法有明显的提高。本文的主要贡献有:(1)本文提出了基于卷积神经网络的搜索广告点击率预测的方法。(2)针对高维特征,提出了一种特征选择策略,可以在计算能力受限的情况下使用CNN模型来解决广告点击预测问题,并取得较好效果。在未来的工作中,一方面要继续研究更有效的特征来提高对点击率的预测效果,另一方面也将尝试对CNN模型的内部细节进行改进,使之更适合我们的预测场景。
参考文献:
[1] 霍晓骏,贺牛杨燕. 一种无位置偏见的广告协同推荐算法[J]. 计算机工程, 2014, 40(12): 39-44.
[2] BHARGAV K, AHMED A, PANDEY S, et al. Focused matrix factorization for audience selection in display advertising[C]// Data Engineering (ICDE), 2013 IEEE 29th International Conference on, Brisbane , Australia: IEEE, 2013:386-397.
[3] SHAN Lili, LEI Lin, DI Shao, et al. CTR Prediction for DSP with Improved Cube Factorization Model from Historical Bidding Log[M]// C K Loo, et al(Eds.): Neural Information Processing. Switzerland:Springer,2014,8836:17-24.
[4] OLIVIER C, ZHANG Ya. A dynamic bayesian network click model for web search ranking[C]//Proceedings of the 18th international conference on World wide web. Madrid: ACM,2009:1-10.
[5] DEEPAYAN C, AGARWAL D, JOSIFOVSKI V. Contextual advertising by combining relevance with click feedback[C]//Proceedings of the 17th international conference on World Wide Web. Beijing: ACM,2008:417-426.
[6] WU Kuanwei, FERNG C S, HO C H, et al., A two-stage ensemble of diverse models for advertisement ranking in KDD Cup 2012[J]. KDDCup, 2012.
[7] DAVE K S, VARMA V. Learning the click-through rate for rare/new ads from similar ads[C]// Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland:ACM,2010.
[8] ZHANG Ying, JANSEN B J , SPINK A. Identification of factors predicting clickthrough in Web searching using neural network analysis[J]. Journal of the American Society for Information Science and Technology, 2009, 60(3): 557-570.
[9] 林古立.互联网信息检索中的多样化排序研究及应用[D].华南理工大学,2011.
关键词:深度学习;行为识别;神经网络
1 概述
动作行为识别是计算机视觉领域中的一个研究热点,已经广泛应用于智能监控、人机交互、视频检索等领域中[1]。动作行为识别技术是通过对视频或者图像中人体动作行为做出有意义的判断。有效表达图像(视频)中的实际目标和场景内容是最基本,最核心的问题。因此,对于特征的构建和选择得到广泛关注,例如STIP、SIFT、MSER等。但是,能通过无监督方式让机器自动从样本中学习到表征样本的特征,会让人们更好地利用计算机来实现人的视觉功能。而深度学习作为神经网络的延伸和发展,是通过逐层构建一个多层网络来使得机器自动学习到隐含在数据内部的关系,从而让学习到的特征更加准确性。
文章旨在探讨深度学习与机器学习(神经网络)之间的关系,并且介绍深度学习的由来、概念和原理;同时介绍目前深度学习在计算机视觉中的应用。最后提出深度学习目前发展所面临的问题,以及对未来的展望。
2 深度学习
2.1 深度学习概述
深度学习源于人工神经网络的研究,是机器学习的拓展。深度学习是经过组合低层特征来形成更加抽象的属性类别和特征,从中发现原始数据的特征表征[2]。现在用于动作行为识别的技术是通过“动作表征”+“动作分类器”的框架来进行行为识别的。其中“动作表征”是人们手动设计特征获取到的,也就是在目前识别框架内存在一个对动作图像(视频)的预处理过程。
深度学习和浅层学习相对。目前许多学习算法是浅层网络学习方法,具有一定的局限性,例如在样本有限的状况下,表示复杂函数的能力有限制,且对复杂分类问题的泛化能力也会受到一定约束[3]。而深度学习通过学习深层非线性网络结构,达到复杂函数逼近,又能在样本少的情况下学习原始数据的特征。BP算法作为传统神经网络的典型算法,虽然训练多层网络,但仅含几层网络,训练方法很不理想[3]。因为其输入和输出间非线性映射让网络误差函数形成含多个极小点的非线性空间,因而经常收敛到局部最小,且随着网络层数的增加,容易过拟合。而深度学习可以获得分布式表示,通过逐层学习算法来得到原始输入数据的主要变量。通过深度学习的非监督训练完成,同时利用生成性训练避免因函数表达能力过强而出现过拟合情况。
2.2 深度学习原理
传统机器学习仅含单层非线性变换的浅层网络结构,而且浅层模型单一。这对于深度网络来说易造成陷入最优或产生梯度分散等问题。因此,Hinton等人在基于深度置信网(DBNs)的情况下提出非监督贪婪逐层训练算法,随后提出了多层次自动编码器深层结构,这给解决深层网络结构相关的优化难题带来了希望。此外Lecun等人提出的卷积神经网络是第一个多层次结构的学习算法。同时深度学习还出现了许多结构:多层感知机、去噪自动编码器、稀疏编码等。
卷积神经网络是第一个真正采用多层次网络结构,具有鲁棒性的深度学习算法,通过探究数据在空间上的相关性,减少训练参数的数量。而且卷积神经网络(CNN)适应性强,善于发现数据的局部特征。它的权重共享结构降低了网络模型的复杂度,减少了权值的数量,使得卷积神经网络在模式识别中取得了很好的结果。
自动编码器的核心关键是将原始图像(视频)输入信号进行编码,使用编码后的信号来重建原始信号,使得两者之间的重建误差最小。通过将原始信号编码成另一形式,能够有效地提取信号中的主要信息,能够简洁地表达原始图像(视频)的特征。
3 深度学习的应用
3.1 语音识别
从2009年开始,微软研究院语音识别专家通过与Hinton合作,首先将RBM和DBN引入到语音识别声学模型训练中,使得语音识别的错误率相对减低30%,这彻底改变了语音识别原有的技术框架。在国际上,IBM、google等公司都快速进行了DNN语音识别的研究,并且速度飞快。国内方面,阿里巴巴,科大讯飞、百度、中科院自动化所等公司或研究单位,也在进行深度学习在语音识别上的研究。
3.2 视频中的动作行为识别
准确迅速识别视频中人的动作行为对于视频搜索和视频监控具有划时代的意义。最近几年,深度学习技术被应用于视频动作行为识别中。如Ji等人[4]提出多层网络的3D卷积神经网络来学习视频中的时空特征,并通过卷积来实现对整个视频特征的学习,从而代替之前的时空兴趣点检测和特征描述提取。在TRECVID数据库上进行的实验取得了不错效果。
4 结束语
文章对深度学习的主要概念进行了全面阐述,包括其由来、原理、研究进展和相应的应用等。在很多领域中,深度学习都表现了潜在的巨大价值,但深度学习作为浅层学习的延伸,仍处于发展阶段,还有很多问题值得我们深入探讨:
(1)我们需要了解深度学习的样本复杂度,需要多少训练样本才能学习到足够的深度模型。
(2)在推进深度学习的学习理论和计算理论的同时,我们是否可以建立一个通用的深度学习网络模型,作为统一的框架来处理语音、图像和语言。
(3)神经网络具有前馈性连接和反馈性连接,可是我们研究的深度网络中还没有加入反馈连接,这些都给深度学习的研究带来了严峻的挑战。
参考文献
[1]王亮,胡卫明,谭铁牛.人运动的视觉分析综述[J].计算机学报,2002,25(3):225-237.
[2]余凯,贾磊,陈雨强.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804.
关键词:人工智能 机器学习 机器人情感获得 发展综述
中图分类号:TP18 文献标识码:A 文章编号:1003-9082 (2017) 04-0234-01
引言
人类自从工业革命结束之后,就已然开始了对人工智能的探索,究其本质,实际上就是对人的思维进行模仿,以此代替人类工作。人工智能的探索最早可以追溯到图灵时期,那时图灵就希望未来的智能系统能够像人一样思考。在20世纪五十年代,人工智能被首次确定为一个新兴的学科,并吸引了大批的学者投入到该领域的研究当中。经过长时间的探索和尝试,人工智能的许多重要基本理论已经形成,如模式识别、特征表示与推理、机器学习的相关理论和算法等等。进入二十一世纪以来,随着深度学习与卷积神经网络的发展,人工智能再一次成为研究热点。人工智能技术与基因过程、纳米科学并列为二十一世纪的三大尖端技术, 并且人工智能涉及的学科多,社会应用广泛,对其原理和本质的理解也更为复杂。 一、人工智能的发展历程
回顾人工智能的产生与发展过程 ,可以将其分为:初期形成阶段,综合发展阶段和应用阶段。
1.初期形成阶段
人工智能这一思想最早的提出是基于对人脑神经元模型的抽象。其早期工作被认为是由美国的神经学家和控制论学者 Warren McCulloch与Walter Pitts共同完成的。在1951年,两名普林斯顿大学的研究生制造出了第一台人工神经元计算机。而其真正作为一个新的概念被提出是在1956年举行的达茅斯会议上。由麦卡锡提议并正式采用了“人工智能”(Artificial Intelligence)砻枋稣庖谎芯咳绾斡没器来模拟人类智能的新兴学科。1969年的国际人工智能联合会议标志着人工智能得到了国际的认可。至此,人工智能这一概念初步形成,也逐渐吸引了从事数学、生物、计算机、神经科学等相关学科的学者参与该领域的研究。
2.综合发展阶段
1.7 7年, 费根鲍姆在第五届国际人工智能联合会议上正式提出了“知识工程”这一概念。而后其对应的专家系统得到发展,许多智能系统纷纷被推出,并应用到了人类生活的方方面面。20世纪80年代以来,专家系统逐步向多技术、多方法的综合集成与多学科、多领域的综合应用型发展。大型专家系统开发采用了多种人工智能语言、多种知识表示方法、多种推理机制和多种控制策略相结合的方式, 并开始运用各种专家系统外壳、专家系统开发工具和专家系统开发环境等等。在专家系统的发展过程中,人工智能得到了较为系统和全面的综合发展,并能够在一些具体的任务中接近甚至超过人类专家的水平。
3.应用阶段
进入二十一世纪以后,由于深度人工神经网络的提出,并在图像分类与识别的任务上远远超过了传统的方法,人工智能掀起了前所未有的。2006年,由加拿大多伦多大学的Geoffery Hinton及其学生在《Science》杂志上发表文章,其中首次提到了深度学习这一思想,实现对数据的分级表达,降低了经典神经网络的训练难度。并随后提出了如深度卷积神经网络(Convolutional Neural Network, CNN),以及区域卷积神经网络(Region-based Convolutional Neural Network, R-CNN),等等新的网络训练结构,使得训练和测试的效率得到大幅提升,识别准确率也显著提高。
二、人工智能核心技术
人工智能由于其涉及的领域较多,内容复杂,因此在不同的应用场景涉及到许多核心技术,这其中如专家系统、机器学习、模式识别、人工神经网络等是最重要也是发展较为完善的几个核心技术。
1.专家系统
专家系统是一类具有专门知识和经验的计算机智能程序系统,通过对人类专家的问题求解能力建模,采用人工智能中的知识表示和知识推理技术来模拟通常由专家才能解决的复杂问题,达到具有与专家同等解决问题能力的水平。对专家系统的研究,是人工智能中开展得较为全面、系统且已经取得广泛应用的技术。许多成熟而先进的专家系统已经被应用在如医疗诊断、地质勘测、文化教育等方面。
2.机器学习
机器学习是一个让计算机在非精确编程下进行活动的科学,也就是机器自己获取知识。起初,机器学习被大量应用在图像识别等学习任务中,后来,机器学习不再限于识别字符、图像中的某个目标,而是将其应用到机器人、基因数据的分析甚至是金融市场的预测中。在机器学习的发展过程中,先后诞生了如凸优化、核方法、支持向量机、Boosting算法等等一系列经典的机器学习方法和理论。机器学习也是人工智能研究中最为重要的核心方向。
3.模式识别
模式识别是研究如何使机器具有感知能力 ,主要研究图像和语音等的识别。其经典算法包括如k-means,主成分分析(PCA),贝叶斯分类器等等。在日常生活各方面以及军事上都有广大的用途。近年来迅速发展起来应用模糊数学模式、人工神经网络模式的方法逐渐取代传统的基于统计学习的识别方法。图形识别方面例如识别各种印刷体和某些手写体文字,识别指纹、癌细胞等技术已经进入实际应用。语音识别主要研究各种语音信号的分类,和自然语言理解等等。模式识别技术是人工智能的一大应用领域,其非常热门的如人脸识别、手势识别等等对人们的生活有着十分直接的影响。
4.人工神经网络
人工神经网络是在研究人脑的结构中得到启发, 试图用大量的处理单元模仿人脑神经系统工程结构和工作机理。而近年来发展的深度卷积神经网络(Convolutional neural networks, CNNs)具有更复杂的网络结构,与经典的机器学习算法相比在大数据的训练下有着更强的特征学习和表达能力。含有多个隐含层的神经网络能够对输入原始数据有更抽象喝更本质的表述,从而有利于解决特征可视化以及分类问题。另外,通过实现“逐层初始化”这一方法,实现对输入数据的分级表达,可以有效降低神经网络的训练难度。目前的神经网络在图像识别任务中取得了十分明显的进展,基于CNN的图像识别技术也一直是学术界与工业界一致追捧的热点。
三、机器人情感获得
1.智能C器人现状
目前智能机器人的研究还主要基于智能控制技术,通过预先定义好的机器人行动规则,编程实现复杂的自动控制,完成机器人的移动过程。而人类进行动作、行为的学习主要是通过模仿及与环境的交互。从这个意义上说,目前智能机器人还不具有类脑的多模态感知及基于感知信息的类脑自主决策能力。在运动机制方面,目前几乎所有的智能机器人都不具备类人的外周神经系统,其灵活性和自适应性与人类运动系统还具有较大差距。
2.机器人情感获得的可能性
人脑是在与外界永不停息的交互中,在高度发达的神经系统的处理下获得情感。智能机器人在不断的机器学习和大数据处理中,中枢处理系统不断地自我更新、升级,便具备了获得情感的可能性及几率。不断地更新、升级的过程类似于生物的进化历程,也就是说,智能机器人有充分的可能性获得与人类同等丰富的情感世界。
3.机器人获得情感的利弊
机器人获得情感在理论可行的情况下,伴之而来的利弊则众说纷纭。一方面,拥有丰富情感世界的机器人可以带来更多人性化的服务,人机合作也可进行地更加深入,可以为人类带来更为逼真的体验和享受。人类或可与智能机器人携手共创一个和谐世界。但是另一方面,在机器人获得情感时,机器人是否能彻底贯彻人类命令及协议的担忧也迎面而来。
4.规避机器人情感获得的风险
规避智能机器人获得情感的风险应预备强制措施。首先要设计完备的智能机器人情感协议,将威胁泯灭于未然。其次,应控制智能机器人的能源获得,以限制其自主活动的能力,杜绝其建立独立体系的可能。最后,要掌控核心武器,必要时强行停止运行、回收、甚至销毁智能机器人。
三、总结
本文梳理了人工智能的发展历程与核心技术,可以毋庸置疑地说,人工智能具有极其广阔的应用前景,但也伴随着极大的风险。回顾其发展历程,我们有理由充分相信,在未来人工智能的技术会不断完善,难题会被攻克。作为世界上最热门的领域之一,在合理有效规避其风险的同时,获得情感的智能机器人会造福人类,并极大地帮助人们的社会生活。
参考文献
[1]韩晔彤.人工智能技术发展及应用研究综述[J].电子制作,2016,(12):95.
[2]曾毅,刘成林,谭铁牛.类脑智能研究的回顾与展望[J].计算机学报,2016,(01):212-222.
[3]张越.人工智能综述:让机器像人类一样思考
【关键词】人工智能 医学领域
1 引言
人工智能(AI)是上世纪50年展起来的新兴学科,主要内容包括:知识表示、自然语言理解、机器学习和知识获取、知识处理系统、计算机视觉、自动推理和搜索方法、智能机器人、自动程序设计等方面。在过去的几十年里人工智能涌现出了大量的方法,大致可分为两大类:第一类是基于Newell和Simon的物理符号系统假说的符号处理方法。这种方法大多采用从知识阶段向下到符号和实施阶段的自上而下的设计方法,第二类是采用自下而上设计的“字符号”方法。
2 人工智能的发展
全球对人工智能的研发经历了已经有70年的发展,从上个世纪的50年代开始一直到今天,历经了两次大起大落,但伴随着深度学习的重燃、庞大的大数据支撑以及计算能力的不断提升和成本的不断下降这些因素的出现,尤其是在摩尔定律、大数据、互联网和云计算、新方法这些人工智能进步的催化剂作用下,将迎来人工智能新的春天。
3 人工智能在医学领域上的应用
3.1 在神经网络中人工智能的应用
在医学诊断中人工智能的应用会出现一些难题,例如知识获取比较难、推理速度慢、自主学习以及自适应变化能力弱。研究人脑连接发现了以人工神经为特点可以解决在获取知识中所出现的瓶颈和知识种类繁琐问题,能够提高对知识的推理能力,包括自主学习,自组织等方面的能力,促进了神经网络在医学专家系统中的快速发展。
人工智能领域ANN,有不同于其他人工智能的方法,在传统的结构上,它只是AI分支中的一个,只能通过逻辑符号来模拟人脑的思维方式,进一步来实现人工智能,与之相比,不同的ANN是学习和训练为一体来达到智能的。ANN具有学习的能力及特殊方法,用户不用编写复杂的程序来解决所遇到的问题,只用提供有效的数据就可以完成。迄今为止,医学领域中对大部分的病理原因无法解释,无法确定病理原因,加上各种疾病的表现种类复杂多变。在医学的日常实践中,疾病相应的治疗只能以经验为基础来判断。所以,ANN有着记忆,学习和归纳总结为一体的人工智能服务,在医学领域有很好的应用发展趋势。
3.2 在中医学中人工神经网络的应用
在中医学中,所提出的“辨证论治”中的“证”具有模棚性、不确定性的特点,主观性比较强,因此中医的诊断方法和治疗手段与医师的经验水平有很大联系。数年来在实验研究,临床观察,文章整理,经验总结上,都有着对“证”的研究思想的深入调查。一部分“辨证”的过程可以用人工神经网络来替换使用。恰当的中医症状可以作为基本输入和适当人工神经网络模型,人工神经网络能够根据以往的学习“经验”来进行综合分析,从而提出中医诊断方法。
由神经元结构模型、网络连接模型、网络学习算法等几个要素组成了人工神经网络。具有某些智能系统的功能。 按照网络结构来划分,人工神经网络有很多不同的种类,例如感知器、BP网络、Hopfield网络等,目前应用最为广泛的神经网络就是其中的BP网络。这种前沿网络非 BP网络所属,网络的结构与权值能够表达复杂的非线性 I/0映射关系。凭借 BP网络优良的自主学习功能,既可以通过误差的反向传播方法,对照已知样本反复进行训练,也可以调整网络的权值,直到网络的 I/0关系在某一块训练指标下最接近样本为止。
3.3 人工智能在临床医疗诊断中的应用
计算机编写的程序主要根据专家系统的设计原理和方法来模拟医生的医学诊断,以及通常治疗手段的思维过程来进行。医疗专家系统是临床医疗诊断中人工智能的很好体现,不仅能够处理较为复杂的医学治疗问题,还能当做医生诊断疾病的重要工具,更重要的是传承了专家们的宝贵医学治疗经验。
3.4 人工智能技术在医学影像诊断中的应用
目前,在医学影像中存在着的问题,比如:误诊率高、缺口大。这些问题需要通过人工智能的方法来解决。在医学影像技术领域人工智能的应用包括主要的两个方面,分别是:第一个方面为图像识别,第二个方面为深度学习,其中人工智能应用最核心的部分实深度学习。这两个部分都是基于医学影像大数据所进行的数据上的挖掘和应用。这两个方面所进行的数据挖掘及其应用都是依据医学影像大数据来完成的。
Geoffrey Hinton教授是神经网络领域的大师,2006年,他与其博士生在《Science》和相关的期刊上发表了论文,第一次提出了“深度信念网络”的概念。2012年,由斯坦福大学Fei-Fei Li教授举办的ImageNet ILSVRC大规模图像识别评测任务是由Hinton教授的研究团队参加的。这个任务包括了120万张高分辨率图片,1000个类比。Hinton教授团队使用了全新的黑科技多层卷积神经网络结构,将图像识别错误率突破性地从26.2%降低到了15.3%。 这个革命性的技术,让神经网络深度学习以迅速的速度进入了医疗和工业的领域范围,随后这一技术被陆续出现的医疗影像公司使用。例如:国际知名的医学影像公司Enlitic和国内刚刚获得有峰瑞资本600万天使轮融资的DeepCare。都是不断积累大量影像数据和诊断数据,继续对神经元网络进行深度的学习训练,从而有效的提高了医生诊断的准确率。
人工智能不仅能使患者的健康检查快速进行,包括X光、B超、核磁共振等。另外还能大量减少医生的读片时间,提升了医生的工作效率,降低误诊率。
4 总结
人工智能软件工作效率远远超过了人类大脑,不仅能够更快速的找到数据的模式和相似性,还能有效帮助医生和科学家提取重要的信息。随着人工智能的发展及其在医学领域的逐渐普及和应用,两者的互相融合在未来必定成为医学发展的重要方向。
参考文献
[1]冯伍,张俊兰.人工智能在医学上的应用[J].电子设计工程,2010(01).
[2]杨琴,陈家荣.人工智能在医学领域中的应用[J].科技风,2012(12),100-101.
[3]王宇飞,孙欣.人工智能的研究与应用[J].信息与电脑,2016(05).
[4]铅笔道.人工智能与影像诊断相结合的医生界阿尔法狗,2016(03).
人工智能的概念已提出60年,从原来的理论框架体系的搭建,到实验室关键技术的准备,如今已开始进入全新的发展阶段――产业化。
目前,从基本的算法到脑科学研究,人工智能都还没有突破性进展的可能性。但是,以深度神经网络为代表的人工智能,结合日新月异的大数据、云计算和移动互联网,就可以在未来5到10年改变我们的世界。
人工智能+时代的两大机遇
人工智能不仅将替代简单重复的劳动,还将替代越来越多的复杂的高级脑力活动,创造一个个新的机会。可以说,任何一个行业、企业或今天的创业者,如果不用人工智能改变今天的生产和生活方式,5年后一定会出局。
第一个趋势是以语音为主导、以键盘和触摸为辅助的人机交互时代正在到来。如今越来越多的设备不再需要屏幕,越来越多的场景我们不用直接碰触。比如,想把灯光调亮,想打开五米之外的设备,我们的手没法直接触碰。再如,开车时不方便用手、用眼做其他事情。这时,语音就成为最主要的一个交互方式。
第二个趋势是人工智能正在全球范围内掀起一股浪潮,“人工智能+”的时代到来,而且会比我们想象的还要快。为什么呢?麦肯锡分析认为,当前45%的工作可以被技术自动化,不只是简单重复性的工作,CEO20%的工作也可以被机器取代。《科学》杂志预测,2045年人工智能会颠覆全球50%、中国77%的就业。也就是说,今天的我们3/4的工作30年后会被人工智能取代。埃森哲认为,到2035年人工智能会让12个发达国家经济增长率翻一倍。我国的增长率只有比这还高,才对得起今天的时代机遇。
从科大讯飞的情况可以看出,人工智能将迎来两大产业机遇。
第一,未来3到5年,万物互联的时代到来,以语音为主、键盘触摸为辅的人机交互将广泛应用。第二,未来5到10年,人工智能会像水和电一样进入各行各业,深刻改变我们的生活。
认知智能是最大技术瓶颈
人工智能技术有两种分类方法。一种分为强人工智能和弱人工智能;另一种是讯飞研究院提出的、跟技术演进路径相关的分类,分成计算智能、感知智能和认知智能。
计算智能就是机器能存会算。就像当年IBM的深蓝电脑下象棋超过卡斯帕罗夫,典型的就是因为运算能力强,提前算到了所有的结果。
感知智能,比如语音合成技术,能够让机器开口说话。再如语音识别技术,就像今天的演讲,后台系统把它变成文字,准确率可达95%。
认知智能是让机器具备能理解、会思考的能力。这是最大的挑战,也是大家最热切期待的技术突破。工业革命让我们从繁重的体力劳动中解放出来,未来的认知智能会让人从今天很多复杂的脑力劳动中解放出来。
科大讯飞选择以语音为入口解决认知难题,进行认知革命。以人机交互为入口的目的,就是为了解决自然语言理解的技术难题。这个入口可以把人类的智慧最便捷地汇聚到后台,供机器学习和训练,也可以使后台人工智能的成果最简单直接地输出,从社会不断取得它学习需要的反馈信息,在此基础上实现知识管理和推理学习。
科大讯飞承担的科技部第一个人工智能重大专项――高考机器人。目标是为了“考大学”,但其核心技术正是语言理解、知识表达、联想推理和自主学习。
人工智能技术正走向产业化
目前,科大讯飞的人工智能研究已经取得了阶段性成果。
在教育行业,科大讯飞的机器人通过构建学生全过程的学习数据和老师上课的数据,提升了课堂效率,原来45分钟的课堂,现在15分钟就搞定。因为大量的内容学生都是知道的,老师只需向个别没掌握的学生单独讲授。这样,老师就有时间把课堂的重点放在大家都不了解的知识上,学生可以用大量时间进行启发式学习。借助这些手段,学生的重复性训练可以降低50%以上。
在医疗行业,科大讯飞利用语音解决门诊电子病历,利用人工智能辅助诊疗。学习最顶尖医疗专家知识后的人工智能产品,可以超过一线全科医生的水平。当前,医疗行业一线最缺的是全科医生和儿科医生,引入人工智能技术就可以缓解医疗资源短缺压力。
科大讯飞的人工智能技术还应用在汽车领域。在宝马汽车去年的国际测试中,科大讯飞以86%的准确率名列第一。
在客服领域,机器已经替代掉了30%的人工服务。目前,安徽移动呼叫中心有75%的服务内容已被机器替代。
机器人还将从服务后台走向前端。今年第四季度末或明年,服务机器人将开始在银行和电信营业厅上岗工作,它们不仅好玩、有趣,吸引人气,还能帮客户解决实际问题。
【关键词】人脸识别;人脸检测;方法
Abstract:Face recognition system is one of the most popular current scientific research,In this paper,the process and prospects of face recognition system to do a simple review.The application of the system to do a simple analysis and the main method of face recognition for the corresponding category.For the future development of face recognition systems were mainly discussed.
Key words:Face Recognition;Face Detection;Methods
一、引言
随着科学技术的突飞猛进,计算机及网络的高速发展,信息的安全性、隐蔽性越来越重要,如何有效、方便的进行身份验证和识别,已经成为人们日益关心的问题。生物认证的方法,即利用人类自身的特征来进行身份认证,具有传统方法没有的有点,也解决了身份认证技术所面临的一大难题。其具有方便、强化安全、不会丢失、遗忘或转让等优点。现在人体生物识别技术的研究主要针对人脸、指纹、虹膜、手型、声音等物理或行为特征来进行。本文主要对人脸识别技术的介绍。
人脸识别是指给定一个静止或动态图像,利用已有的人脸数据库来确认图像中的一个或多个人。如同人的指纹一样,人脸也具有唯一性,也可用来鉴别一个人的身份。现在己有实用的计算机自动指纹识别系统面世,并在安检等部门得到应用,但还没有通用成熟的人脸自动识别系统出现。人脸图像的自动识别系统较之指纹识别系统、DNA鉴定等更具方便性,因为它取样方便,可以不接触目标就进行识别,从而开发研究的实际意义更大。另一方面,人脸表情的多样性;以及外在的成像过程中的光照,图像尺寸,旋转,姿势变化等给识别带来很大难度。因此在各种干扰条件下实现人脸图像的识别,也就更具有挑战性。
二、人脸识别系统流程
(1)人脸图像的获取:图像的获取都是通过摄像头摄取,但摄取的图像可以是真人,也可以是人脸的图片或者为了相对简单,可以不考虑通过摄像头来摄取头像,而是直接给定要识别的图像。
(2)人脸的检测:人脸检测的任务是判断静态图像中是否存在人脸。若存在人脸,给出其在图像中的坐标位置、人脸区域大小等信息。而人脸跟踪则需要进一步输出所检测到的人脸位置、大小等状态随时间的连续变化情况。
图1 人脸识别框架
(3)特征提取:通过人脸特征点的检测与标定可以确定人脸图像中显著特征点的位置(如眼睛、眉毛、鼻子、嘴巴等器官),同时还可以得到这些器官及其面部轮廓的形状信息的描述。根据人脸特征点检测与标定的结果,通过某些运算得到人脸特征的描述(这些特征包括:全局特征和局部特征,显式特征和统计特征等)。
(4)基于人脸图像比对的身份识别:即人脸识别问题。通过将输入人脸图像与人脸数据库中的所有已知原型人脸图像计算相似度并对其排序来给出输入人脸的身份信息。
(5)基于人脸图像比对的身份验证:即人脸确认问题。系统在输入人脸图像的同时输入一个用户宣称的该人脸的身份信息,系统要对该输入人脸图像的身份与宣称的身份是否相符作出判断。
三、人脸识别技术现状及发展前景
自1995年以来,国外一些公司看准了人脸识别系统广阔的应用前景,动用了大量人力和物力,自己独立研发或与高校合作,开发了多个实用的人脸识别系统,例如:加拿大Imagis公司的ID-2000面部识别软件,美国Identix公司1的FaceIt人脸识别系统,德国Human Scan公司的BioID身份识别系统,德国Cognitec Systems公司的Face VACS人脸识别系统等;美国A4vision公司的3D人脸识别产品;等等。
国内相关领域较为出名的公司有上海银晨智能识别科技有限公司(IS'vision),他们与中科院计算所联合开发了会议代表身份认证/识别系统、嫌疑人面像比对系统、面像识别考勤/门禁系统、出人口黑名单监控系统等多种自动人脸识别应用系统。2008年,北京奥运会开幕式正式使用了中国自主知识产权的人脸识别比对系统;2010年4月1日起,国际民航组织(ICAO)已确定其118个成员国家和地区必须使用机读护照,人脸识别技术是首推识别模式,该规定已经成为国际标准;2011年,Face book初次引入人脸识别技术,登陆人员可以免信息验证而激活页面;2012年3月6日,江苏省公安厅与南京理工大学日前签约共建“社会公共安全重点实验室”,开展“人脸识别”技术相关领域项目攻关。
到目前为止,虽然有关自动人脸识别的研究已经取得了一些可喜的成果,但在实际应用环境下仍面临着许多难以解决的问题:人脸的非刚体,表情、姿态、发型和化妆的多样性以及环境光照的复杂性都给正确的人脸识别带来了很大的困难。即使在大量来自模式识别、计算机视觉、生理学、心理学、神经认知科学等领域的研究人员对自动人脸识别艰苦工作40余年之后,其中不少问题至今仍然困绕着研究人员,始终找不到完善的解决办法。
在人脸识别市场,特别是在中国的市场,正经历着迅速的发展,而且发展的脚步也将越来越快。主要有三大原因:
1.是科技界和社会各个领域都认识到人脸识别技术的重要性,国家政策对人脸识别技术研究给予了很大支持,使得我国人脸识别技术取得了很大进展。国际上,美国国家标准技术局(NIST)举办的Face Recognition Vendor Test 2006(FRVT2006)通过大规模的人脸数据测试表明,当今世界上人脸识别方法的识别精度比2002年的FRVT2002至少提高了一个数量级(10倍)。其中一些方法的识别精度已经超过人类的平均水平。而对于高清晰、高质量人脸图像识别,机器的识别精度几乎达到100%。
2.各种应用需求不断出现。人脸识别市场的快速发展一方面归功于生物识别需求的多元化,另一方面则是由于人脸识别技术的进步。从需求上来说,除了传统的公司考勤、门禁等应用外,视频监控环境下的身份识别正成为一种迫切的需求,即在一个较复杂的场景中,在较远的距离上识别出特定人的身份,这显然是指纹识别的方法不能满足的,而人脸识别却是一个极佳的选择。
3.人口基数因素。人脸识别系统的市场大小,很大程度上是和人口的数量大小相关的。而我国有13亿人口,这从本质上说明了我国是世界上规模最大的生物识别市场。
四、常用的人脸识别方法
人脸识别技术和方法可分为两大类:基于几何特征的方法和基于模板匹配的方法。基于几何特征方法的思想是首先检测出嘴巴,鼻子,眼睛,眉毛等脸部主要部分的位置和大小,然后利用这些部件的总体几何分布关系以及相互之间的参数比例来识别人脸。基于模板的方法是利用模板和整个人脸图像的像素值之间的自相关性进行识别,这种方法也叫做基于表象的方法。
本文主要分析了常用的人脸识别方法为:几何特征的方法、模型的方法、神经网络的方法和多分类器集成方法。
1.几何特征的方法
最早的人脸识别方法就是Bledsoe提出的基于几何特征的方法,这种方法以面部特征点之间的距离和比率作为特征通过最近邻方法来识别人脸。该方法建立的人脸识别系统是一个半自动系统,其面部特征点必须由人手工定位,也正是由于人工的参与,该系统对光照变化和姿态变化不敏感。
Kanade首先计算眼角、鼻孔、嘴巴、下巴等面部特征之间的距离和它们之间的角度以及其它几何关系然后通过这些几何关系进行人脸的识别工作在一个20人的数据库上识别率为45%一75%。
Brunelli和Poggio通过计算鼻子的宽度和长度、嘴巴位置和下巴形状等进行识别,在一个47人的人脸库上的识别率为90%.然而,简单模板匹配方法在同一人脸库上的识别率为100%。
基于几何特征的方法比较直观,识别速度快,内存要求较少,提取的特征在一定程度上对光照变化不太敏感。但是,当人脸具有一定的表情或者姿态变化时,特征提取不精确,而且由于忽略了整个图像的很多细节信息且识别率较低,所以近年来已经很少有新的发展。
2.模型的方法
隐马尔可夫模型,是一种常用的模型,原HMM的方法首先被用于声音识别等身份识别上,之后被Nefian和Hayrs引人到人脸识别领域。它是用于描述信号统计特性的一组统计模型。
在人脸识别过程中,首先抽取人脸特征,得到后观察向量,构建HMM人脸模型,然后用EM算法训练利用该模型就可以算出每个待识别人脸观察向量的概率,从而完成识别,HMM方法的鲁棒性较好,对表情、姿态变化不太敏感,识别率高。
3.神经网络的方法
神经网络在人脸识别领域有很长的应用历史,1994年就出现了神经网络用于人脸处理的综述性文章。
动态链接结构(DLA)是用于人脸识别系统中最有影响的神经网络方法。DLA试图解决传统的神经网络中一些概念性问题,其中最突出的是网络中语法关系的表达。DLA利用突触的可塑性将神经元集合划分成若干个结构,同时保留了神经网络的优点。
自组织映射神经网络(SOM)与卷积神经网络相结合的混合神经网络方法进行人脸识别。SOM实现对图像的采样向量降维,且对图像样本的小幅度变形不敏感。卷积网络用来实现相邻像素间的相关性知识,在一定程度对图象的平移、旋转、尺度和局部变形也都不敏感。
神经网络方法较其他人脸识别方法有着特有的优势,通过对神经网络的训练可以获得其他方法难以实现的关于人脸图像的规则和特征的隐性表示,避免了复杂的特征抽取工作,并有利于硬件的实现。缺点主要在于其方法的可解释性较弱,且要求多张人脸图像作为训练集,所以只适合于小型人脸库。
4.多分类器集成方法
人脸的表象会因为光照方向、姿态、表情变化而产生较大的变化,每种特定的识别器只对其中一部分变化比较敏感,因此,将可以整合互补信息的多个分类器集成能够提高整个系统的分类准确率。
Gutta等人提出将集成的RBF与决策树结合起来进行人脸识别。结合了全局的模板匹配和离散特征的优点,在一个350人的人脸库上测试,取得了较好的实验结果。
五、总结及展望
随着图像处理、模式识别、人工智能以及生物心理学的研究进展,人脸识别技术也将会获得更大的发展。面对这种高新技术,人脸识别技术有着不可代替的优点。近几年对三维模型的人脸识别研究以成为一个热点。从二维模型到三维模型是一个阶跃性的发展,中间必须克服三维模型的开销大,所占空间大等因素。因此如何增强这类系统的保密性将是人脸识别系统要考虑的问题,它将是这种识别系统投入使用后人们最关心的问题,同时也是人脸识别领域需要研究的新课题。我们期待在不久的将来,人们将告别钥匙,迎来人脸开门的新时代。
参考文献
[1]李武军,王崇骏,张炜,等.人脸识别研究综述[J].模拟识别与人工智能,2006,19(1):58-65.
[2]李子青.人脸识别技术应用及市场分析[J].中国安防,2007,8:42-46.
[3]柴秀娟,山世光,卿来云,等.基于3D人脸重建的光照、姿态不变人脸识别[J] .软件学报,2006,17(3):525-534.
关键词 车辆自动驾驶;人工智能;应用实践;智能汽车
中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2017)182-0080-02
车辆自动驾驶系统是改变传统驾驶方式的重要技术类型,但仍旧处于研发测试阶段,并未展开全面应用。车辆自动驾驶系统主要是由感知部分和控制部分构成,控制部分主要完成对车辆的控制,促使车辆按照设计的线路展开行驶,而感知部分则是对路线中障碍进行识别,促使车辆进行规避,保障车辆安全。然而现阶段,车辆自动驾驶的感知部分却存在一定的瓶颈,制约车辆自动驾驶系统的功能。基于此,本文对车辆自动驾驶中人工智能的应用展开分析,具体内容如下。
1 车辆自动驾驶现状分析
车辆自动驾驶是借助网络技术相关算法、高敏感度的传感器和相关信息采集设备,综合的对车辆行驶过程中路况信息进行采集,由信息处理部分完成对车辆行驶过程中采集数据的分析,再由控制系统完成对车辆前进、后退和停止等动作进行实施,可有效改变传统车辆的驾驶方式,在提高车辆驾驶有效性的基础上,可以解放驾驶人员的双手,并达到降低交通事故发生几率,达到智能化汽车的构建。
近年来,以百度、谷歌为首的行业,致力于人工智能技术应用车辆自动驾驶系统中,于2016年谷歌将无人驾驶的汽车测试到城市,并于2016年12月无人驾驶汽车项目剥离为独立的公司waymo,完成对车辆自动驾驶的研究,该公司的基于自动驾驶的车辆的自动行驶的距离>1.61×106km,并获得大量的数据。
较比国外的车辆自动驾驶的自主研究形式,国内主要选择汽车厂商与科研所高校等联合研究的方式,主要有一汽、上汽、奇瑞等,均投入一定资金和研究力度,致力于研发可无人驾驶的智能汽车。同时,网络技术和算法技术、硬件技术的不断成熟,为车辆自动驾驶提供了基础,对智能汽车的构建具有十分积极的意义。
随着世界各类尖端行业重视到汽车自动驾驶大有可为,逐渐加大对车辆自动驾驶的研究,并将具备车辆自动驾驶能力的汽车作为未来汽车市场的主要方向,促使汽车可以在自动驾驶的状态下,完成对复杂环境的驾驶,达到高度自动化驾驶的效果。
2 人工智能在车辆自动驾驶中的应用
人工智能是计算机科学的分支之一,所包含的领域较多,涵盖机器人、语言识别、图像识别等,随着人工智能研究的不断深入,人工智能逐渐应用到各个领域中。将人工智能应用到车辆自动驾驶中,可以对车辆自动驾驶的瓶颈进行突破,推动车辆自动驾驶的早日实现。
2.1 基于深度思考的人工智能
车辆自动驾驶系统对基于深度思考的人工智能进行应用,深度思考是一种机器学习的算法,可完成多元非线性数据转换、高级数据概念模型的构建,促使车辆自动驾驶系统的感知部分发生转变。具体的基于深度思考的人工智能学习结构,有深度神经网络(DNNs)、卷积神经网络(CNNs)、深度信念网络等,在具体的车辆自动驾驶系统中,完成对车辆的视觉、语言等信息的识别。苹果手机编制程序专家George?Hotz创建的企业,构建的基于卷积神经网络的自动驾驶车辆,并借助人工智能实现车辆训练。在具体的车辆训练过程中,选择激光雷达作为主要视觉装置,完成周边环境的精准三维扫描,进而实现对周边环境的识别,且可以完成对车位置信息的报告。
2.2 基于人工智能解读的仪表板摄像头
选择以帕洛阿尔托为基地的NAUTO使用的prosumer相机中发现的各类图像传感器,并运用运动感应器、GPS等,转变激光雷达传感器昂贵的情况,达到降低车辆自动驾驶的感知成本,并有效完成对周边地形的识别。借助NAUTO系统,不但能够完成对道路前方情况的识别,还能对车辆内部的情况信息进行采集,车辆乘坐人员可以根据面部表情、手势和语言完成对车辆的控制,达到改善人机交互界面。
2.3 基于人工智能的尾刹
现阶段,汽车辅助系统不断发展和完善,切实应用到车辆中,基于人工智能的ADAS技术,配合ACC(自适应循环)、LDWS(车道偏移报警系统)、自动泊车等系统的应用,使得目前车辆具备良好的自动能力。而ADAS技术的应用,可以使得汽车在具体运行中如果前方存在车辆或是前方存在障碍物不能绕过的情况,借助ADAS技术的应用,可以实现自动刹车,进而保障车辆的行驶安全。
2.4 感知、计划、动作的agent结构应用
车辆自动驾驶系统中对人工智能进行应用,对改善自动车辆驾驶的效果显著,改善车辆自动驾驶的效果。
借助知识库的十二构建,可以给予自动驾驶行驶过程中的地理信息、电子地图、交通信息和相关法律法规这些内容。且这些知识主要是以知识的形式展示,并借助知R推理中的A算法,可以有效完成对下一个被检查的结点时引入已知的全局信息进行解读,达到对最优路线的选择,获得可能性最大的结点,继而保障知识所搜的效率。借助感知―计划―动作agent结构的人工职能,可以将车辆自动行驶的速度分为3个档次:High、Middle、Fast,转向角度为7等,分别为0°,±10°,±20°,±30°。且可以完成对各类障碍的规避。
3 车辆自动驾驶中人工智能应用的相关问题
1)车辆自动驾驶具有良好的发展前景,而人工智能的应用,进一步优化了车辆自动驾驶系统的功能,达到减少错误的情况,借助人工智能尽可能降低各类错误的存在,规避自动驾驶风险的存在。需不断加强对人工智能的研究和分析,促使人工智能和车辆自动驾驶有机的结合,为智能汽车的构建奠定基础。
2)人工智能应用时,需要对车辆电脑程序和信息网络的安全系数进行控制,避免非法入侵对车辆造成不利影响,进而导致安全隐患的发生。
3)人工智能在具体的应用中,需要对预测和回应人类行为的问题进行处理,进而增加自动驾驶车辆与人的互动。
4)基于人工智能的智能汽车定责的法律问题,国家需要建立相关的法律法规,不断完善车辆自动驾驶的相关立法,完成对各类问题的处理,提升法律的适应性。
4 结论
分析车辆自动驾驶的现状,再详细的对人工智能在车辆自动驾驶的应用,再解读基于感知―计划―动作agent结构的人工智能的具体应用,并分析人工智能在车辆自动驾驶中应用的相关问题,为推动车辆自动驾驶的水平和智能化水平提供基础,达到改善人们生活的效果。
参考文献
[1]黄健.车辆自动驾驶中的仿人控制策略研究[D].合肥:合肥工业大学,2013.
[2]谢基雄.探析人工智能技术对电气自动化的实践运用[J].电源技术应用,2013(9).
[3]禹昕.人工智能在电气工程自动化中的运用实践研究[J].工程技术:全文版,2016(12):00247.
[4]余阿东,陈睿炜.汽车自动驾驶技术研究[J].汽车实用技术,2017(2):124-125.
虽然目前公众媒体将无线通信炒的很热,但这个领域从1897年马可尼成功演示无线电波开始,已经有超过一百年的。到1901年就实现了跨大西洋的无线接收,表明无线通信技术曾经有过一段快速发展时期。在之后的几十年中,众多的无线通信系统生生灭灭。
20世纪80年代以来,全球范围内移动无线通信得到了前所未有的发展,与第三代移动通信系统(3g)相比,未来移动通信系统的目标是,能在任何时间、任何地点、向任何人提供快速可靠的通信服务。因此,未来无线移动通信系统应具有高的数据传输速度、高的频谱利用率、低功耗、灵活的业务支撑能力等。但无线通信是基于电磁波在自由空间的传播来实现传输的。信号在无线信道中传输时,无线频率资源受限、传输衰减、多径传播引起的频域选择性衰落、多普勒频移引起的时间选择性衰落以及角度扩展引起的空间选择性衰落等都使得无线链路的传输性能差。和有线通信相比,无线通信主要由两个新的问题。一是通信行道经常是随时间变化的,二是多个用户之间常常存在干扰。无线通信技术还需要克服时变性和干扰。由于这个原因,无线通信中的信道建模以及调制编码方式都有所不同。
1.无线数字通信中盲源分离技术分析
盲源分离(bss:blind source separation),是信号处理中一个传统而又极具挑战性的问题,bss指仅从若干观测到的混合信号中恢复出无法直接观测的各个原始信号的过程,这里的“盲”,指源信号不可测,混合系统特性事先未知这两个方面。在研究和工程应用中,很多观测信号都可以看成是多个源信号的混合,所谓“鸡尾酒会”问题就是个典型的例子。其中独立分量分析ica(independent component analysis)是一种盲源信号分离方法,它已成为阵列信号处理和数据分析的有力工具,而bss比ica适用范围更宽。目前国内对盲信号分离问题的研究,在理论和应用方面取得了很大的进步,但是还有很多的问题有待进一步研究和解决。盲源分离是指在信号的理论模型和源信号无法精确获知的情况下,如何从混迭信号(观测信号)中分离出各源信号的过程。盲源分离和盲辨识是盲信号处理的两大类型。盲源分离的目的是求得源信号的最佳估计,盲辨识的目的是求得传输通道混合矩阵。盲源信号分离是一种功能强大的信号处理方法,在医学信号处理,阵列信号处理,语音信号识别,图像处理及移动通信等领域得到了广泛的应用。
根据源信号在传输信道中的混合方式不同,盲源分离算法分为以下三种模型:线性瞬时混合模型、线性卷积混合模型以及非线性混合模型。
1.1 线性瞬时混合盲源分离
线性瞬时混合盲源分离技术是一项产生、研究最早,最为简单,理论较为完善,算法种类多的一种盲源分离技术,该技术的分离效果、分离性能会受到信噪比的影响。盲源分离理论是由鸡尾酒会效应而被人们提出的,鸡尾酒会效应指的是鸡尾酒会上,有声、谈话声、脚步 声、酒杯餐具的碰撞声等,当某人的注意集中于欣赏音乐或别人的谈话,对周围的嘈杂声音充耳不闻时,若在另一处有人提到他的名字,他会立即有所反应,或者朝 说话人望去,或者注意说话人下面说的话等。该效应实际上是听觉系统的一种适应能力。当盲源分离理论提出后很快就形成了线性瞬时混合模型。线性瞬时混合盲源分离技术是对线性无记忆系统的反应,它是将n个源信号在线性瞬时取值混合后,由多个传感器进行接收的分离模型。
20世纪八、九十年代是盲源技术迅猛发展的时期,在1986年由法国和美国学者共同完了将两个相互独立的源信号进行混合后实现盲源分离的工作,这一工作的成功开启了盲源分离技术的发展和完善。在随后的数十年里对盲源技术的研究和创新不断加深,在基础理论的下不断有新的算法被提出和运用,但先前的算法不能够完成对两个以上源信号的分离;之后在1991年,法国学者首次将神经网络技术应用到盲源分离问题当中,为盲源分离提出了一个比较完整的框架。到了1995年在神经网络技术基础上盲源分离技术有了突破性的进展,一种最大化的随机梯度学习算法可以做到同时分辨出10人的语音,大大推动了盲源分离技术的发展进程。
1.2 线性卷积混合盲源分离
相比瞬时混合盲源分离模型来说,卷积混合盲源分离模型更加复杂。在线性瞬时混合盲源分离技术不断发展应用的同时,应用中也有无法准确估计源信号的问题出现。常见的是在通信系统中的问题,通信系统中由于移动客户在使用过程中具有移动性,移动用户周围散射体会发生相对运动,或是交通工具发生的运动都会使得源信号在通信环境中出现时间延迟的现象,同时还造成信号叠加,产生多径传输。正是因为这样问题的出现,使得观测信号成为源信号与系统冲激响应的卷积,所以研究学者将信道环境抽象成为线性卷积混合盲源分离模型。线性卷积混合盲源分离模型按照其信号处理空间域的不同可分为时域、频域和子空间方法。
1.3 非线性混合盲源分离
非线性混合盲源分离技术是盲源分离技术中发展、研究最晚的一项,许多理论和算法都还不算成熟和完善。在卫星移动通信系统中或是麦克风录音时,都会由于乘性噪声、放大器饱和等因素的影响造成非线性失真。为此,就要考虑非线性混合盲源分离模型。非线性混合模型按照混合形式的不同可分为交叉非线性混合、卷积后非线性混合和线性后非线性混合模型三种类型。在最近几年里非线性混合盲源分离技术受到社会各界的广泛关注,特别是后非线性混合模型。目前后非线性混合盲源分离算法中主要有参数化方法、非参数化方法、高斯化方法来抵消和补偿非线性特征。
2.无线通信技术中的盲源分离技术
在无线通信系统中通信信号的信号特性参数复杂多变,实现盲源分离算法主要要依据高阶累积量和峭度两类参数。如图一所示,这是几个常见的通信信号高阶累积量。
在所有的通信系统中,接收设备处总是会出现白色或是有色的高斯噪声,以高阶累积量为准则的盲源分离技术在处理这一问题时稳定性较强,更重要的是对不可忽略的加性高斯白噪声分离算法同时适用。因此,由高阶累积量为准则的盲源分离算法在通信系统中优势明显。
分离的另一个判据就是峭度,它是反映某个信号概率密度函数分布情况与高斯分布的偏离程度的函数。峭度是由信号的高阶累积量定义而来的,是度量信号概率密度分布非高斯性大小的量值。