公务员期刊网 精选范文 卷积神经网络的发展范文

卷积神经网络的发展精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络的发展主题范文,仅供参考,欢迎阅读并收藏。

卷积神经网络的发展

第1篇:卷积神经网络的发展范文

关键词: 模式识别; 神经网络; 卷积; 文字识别

中图分类号: TN711?34; TP391.4 文献标识码: A 文章编号: 1004?373X(2014)20?0019?03

Large pattern online handwriting character recognition based on multi?convolution neural network

GE Ming?tao1, WANG Xiao?li1, PAN Li?wu2

(1. SIAS International School, Zhengzhou University, Zhengzhou 451150, China;

2. Henan University of Animal Husbandry and Economy, Zhengzhou 450011, China)

Abstract: Online handwriting character recognition is an important field in the research of pattern recognition. The traditional recognition method is based on the common convolutional neural networks (CNNs) technology. It has an efficient recognition rate for the small pattern character set online handwriting characters, but has low recognition rate for the large pattern character set recognition. A recognition method based on multi?convolutional neural networks (MCNNs) is presented in this paper to overcome the situation that the previous methods have the low recognition rate for large pattern character set and improve the recognition rate for the large pattern handwriting character set recognition. The stochastic diagonal Levenbert?Marquardt method is used in the system for training optimization. The experimental results show that the proposed method has the recognition rate of 89% and has a good prospect for online handwriting character recognition for large scale pattern.

Keywords: pattern recognition; neural network; convolution; character recognition

0 引 言

随着全球信息化的飞速发展和对自动化程度要求的不断提高 ,手写文字识别技术被广泛地应用到许多方面。特别是近几年拥有手写功能的手机、平板电脑等智能电子产品的普及,联机手写文字识别研究已经成为一个备受关注的主题。联机手写字符识别要求实时性较高,识别过程中要求特征空间的维数比较高,在进行特征样本训练时要求训练的数目很大,要匹配的特征值或特征对象比较多 [1?2]。

卷积神经网络(Convolutional Neural Networks,CNNs)的优点在于图像的识别过程中对视觉模式的获得是直接从原始图像中获得的,所以在设计系统时图像的预处理工作很少,与一般神经网络相比是一种高效的识别方法。卷积神经网络在模式识别的一些领域具有很好的鲁棒性,如在识别有变化的模式和对几何变形的识别方面。利用卷积神经网络的手写识别方法具有如下一些优点:对于要检测的图像可以与事先制定网络拓扑结构之间有较高的匹配率;特征提取和模式分类同时进行;训练参数往往是系统计算量的重要参数,而卷积神经网络中利用权值共享技术,这样就可以大大降低该参数,在设计系统结构时使得结构变得更简单,从而使得整个系统具有更好的适应性[3?5]。

目前,人机交互系统的手写字符识别、汽车车牌号识别和信息安全中常用的人脸识别等领域都有卷积神经网络的成功应用。文献[6]用一个4层的卷积神经网络LeNet?5对Mnist库进行识别实验,获得了98.4%的识别率,用2层的BP网络的识别率[4,6]是87%。许多学者对卷积神经网络在联机手写文字识别方面做了多方位的研究。 但是,这些成功的联机手写文字识别主要是针对小模式字符集,利用以往的这些方法对大规模模式分类的联机手写文字的识别依然有识别率不高的问题。本文介绍了卷积神经网络的基本概念和一种典型的卷积神经网络结构,给出了基于多重卷积神经网络的字符识别和词语识别模型。通过使用大字符集的UNIPEN数据库进行训练和测试,本文提出的方法在大模式联机手写识别上,取得了较高的识别速度和满意的识别率。

1 卷积神经网络

文献[6?7]中详细地描述了卷积神经网络如何保证图像对位移、缩放、扭曲鲁棒性能。典型的手写字符卷积神经网络LeNET 5的结构图如图1所示[6?7]。

图1 典型的卷积神经网络结构

在图1中,输入层接收要识别32×32的手写字符图像,经过简单的大小归一化和图像灰度处理,之后的结果作为一个采样层的图像;然后用一个可学习核进行卷积操作,卷积结果经过激活函数的输出形成这一层的神经元,每个神经元与输入图像的一个5×5的邻域相连接,从而得到由6幅特征图组成的第一个隐层(C1层)。每个特征图有25个权值(如方向线段,端点、角点等),考虑到边界效果,得到的特征图的大小是28×28,小于输入图层[3?9]。卷积层的数学计算过程可表示为:

[xlj=fi∈Mjxl-1j*kernellij+blj] (1)

式中:[l] 代表层数;kernel是卷积核;[Mj]代表输入特征图的一个选择。每个输出图有一个偏置[b]。

每个卷积层的结果作为下一个次采样层的输入,次采样层的作用是对输入信息进行抽样操作。如果输入的特征图为n个,则经过次采样层后特征图的个数仍然为n,但是输出的特征图要变小(例如,各维变为原来的50%)。因此隐层S2是由6个大小为14×14的特征图组成的次采样层。次采样层计算公式可以用式(2)表示:

[xlj=fβl-1jdown(xl-1j)+blj] (2)

式中down(・) 表示次采样函数。次采样函数一般是对该层输入图像的一个n×n大小的区域求和,因此,输出图像的大小是输入图像大小的[1n]。每一个输出的特征图有自己的β和b。

类似的,C3层有16个10×10的特征图组成的卷积层,特征图的每个神经元与S2网络层的若干个特征图的5×5的邻域连接。网络层S4是由16个大小为5×5的特征图组成的次采样层。特征图的每个神经元与C3层的一个2×2大小的邻域相连接。网络层C5是由120个特征图组成的卷积层。每个神经元与S4网络层的所有特征图的5×5大小的邻域相连接。网络层F6,包括84个神经元,与网络层C5进行全连接。最后,输出层有10个神经元,是由径向基函数单元(RBF)组成,输出层的每个神经元对应一个字符类别。RBF单元的输出yi的计算方法如式(3)所示:

[yi=j(xj-wij)2] (3)

很多研究人员通过对字符集作弹性训练,经测试发现在MNIST字符集上的识别率可以高达99%以上[6?7] 。卷积神经网络的优势主要是对小模式集上,如对数字或26个英文字母组成的集合都有着较高的识别率。然而,对大模式集的识别仍然是一个挑战,因为设计一个优化的并足够大的单一网络是比较困难的,且训练时间也较长。因此,本文的目的旨在通过组合多个对某一字符集有高识别率的卷积神经网络,从而构成多重卷积神经网络,进而提高卷积神经网络对大模式集手写字符的识别率。

2 多重卷积神经网络

2.1 多重卷积神经网络字符识别

根据传统卷积神经网络的运算过程以及其在处理大模式集手写字符时存在的不足,本文提出一种多重卷积神经网络来改进传统的卷积神经网络模型,用多个拥有高识别率的小卷积神经网络组成一个多重卷积神经网络。每一重小卷积神经网络对某一具体字符集有较高的识别率,另外,单重卷积神经网络除了有一个正式的输出集之外,还产生一个未知的输出(即难以识别的字符),即如果一个输入字符没有被正确识别,它将被输出为一个未知字符,然后输入模式转到下一重卷积神经网络进行识别。最后,通过一个拼写检查模块进行判断,选择最好的结果输出。系统的流程如图2所示。

其中CNN 1是识别手写数字的卷积神经网络,CNN 2是识别手写小写英文字母的卷积神经网络,该模型具有极强的扩展性,可以添加多任意模式的卷积神经网络(如中文,日文等)。

图2 多重卷积神经网络字符识别示意图

2.2 随机对角Levenberg?Marquardt训练方法

传统的结构比较简单、单一的卷积神经网络多采用基本的Back Propagation(BP)规则训练网络,往往需要几百次迭代,网络的收敛速度较慢。本文采用LeCun博士提出的随机对角Levenberg?Marquardt 算法对网络作训练,该算法需要的迭代次数明显比基本的BP 算法少[4,9]。随机对角Levenberg?Marquardt算法的公式为:

[ηki=ε?2E?w2ij+μ] (4)

式中[ε]是全局的学习率,一般取初始值0.01,太大会使网络无法收敛,太小则会降低收敛速度,且使网络更容易陷入局部极小值,训练过程中可以用启发式规则改变[ε]的值,本文取最下值为5e-005; [?2E?w2ij]是一个估计值,根据训练集的大小可以调整样本数量,文中随机选取200个样本估算它的值;[μ]用来避免[?2E?w2ij] 太小时[ηki]的变化过大 。

2.3 多重卷积神经网络词句识别

本文提出的多重卷积神经网络对手写词语的识别方法可以简单地描述为:首先对输入的手写图像进行预处理和分割,然后通过多重卷积神经网络模块分别进行识别,最后采用单词识别模块对识别结果进行判断,选择最好的结果输出。其过程如图3所示。

图3 多重卷积神经网络联机手写词句识别过程

本文提出的多重卷积神经网络联机手写文字识别方法克服了传统卷积神经网络文字识别的对字符集的限制,每一重卷积神经网络是一个针对小模式的卷积神经网络,易于训练和优化,更重要的是此方案的灵活性非常好易于调节参数,可扩展性强。每一重卷积神经网络都具有可重用能力,可以根据需要加载一个或多个网络,可以根据新的模式添加新的网络而不需改变或重建原来的网络。

3 训练和实验

为了评估多重卷积神经网络对基于大模式字符集的联机手写文字识别的性能,本系统采用MNIST和UNIPEN两种不同的手写字符训练集进行测试。UNIPEN数据库是在1992年举行的IEEE IAPR会议上提出并建立的,其目的是创建一个大型的手写体数据库用于为在线手写识别提供研究和开发的基础,得到了多个知名公司或研究所的支持并完成了UNIPEN的规范设计。在进行数据比对实验中,本文采用许多研究使用的MNIST手写数字数据库,该数据库是NEC 研究中心设计的,是NIST(The National Institute of Standards and Technology)数据库的一个子集,该训练集中有大量训练样本和测试用例。本文默认用以下定义:

[识别率=正确识别数样本总数×100%]

[失误率误识率=错误识别数样本总数×100%]

实验测试是在通用的台式电脑上进行的。整个识别原型系统采用C#编写,运行在.NetFrame 4.5平台上。经测试对MNIST训练集识别正确率可达[9]99%,对UNIPEN数字识别正确率可达97%,对UNIPEN数字和大写字母识别正确率可达89%(1a,1b) ,对UNIPEN小写字母识别正确率可达89%(1c) 。图4是对UNIPEN小写字母3次训练的均方误差比较。

图4 训练的误差数据

从图4中可以看出,在开始的几个训练周期内,均方误差(MSE)下降得很快,然后在第13个周期后神经网络达到一个稳定的值,约为0.148 5。也就是说,网络在第13个周期后,改善程度就很小。所以修改训练错误率的值为0.000 45后重新进行18代的第二次训练,均方误差有所降低。经过第三次的训练后趋于稳定,对UNIPEN小写字母识别正确率可达89%。经测试,通过使用随机对角Levenberg?Marquardt方法,收敛速度比基本BP算法快了许多,经过68代训练后识别正确率可达89%。

4 结 语

本文提出了基于多重卷积神经网络的联机手写字符的识别方法,通过使用多个识别率高的卷积神经网络和随机对角 Levenberg? Marquardt方法,可以适用于大模式联机手写识别。经过实验数据比较,该方法在大模式联机手写识别过程中具有很高的识别率,与此同时识别速度也很快,有很好的实时性,总体效果很好。在当今触摸屏应用遍及生产生活的各个方面的趋势下,该方法有着广阔的应用前景。同时此方法为今后多手写汉字识别的研究提供了很好的借鉴。

注:本文通讯作者为潘立武。

参考文献

[1] 吴鸣锐,张钹.一种用于大规模模式识别问题的神经网络算法[J].软件学报,2001,12(6):851?855.

[2] 张辉.大规模联机手写汉字识别数据库整理、统计与实验分析[D].广州:华南理工大学,2012.

[3] 徐姗姗,刘应安,徐,等.基于卷积神经网络的木材缺陷识别[J].山东大学学报:工学版,2013,43(2):23?28.

[4] 吕刚.基于卷积神经网络的多字体字符识别[J].浙江师范大学学报:自然科学版,2011,34(4):425?428.

[5] PHAM D V. Online handwriting recognition using multi convolution neural networks [M]. Berlin Heidelberg: Springer, 2012: 310?319.

[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [C]// Proceeding of IEEE. USA: IEEE, 1998: 2278?2324.

[7] SIMARD P Y, STEINKRAUS Dave, PLATT John. Best practices for convolutional neural networks applied to visual document analysis [C]// International Conference on Document Analysis and Recognition (ICDAR). Los Alamitos: IEEE Computer Society, 2003: 958?962.

第2篇:卷积神经网络的发展范文

【关键词】压缩紧邻 字符识别 正确率

1 研究背景

样本选择是从原有的样本集中某一种选择方式来选出样本子集,是一个能加快数据处理效率,可以节省存储资源并且保证不降低分类性能的可靠方法。样本选择和特征选择在某些方面上有相似之处,一般都是与具体分类预测方法相关联。字符识别是模式识别中一类热门的研究问题,本文将利用样本选择方法结合深度卷积神经网络进行字符识别。

2 加权压缩近邻方法

基于压缩近邻的样本选择方法具有拥有降低存储、缩短运算等特点。郝红卫等人在此基础上提出了加权压缩近邻规则,针对那些未被选中的边缘样本,可以重复数次对压缩近邻的过程,从而确保样本数据均能够被选上。对于中心样本也能被保留的问题,通过对样本加权评估、再次选择的方式来解决。在选择的过程中可以根据实验需要进行样本数量进行控制,称之为加权压缩近邻规则(Weighted Condensed Nearest Neighbor)。

该算法是通过压缩近邻规则过程的循环保证子集P中有足够多的边界样本,但是其中仍存在大量的冗余,我们依据投票的原则对子集P中样本的代表性进行评估并且再次选择。其具体过程是对于U中的每个样本x找出P中距离最接近的样本xi,如果x和xi的类别是相同的,那么投xi一票。样本获得的票数最高,说明它最具有代表性。根据投票的实际情况和样本的数量来得到最终的子集A。用加权压缩近邻规则获得的子集比压缩近邻规则得到的子集包含更少的冗余样本和更多的具有代表性样本,同时还可以根据实验来控制子集中所含有的样本数。

3 实验结果与分析

本次实验分别使用MNIST和USPS手写体识别库作为训练和测试样本集。

实验平台采用英特尔酷睿i5-4430CPU 3.00GHz,8GB内存,Windows10操作系统,Matlab R2010b。我们设定随机选择和压缩近邻选取MNIST中样本数目为6600个,样本压缩比为10%,USPS库中选取样本数目为1767个,样本压缩比为20.34%。设置深度卷积神经网络训练次数设为100次。

算法给出了基于压缩近邻和BP神经网络手写体字符识别结果。通过融合压缩近邻规则选取样本和BP神经网络实验,在训练时间上虽然没有融合随机选取样本和深度卷积网络实验短,但是在时间上并没有很大幅度延长。在实验的识别错误率上,MNIST库中比随机选择实验提升了1.52%,分类效果提升明显。可见压缩近邻方法可以选择到更好的代表性样本。这两组数据依然说明了压缩近邻对样本选择的可靠性。表1给出了基于压缩近邻和卷积神经网络的手写体字符识别结果。

4 总结

本文主要介绍了基于压缩近邻的样本选择方法。样本选择的提出是为了有效减少样本数量,并且保证不降低训练精确度。在实验中进行验证,通过压缩近邻规则选取样本和深度卷积神经网络实验,证明其能够减少训练样本,提升训练速度,降低存储空间还可以提高识别正确率。

参考文献

[1]郝红卫,蒋蓉蓉.基于最近邻规则的神经网络训练样本选择方法[J].自动化学报,2007,33(12):1247-1251.

[2]姜文瀚.模式识别中的样本选择研究及其应用[D].南京理工大学,2008.

[3]余凯,贾磊,陈雨强.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(09):1799-1804.

第3篇:卷积神经网络的发展范文

关键词:卷积神经网络;深度学习;年龄分类

0引言

人脸作为人类个体鲜明显著的生物特征之一,包含着丰富的个人信息。随着计算机视觉和机器学习技术的发展,相关的人脸识别等技术已成为这些项目任务的热点课题,并在法医、电子化客户关系管理、安防、生物识别和娱乐影音等诸多领域中得到广泛应用。人脸除了可进行身份认证和识别外,还可以提取出性别、种族和年龄等信息,特别是可以将年龄及分布特征用于人机交互和商业智能等应用中,因此年龄估计研究具有重要的科学意义和实用价值。

相对于人脸识别,人脸所能表征的年龄信息要受到很多因素的影响,例如不同个体的基因差异、生活习惯、环境、抗压能力、健康情况和种族差别等有很大的关系。同时,相同个体因发型、化妆和表情的不同也会影响年龄的估计。因此,如果要基于传统的分类算法(如支持向量机)并利用人脸图像信息来进行年龄分类将很难得到理想的结果。针对这些问题,目前的研究还相对不足,如果能有效解决上述问题,对大部分潜在的应用领域也都将带来深刻的影响。

1相关工作

年龄分类的主要流程是先根据人脸图像获取特征,再通过机器学习方法构建模型,通过把年龄分为多个年龄区段,即每个年龄段对应一个类别(比如未成年或成年人等)。因此可以把年龄分类看成是一个二分类或者多分类的分类问题来进行求解。1994年,Kwon和Lobo则从人脸图像中获取年龄分类,把人分为3种不同的类别,也就是儿童、青年人和老年人,强调重要特征点的选择。2002年Lanitis等人提出了能自动对年龄实现估计的年龄量化方法。而且,王先梅等的综述中也整体梳理了相关年龄估计技术的研究发展。王绍宇等人还基于SMV采用生物特征对人进行分类,分为小孩和成人。此外在2016年,董远等人更将迁移学习和卷积神经网络用于人的年龄和性别分类。

第4篇:卷积神经网络的发展范文

黑科技?神经网络是个什么鬼

说到神经网络,很多朋友都会认为这是一个高大上的概念。从生物学角度来说,人类复杂的神经系统是由数目繁多的神经元组合而成,它们互相联结形成神经网络,经过对信息的分析和综合,再通过运动神经发出控制信息,从而实现各种精密活动,如识别各种物体、学习各种知识、完成各种逻辑判断等。

随着人工智能技术的发展,科学家开发出人工神经网络,它的构成原理和功能特点等方面更加接近人脑。它不是按给定的程序一步一步地执行运算,而是能够自身适应环境、总结规律、完成某种运算、识别或过程控制。比如多伦多大学的Krizhevsky等人构造了一个超大型卷积神经网络,有9层,共65万个神经。第一层神经元只能识别颜色和简单纹理,但是第五层的一些神经元可以识别出花、圆形屋顶、键盘、乌、黑眼圈等更为抽象丰富的物体(图1)。因此神经网络实际上是基于人工智能技术而形成的一种和人类神经网络相似的网络系统。

媲美Photoshop 神经网络磨皮技术背后

如上所述,现在神经网络技术发展已经非常迅猛,而且运用在各个领域。神经网络磨皮则是指该技术在照片识别和美化方面的运用。那么它是怎样实现对照片的美化?在Photoshop中磨皮操作是用户先选中人脸区域,然后再使用Photoshop内置的方法实现磨皮。神经网络磨皮原理类似,只不过这些操作是自动完成的。

首先是对照片人脸识别。要实现对照片的美容就必须先精确识别人脸,由于人脸有五官这个显著特征,因此神经网络磨皮技术只要通过机器对一定数量的人脸照片进行识别、读取,然后就可以精确识别人脸。它的原理和常见的人脸识别技术类似(图2)。

其次则是美化。在完成人脸识别后就需要对美化操作进行机器学习,以磨皮为例。因为人脸的每个年龄阶段皮肤性质是不同的,为了达到更真实的磨皮效果,神经网络磨皮是实现用户“回到”幼年或者“穿越”到老年脸部皮肤的效果。研究人员将年龄段分类为0~18岁、19~29岁、30~39岁、40~49岁、50~59岁和60岁以上这几个阶段(图3)。

然后准备两个深度学习机器同时工作。两个机器一个用来生成人脸,一个用来鉴别人脸。而且两个机器会通过分析人脸图像,提前学习到各年龄段人脸大概是什么样子的。在每个年龄分组里,研究人员让机器学习超过5000张标记过年龄的人脸图像。通过大量的照片学习后,机器就可以学会每个年龄分组内的标签,它可以准确知道每个人不同年龄阶段的脸部特征。这样无论你是要磨皮为年轻时的皮肤光滑、圆润状态,还是要变为50岁以后皱褶、粗糙的皮肤,神经磨皮都可以轻松帮助你实现。

当然学习有个通病,就是在合成过程中,机器可能会丧失掉图片原有的识别资料(1D)。为了解决这个问题,上述介绍中的人脸鉴别机器就发挥功效了。它通过查看这个照片的识别资料是不是唯一的,如果不是的话照片则会被拒绝输出。研究人员让机器合成10000张从数据库中抽取出来的人像,这些照片之前从未用来训练机器。然后他们用开发的软件程序来检测训练前后的两张照片是否为同一个人,测试结果显示有80%经训练的照片都被认为和原照片是同一个人(而作为对比,用其他方法加工照片,平均测试结果只有50%)。举个简单例子,如果40岁的用户将自己磨皮为20岁的样子,如果软件程序来检测训练前后的两张照片为同一个人,那么就输出磨皮效果,从而让用户可以轻松磨皮到20岁的状态。这样经过训练的神经磨皮算法可以很真实地实现人脸的磨皮。

神经网络 不H仅是磨皮

第5篇:卷积神经网络的发展范文

根据美国New Scientist杂志报道,Facebook的人工智能团队已经开发出一种识别算法,即使看不清楚人脸,也能根据各种线索,例如发型、服饰、身材和姿势等进行识别―比如Facebook就能轻松地认出它的创始人扎克伯格,因为他总是穿一件灰色T恤。这项技术的准确率据称可以达到83%。

传统的人脸识别是程序员预先将整套鉴别系统写好,告诉计算机一些标签信息,例如,人脸是由哪几个部分组成、各个部分的相对位置等等。随后再用大量照片让计算机学习,对其进行训练―简单地说,就是事先给出标准答案,然后让计算机学习。

这种训练方式叫有监督学习,程序员像是老师一样给出几个标签作为标准答案,让计算机“按标索脸”。但当程序员给出的标签数量不够多,不能全面描述一个事物的时候,计算机的识别准确率就会很低。所以,程序员要做的就是不断增加标签,完善识别模板。

通过有监督学习的方式来训练计算机,效率较低,程序员需要花费大量的时间来编写标签代码、测试计算机和补充标签代码,并且一套完善的鉴别系统只能识别出一种事物。

Facebook是不会花时间给每个人的发型和衣服写一套代码的。高效地识别各类事物,还需要借助于更智能的识别方式。而这种方式是通过基于卷积神经网络的无监督学习完成的。

使用无监督学习来训练计算机的时候,程序员并不需要告诉计算机人脸有哪些特点,只需要提供大量人脸照片让计算机看,计算机就能找到这些图片的共同特点,并自动绘制出这类事物的模板。这省去了编写标签代码的过程,识别的效率极大提高。

Google的“猫脸识别”系统就是这样的工作原理。这个由1000台计算机、1.6万个芯片组成的系统在“学习”了数百万张猫脸图片后,将边界、亮度、形状、色彩和局部形状等多个特征分类,做成标签,绘制模板。

当再看到一张图片后,系统会逐级对其进行识别。比如先判断图像的特定方位、位置边沿的有无,再通过不同的形状来检测局部图案,接下来则是将局部图案与模板中物体的相应部分匹配。后续的层级会把这些局部组合起来从而识别出整体。最后,系统将图片中的猫脸识别出来,并与之前学习过的数百万张猫脸图片归为一类。

这其实和人类的思维以及识别事物的过程十分相似。由于绝大多数图片都是由多种事物组成的,无监督学了自行绘制模板,还会将不同事物进行分类,进而分类绘制模板。

“卷积就是匹配的意思。”微软(亚洲)互联网工程院资深研发总监胡睿对《第一财经周刊》说,“我们有几千个或者几万个模板在一个卷积神经网络里面。如果新来一张图片,就用这些模板去做卷积,再通过神经网络推理出它到底是模板中的哪一类。”

Facebook的新技术使用的也是卷积神经网络。要知道,卷积神经网络技术正是Facebook的人工智能实验室负责人Yann LeCun,在1980年代末开发出的。2003年,他成为纽约大学的教授。而移动互联网的兴起带来的海量数据,为这一技术的进一步发展提供了极大可能。

如今,在互联网巨头公司中,Facebook拥有基于社交网络的大量图片,这一点非常吸引LeCun。2014年,他加入了Facebook,把实验室从学校搬到了公司。

除了丰富的图片资源,Facebook还有一项更大的优势:作为全球最大的社交网站,它能获取照片的拍摄地址、分析用户的社交关系,并在此基础上识别出照片中的人物。也就是说,即使在一些照片中,你的脸不是很清楚,并且其他和你相关的信息也比较缺乏,但是Facebook会根据你以往的消息推断出这张照片是在哪儿拍的,照片中哪个人是你,甚至你旁边那些脸部同样模糊的人都是你哪些朋友。

“Facebook需要解决的问题,并不是从50亿个人中把你挑出来,”胡睿说,“它只需要从几百个或者上千个与你有关系的人中间把你挑出来,这样问题其实极大地简化了。”

Facebook的研究人员表示,这项技术未来可以用于其Moments的照片分享。Moments是不久前Facebook推出的一款私密照片分享应用,主要是用来让好友间的图片交换与分享变得更方便。

不过目前,这项“不看脸识人”的技术还没有被应用在它Facebook的产品中,或许其中一个原因是,它还很难达到传统人脸识别技术的高准确率。Facebook也承认,这个算法并不十分完美。尤其,基于服饰的判断无法做到百分之百准确,毕竟,不是所有人都像扎克伯格那样,每天穿着同样的衣服。

第6篇:卷积神经网络的发展范文

关键词:BP神经网络;Morlet小波;决策理论;Hilbert变换

中图分类号:TP18文献标识码:A文章编号:1009-3044(2009)32-9050-02

Wireless Signal Simulation Algorithm for Automatic Identification

ZHANG Meng

(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)

Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.

Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform

在军事电子对抗等多方面的重要应用,通信信号调制的自动识别分类问题也相继发展起来。无线电信号调制实识别就是要判断截获信号的调制种类。为此,需要事先对其特征进行选定,并确定它们与相应调制种类相联系的取值范围,然后再对信号进行特征测量,并根据测量结果对信号的调制进行分类判决。

如果把无线电信号的调制识别与分类视为一种模式识别问题,那末,从模式识别理论来看,模式分类是模式识别的一个子系统。因此,在模式识别理论框架下,无线电信号的调制识别是一个总体概念。而调制分类则只是调制识别的一个分支[1]。

1 基于决策理论的模拟调制方式识别方法

此算法主要实现区分AM、FM、DSB、LSB、USB、VSB、AM-FM等七种调制样式,所分析的对象序列s(n)是由接收机中频输出并经过采样得到的,这样s(n)的采样频率和载频都已知,分别记做Fs和Fc。算法分两个步骤:

第一步,根据信号的包络特征将AM、USB、LSB与FM区分开,因为前三种信号的包络不为恒定值,而FM的包络理论上是恒定值(实际中接近恒定)。因而可以从中提取一个特征参数R。参数R反映了零中心归一化包络的功率谱特征,FM的零中心归一化包络接近零,因其参数R应远远小于前三种信号。实际中若R

第二步,根据信号频谱的对称性,将AM与USB与LSB区分开,因为AM的单边频谱关于载频是近似对称的,USB和LSB的单边频谱对于载频来说分别只有上边频和下边频。因而可以从中提取另一个特征参数 。理论上,由于AM的上下边频对称,所以AM的P接近零,而LSB和USB的P分别接近1和-1。实际中若|P|< 0.5,判为AM信号,若P>0.5,判为LSB,P

第三步,零中心非弱信号段瞬时相位非线性分量绝对值的标准偏差:σap 。

σap由下式定义:

(1)

式中,at是判断弱信号段的一个幅度判决门限电平,c是在全部取样数据Ns中属于非弱信号值的个数,?准NL(i)是经零中心化处理后瞬时相位的非线性分量,在载波完全同步时,有:?准NL(i)= φ(i)-φ0

式中:,φ(i)为瞬时相位。用σap来区分是DSB信号还是AM-FM信号。

第四步,零中心非弱信号段瞬时相位非线性分量的标准偏差:σdp。

σdp由下式定义:

(2)

σdp主要用来区别不含直接相位信息的AM、VSB信号类和含直接相位信息的DSB、LSB、USB、AM-FM信号类,其判决门限设为t(σdp) 。

2 决策论方法的改进

前面介绍的基于决策理论的模拟调制方式识别方法存在缺陷针对上述问题,人们又提出了基于神经网络(NN)的识别方法。

2.1 BP网络作为分类器的模拟调制方式识别方法

该算法用基于有监督训练的神经网络模型BP网络作为分类器,用BP模型多层感知网络与反向传播学习算法相结合,通过不断比较网络的实际输出与指定期望输出间的差异来不断的调整权值,直到全局(或局部)输出差异极小值,不难想象该神经网络对模型细节中的诸多问题均有良好效果。

基于NN的模拟信号调制识别框图[2]如图1所示,该NN采用三层结构即,1个输入层,1个输出层,1个中间层。中间层可采用多层。但由于受到计算复杂性的限制,目前采用单层或双层中间层的NN比较多见。本图中间层采用单层25个节点,输入层和输出层的节点数取决于信号特征参数的个数和信号的分类数,因而分别为4和7。

神经网络具有信息分布式存储、大规模自适应并行处理和高度容错特性,适用于模式识别的基础。其学习能力和容错特性对不确定性模式识别具有独到之处[3]。通信信号在传播过程中受到信道噪声的污染,接受到的信号是时变的、非稳定的,而小波变换特别适用于非稳定信号的分析,其作为一种信息提取的工具已得到较广泛的应用。小波变换具有时频局部性和变焦特性,而神经网络具有自学习、自适应、鲁棒性、容错性和推广能力,两者优势的结合可以得到良好的信号模式自动识别特性,从而形成各种处理方法。

2.2 基于小波的特征提取和识别方法

小波特别适用于非稳定信号的分析,作为一种特征提取的工具已得到较为广泛的应用。小波的重要特点是它能够提供一个信号局部化的频域信息。小波变换能够将各种交织在一起的不同频率组成的混合信号分解成不同频率的块信号,它对不同的时间和频率有不同的解释,因此,对调制信号进行小波分解,得到不同水平下的细节信息,这些信息对于不同类别的调制信号来说是有差别的[4]。

在实际应用中,小波变换常用的定义有下列两种:

(3)

(4)

式中,星号*表示共轭。式(3)表示小波变换是输入信号想x(t)和小波函数φα, τ(t)的相关积分;式(4)用卷积代替了相关积分。两种定义在本质上是一致的。本为采用后者。

将式(4)中的τ和t离散化,即令τ=kTs,及t=iTs,得连续小波变换公式(4)的离散形式,又称小波系数:

(5)

Morlet小波是一种单频复正弦调制高斯波,也是最常用的复值小波。其实、频两域都具有很好的局部性,它的时域形式如下:

(6)

虽然信号特征有很多种,神经网络在进行信号识别时,主要是依据谱峰位置的不同,因此提取信号特征主要任务就是寻找信号类别与谱峰位置间的必然联系。而小波变换在这里则相当于一个数学显微镜,通过它,可以详细了解各类信号在不同低频段上的频谱构成。

整个系统在PC机上进行仿真,采用Windows2000操作系统和Matlab6.1和Cool Edit2.0进行声音录制。

在仿真中,采用44K的采样率,录制了一段歌声和一段笑声,用Matlab生成22K的正弦载波,并根据第二章的各调制样式的定义,生成了各个仿真的调制波形。并转化成.wav文件录在电脑中。

3 结束语

本文仅限于理论理论研究,用MatLab仿真实现,没有用DSP芯片等物理电路实现,仅为实际实现提供理论指导。

参考文献:

[1] 罗利春.无线电侦察信号分析与处理[M].北京:国防工业出版社,2003.

[2] 杨小牛,楼才义,徐建良.软件无线电原理与应用[M].北京:电子工业出版社,2001.

第7篇:卷积神经网络的发展范文

当今世界,无线通信技术发展迅速,无线通信进入第五代(5G)时代需实现上千倍容量,毫秒延迟和大量的连接[1-2]。为了满足上述要求,一些关键技术,如大规模多输入多输出(Mul-tiple-InputMultiple-Output,MIMO),毫米波(MillimeterWave,mmWave)等已被提出。这些技术在工程应用中均表现出相同的特点,即具有处理大型无线数据的能力。对于无线通信,其对移动速度和通信质量具有较高的要求,然而在满足大数据和高速复杂场景中的通信需求中,传统的通信技术存在以下固有的局限性:(1)复杂场景中信道建模困难:通信的设计系统在很大程度上依赖于现实的信道条件。而在实际应用中,这些模型的建模在复杂的场景中变得十分困难[3]。例如,在大规模MIMO系统中天线数量的增加改变了信道属性[4],相应的信道模型存在未知的因素。很多情况下,信道不能用严格的数学模型来描述。因此,设计适合信道模型的算法必不可少。(2)鲁棒的信号处理算法的需求:使用低成本硬件,例如低功耗、低分辨率模数转换器[5]引入了额外的信号非线性失真,这需要使用高鲁棒的接收处理算法,例如,信道估计和检测的算法。然而,使用这些算法可能会增加计算的复杂度。在这种情况下,具有实时大数据处理能力且更有效和高鲁棒的信号处理算法是必需的。(3)块结构通信受限系统:传统的通信系统由几个处理模块,如信道编码、调制和信号检测,尽管研究人员多年来尝试优化每个算法的处理模块并在实践中取得成功,但并不能使得整个通信系统能得到最优的性能,因为通信的根本问题取决于接收端可靠的消息恢复[6]。因此,如果对每个模块进行的子优化替换为端到端的优化,就有希望进一步改进系统性能。深度学习(DeepLearning,DL)近年来因成功应用在计算机视觉、自动语音识别和自然语言处理等领域而获得广泛关注,是典型的大数据依赖的学习框架。同时,研究人员也把DL广泛应用到了无线通信的物理层[7-11]。与传统的机器学习算法[12-14]相比,DL显著增强了特征提取和结构灵活性。特别是基于DL的系统通过端到端优化灵活地调整参数来自动调整模型结构,这可以代替手动从原始数据中提取特征。基于DL的通信系统具有良好的应用复杂场景主要有如下原因:首先,DL是一种数据驱动的方法,其模型是在大型训练数据集上优化得到的,基于DL的通信系统不需要建立数学模型。其次,能够处理大数据也是DL重要的特点,DL采用分布式并行计算体系结构,保证了计算速度和计算速度处理能力。DL系统由于其拥有快速开发并行处理体系结构,如图形处理单元,在处理大数据上具有巨大的潜力。最后,基于DL的通信系统可实现整个系统性能的改进,因为模型经过端到端的训练优化了整体的性能,而对单个模块结构没有要求。本文旨在对近年来在基于大数据的DL在无线通信物理层的研究作出综述,本文的组织结构如下:第二节简要概述无线通信物理层的系统框图。第三节介绍了几个DL应用到通信物理层的示例。第四节讨论了未来研究的领域和挑战。第五节是全文总结。

1通信系统模型

它是一个模块结构,包括信道编码、调制、信道估计、信道均衡、信道译码和信道状态信息(ChannelStateInformation,CSI)反馈等模块。通信算法是在长期的研究中发展起来的,以优化通信系统其中的模块。之前有研究试图利用传统的机器学习方法,作为特定模块的替代算法。DL架构最近被引入到几个处理模块中以适应新兴的复杂通信场景,以期达到更优的性能。

2几个典型的DL应用到物理层的案例

本节给出了一些DL应用在通信物理层的典型例子,包括联合信道估计和信号检测、联合均衡和信号译码、大规模MIMOCSI压缩反馈和mmWave大规模MIMO混合预编码。下面分别进行介绍。

2.1联合信道估计和信号检测

一般信道估计和信号检测是接收机的两个独立过程。首先,CSI通过导频来估计,然后利用估计的CSI在接收端恢复发送符号。文献[7]提出了一种联合信道估计和信号检测方法。具体地说,一个带有五层全连接层的深度神经网络(DeepNeuralNetwork,DNN)用于联合信道估计和检测,这里将信道看作一个黑盒子。在离线训练中,发送数据和导频形成帧,然后这些帧经过一个时变信道。该网络把接收信号作为输入,通过训练网络来重构发送数据。当导频不足、去掉循环前缀和非线性失真几种情况下,基于DNN的信道估计和检测方法都优于最小均方误差方法。

2.2联合均衡和信号译码

文献[15]提出了一种联合均衡和信号译码的方法,该方法中在不知道CSI情况下,基于神经网络的联合均衡器和解码器可以实现均衡和译码。这里使用两个神经网络,首先,卷积神经网络(ConvolutionalNeuralNetworks,CNN)用于恢复失真的发送数据,然后DNN解码器对CNN网络均衡后的信号进行解码。实验结果表明,在各种信道条件下,该方法的性能优于其他基于机器学习方法。其中分别表示比特流符号,发送符号,接收符号,均衡后的符号和译码后的符号。

2.3大规模MIMOCSI压缩反馈

在频分双工网络中,大规模MIMO依赖于CSI反馈来实现基站端天线的性能增益。然而,大量天线导致过多的反馈开销。已经大量工作通过利用CSI的空间和时间的相关性来减少CSI反馈开销。利用CSI的稀疏特性,压缩感知(Compressedsensing,CS)已被应用于CSI压缩反馈中。然而,传统的CS算法面临挑战,因为现实世界的数据并不完全稀疏,现有信号恢复算法的收敛速度很慢,这限制了CS的适用场景。CsiNet[16]被提出来模拟CS信道压缩反馈的过程。取角延迟域的信道矩阵作为输入,编码器的第一层是生成两个特征图的卷积层。然后将卷积后的数据重新排列为N×1大小的适量,再利用全连接层生成M×1大小的压缩数据(MN)。由于不需要CS测量矩阵,减少了反馈开销。在解码器上,利用一个全连接层、两个残差层和一个卷积层对压缩的CSI进行重构。结果表明,CsiNet算法在不同压缩比和复杂度上的性能明显优于基于CS的方法。

2.4基于DL的mmWave大规模MIMO混合预编码

mmWave一直被认为是一种5G的重要方案,其中混合模拟和数字预编码是一种重要的可以减少硬件复杂性和能耗的方法。然而,现有的混合预编码方案受限于高计算复杂度,且不能充分利用空间信息。为了克服这些局限性,文献[17]提出了一个基于DL的mmWave大规模MIMO混合预编码框架,其中每个预编器的选择被视为一种DNN的映射关系。具体地说,通过训练DNN选择混合预编码器来优化mmWave大规模MIMO的预编码过程。实验结果表明,基于DNN的混合预编码方法能降低mmWave大规模MIMO的误码率和增强频谱效率,在保证更优的性能的同时,能大大减少所需的计算复杂度。

3挑战

DL在无线通信系统物理层中的应用是一个新的研究领域,虽然已有的研究表现出了较好的结果,但是在未来的研究中一些挑战值得进一步探讨。(1)模型的选择在基于DL的通信框架下,神经网络的设计是核心挑战。许多基于DL的技术都是按照通用模型开发的。例如,计算机视觉总是使用CNN,而LSTM则通常用于自然语言处理领域。然而,我们想知道是否有基于DL的无线通信模型,我们认为,通用模型将有助于在实践中得到实现。在工程项目中,不仅通用模型提高了优化通信框架的便利性,也可以减少模型选择的成本和时间。在可以得到通用的模型之前,这个问题还需要广泛的探索。(2)系统性能与训练效率的权衡现有的工作表明了基于DL的数据驱动模型在物理层通信中的强大功能。然而,即使DL可以通过端到端学习来优化通信系统性能,当所有通信模块被融合在一起时,训练过程将花费很长时间。为了提高训练效率,达到良好的系统性能,可以保留部分通信模块,以实现训练效率和系统性能两者之间的权衡。(3)严谨的数学证明和基本的理论总的来说,基于深度学习的通信框架的性能已经在信道估计、均衡、CSI反馈等场景得到了证明,然而,我们还没有推导出严谨的数学证明和基本的理论来进一步验证其框架的性能。推导出基本的理论也会有所帮助我们了解通信框架,这将是改进网络和开发更高效的通信框架的基础。同时,训练所需的训练集大小也是不一定的,基于DL的通信框架是否能得到最优的性能仍然存在不确定性。(4)真实数据集的获得近年来DL技术应用于各种领域,并且得到飞速发展,这很大程度上归功于能够获得真实的开源数据集。训练和测试数据集的质量和数量对基于DL框架的性能有很大的影响。在计算机科学领域,随着自然语言处理,计算机视觉和自动驾驶的飞速发展,已经提供了许多公开的的数据集,如ImageNet和MNIST。然而,在基于DL的无线通信领域,虽然有一些数据集可以应用于某些领域,但目前存在的可用数据集很少。为了便于研究,未来还需要有一些可靠的数据集。

第8篇:卷积神经网络的发展范文

关键词:人工智能;云计算;大数据

最近火热的美剧《西部世界》里传递出很多关于人工智能的信息,在围绕如何突破机器极限,形成自主意识方面,提出了富有科幻现实色彩的方法-冥想程序, 将意识形成描绘成了“走迷宫”的过程,同时在道德层面又一次将“人工智能是否能成为有别于人类的另一个物种”的问题呈现在广大观众面前。

“人工智能”(AI)这一概念最早由马文・明斯基和约翰・麦卡锡于1956年的“达特茅斯会议”上共同提出。1960年,麦卡锡在美国斯坦福大学建立了世界上第一个人工智能实验室。经过近几年互联网的飞速发展,AI对企业甚至是行业产生了巨大而又深远的影响。机器学习,尤其是深度学习技术成为人工智能发展的核心。越来越多的硬件供应商专为深度学习和人工智能定制设计芯片。如IBM的人脑模拟芯片SyNAPSE(Systems of Neuromorphic Adaptive Plastic Scalable Electronics,自适应塑料可伸缩电子神经形态系统)芯片,含有100万个可编程神经元,2.56亿个可编程突触,每消耗一焦耳的能量,可进行460亿突触运算。

云计算和大数据作为人工智能的基础, 在工业制造等众多场景中得到了广泛应用,比如很多工厂都在传送带上加装了传感器,将压力、温度、噪音和其他一些参数实时传到云端,将工厂真正连上网络,然后利用人工智能的算法对这些数据进行比对,由此提前为工厂提供预警和远程检测服务。这种将生产流程及产品通过物联网连接到云端,然后利用算法进行大数据分析的模式,将在更多的行业被广泛应用。

目前人工智能主要有10个应用子领域,分别是机器学习、计算机视觉、智能机器人、虚拟个人助理、自然语音处理、实时语言翻译、情感感知计算、手势控制、推荐引擎及协同过滤、视频内容自动识别。各方向处于不同的发展阶段,发展程度有高有低。但驱动发展的先决条件主要体现在感知能力、理解能力、学习能力、交互能力四个方面。

1 感知能力

目前人工智能的感知主要通过物联网来实现,它提供了计算机感知和控制物理世界的接口与手段,能够采集数据、记忆,分析、传送数据,进行交互、控制等。比如摄像头和相机记录了关于世界的大量图像和视频,麦克风记录了语音和声音,各种传感器将它们感受到的世界数字化。这些传感器就如同人类的五官,是智能系统的数据输入,是感知世界的方式。

2 理解能力

智能系统不同于人脑,没有数以千亿的神经元,对事物问题的理解在现阶段还很大程度上依赖于处理器的计算分析能力。近年来,基于GPU(图形处理器)的大规模并行计算异军突起,拥有远超CPU的并行计算能力。从处理器的计算方式来看,CPU计算使用基于x86指令集的串行架构,适合尽可能快的完成一个计算任务。而GPU诞生之初是为了处理3D图像中的上百万个像素图像,拥有更多的内核去处理更多的计算任务。因此GPU具备了执行大规模并行计算的能力。云计算的出现、GPU的大规模应用使得集中化数据计算处理能力变得空前强大。

3 学习能力

学习能力的培养类似人类需要教材和训练。据统计,2015年全球产生的数据总量达到了十年前的20多倍,大数据的发展为人工智能的学习和发展提供了非常好的基础。机器学习是人工智能的基础,而大数据和以往的经验就是人工智能学习的书本,以此优化计算机的处理性能。不可忽视的是近年来科技巨头为了提前布局AI生态,纷纷开源平台工具,极大地丰富了机器训练的素材和手段。如谷歌了新的机器学习平台TensorFlow,所有用户都能够利用这一强大的机器学习平台进行研究,被称为人工智能界的Android。IBM宣布通过Apache软件基金会免费为外部程序员提供System ML人工智能工具的源代码。微软则开源了分布式机器学习工具包DMTK,能够在较小的集群上以较高的效率完成大规模数据模型的训练,并于2016年7月推出了开源Project Malmo项目,用于人工智能训练。

4 交互能力

第9篇:卷积神经网络的发展范文

如果时光倒流500年,你会如何对当时的人们述说今日的世界?在那个时代,哥白尼刚刚发表日心论,伽利略还在比萨斜塔抛掷铁球,吴承恩还在用毛笔写着《西游记》。如果你对他们说:“嘿,老兄,我对着手上的这个‘黑色方块’说句话,它不仅能让你看到太阳系长什么样,告诉你什么是重力加速度,还能直接把唐僧要去西天取的经下载给你看。”他们可能会觉得你要么是神仙,要么是神经。

AI从诞生到现在已经有60年的时间,期间经历两轮起落,呈阶梯式进化,走到今天进入第三个黄金期。如果按照其智能水平划分,今天的人工智能尚处在狭义智能向广义智能进阶的阶段,还是一名不折不扣的“少年”,未来拥有无限的可能和巨大的上升空间。

AI是一门交叉的学科:人工智能由不同的技术领域组成,如机器学习、语言识别、图像识别、自然语言处理等。而同时,它也是一门交叉学科,属于自然科学和社会科学的交叉,涉及到哲学和认知科学、数学、神经生理学、心理学、计算机科学、信息论、控制论、不定性论等学科。因此人工智能领域的技术壁垒是比较高的,并且会涉及到多学科协作的问题,对任何公司来说,想做好人工智能将是一门大工程。未来不大可能出现一个公司能包揽整个人工智能产业每一个部分的工作,更可能的模式将是一个公司专注于一个相对细分的领域,通过模块化协作的形式实现人工智能领域的不同应用。

进化史呈阶梯状,以阶段突破式为成长模式:人工智能的发展经历了两次黄金和低谷期,

现在正经历着第三个黄金期。1956年,麦卡赛、明斯基、罗切斯特和申农等年轻科学家在达特茅斯一起聚会,并首次提出了“人工智能”这一术语,标志着人工智能的诞生。第二年,由 Rosenblatt 提出 Perceptron 感知机,标志着第一款神经网络诞生。1970年,因为计算能力没能突破完成大规模数据训练,人工智能的第一个黄金期到此结束。

后直到1982年德普霍尔德神经网络的提出,人工智能进入第二个黄金期,之后BP算法的出现使大规模神经网络训练成为可能,人工智能的发展又一次进入。1990年,因为人工智能计算机和DARPA没能实现,政府撤资,人工智能又一次进入低估。2006年,随着“深度学习”神经网络取得突破性进展,人工智能又一次进入黄金时期。

AI将由狭义智能向广义智能进化,虽然人工智能的诞生已经有60年的时间但如果把它比喻成一个人的话,当前的他应该还未成年。按照人工智能的“智能”程度,可以将其分成狭义智能、广义智能、超级智能三个大的发展阶段,现阶段的图像与语音识别水平标志着人类已经基本实现狭义智能,正在向广义智能的阶段迈进。

狭义智能:即当前的技术已经实现的智能水平,包括计算智能与感知智能两个子阶段,计算智能指的机器开始具备计算与传递信息的功能,感知智能指机器开始具备“眼睛”和“耳朵”,即具备图像识别与语音识别的能力,并能以此为判断采取一些行动。

广义智能:指的是机器开始具备认知能力,能像人类一样获取信息后主动思考并主动采取行动。在这个阶段,机器可以全面辅助或代替人类工作。

超级智能:这个阶段的机器几乎在所有领域都比人类聪明,包括科学创新、通识和社交技能等。这个阶段目前离我们还比较遥远,到时候人类的文明进步和跨越或许将有赖于机器,而机器人意识的伦理问题也许将在这个阶段成为主要问题。

推荐引擎及协同过滤可以分析更多的数据

智能助手并不只局限于Siri等手机语音助手。微软率先在win10 系统中加入个人智能助理Cortana,标志着个人PC端智能助理的出现;图灵机器人以云服务的方式进入海尔智能家居、博世mySPIN车载系统,预示着多场景人工智能解决方案的潮流。初步实现人机交互的智能助手系统,已经被应用于智能客服、聊天机器人、家用机器人、微信管理平台、车载系统、智能家居系统、智能手机助理等多个软硬件领域。

垂直类网站及社交平台可以借助智能助手系统打造高专业度的“在线专家”以提升平台价值;企业可以借助以“语义识别”为基础的智能助手系统,打造智能客服,效率远高于传统的以“关键词对应”为技术支持的客服系统。

推荐引擎,是主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。挖掘用户的喜好和需求,主动向用户推荐其感兴趣或者需要的对象。传统推荐引擎通常利用用户在平台上的历史记录进行推荐,效率低、匹配度不高。目前随着大数据和深度学习技术的推进,推荐引擎及协同过滤可以分析更多的数据,乃至全网数据,并模拟用户的需求,真正达到按需推荐。全球最大的正版流媒体音乐服务平台Spotify也利用卷积神经网络参与建设其音乐推荐引擎;谷歌也提出利用深度学习方法来学习标签进行推荐建设。出品纸牌屋的全球最大在线影片租赁公司Netflix 也利用深度学习网络分析客户消费的大数据,还计划构建一个在AWS云上的以GPU为基础的神经网络。

“餐厅推荐引擎”Nara,便是一个利用AI技术的推荐引擎。在上线之初,Nara 就取得了400万美元的投资。Nara 的数据库中有超过100000家餐厅的信息,并利用特有的“Nara神经网络”,学习使用者的偏好,最终达到“电脑帮你点餐”的目的。

而今年3月22日,国内AI领军企业阿里巴巴旗下的阿里云数加启动“个性化推荐”引擎对外公测,该引擎用于帮助创业者可以快速获得媲美淘宝天猫的个性化服务能力。阿里云数加上的推荐引擎能够以更低的成本完成开发,节省程序量达到90%,推荐引擎的搭建时间将由几个月缩短到几天。

对于不了解算法的人,只能实现标签规则类的推荐,但如果要做成机械化、类似协同过滤的算法,创业公司需要配置大量的算法工程师,人力成本很高。现在用了数加的推荐引擎,商家只需要做数据的ETL加工,推荐的结果集、训练集都不用处理,只需要调整参加即可得到推荐结果。

AI带给人们新的视觉???

医疗:为健康诊断和药品研发插上高飞的翅膀

健康诊断有望迎来新纪元,海量的病历数据和医学界的新研究成果,单靠人工很难及时筛选并利用,而引入人工智能技术将充分发挥这些信息的价值。例如著名的个人健康管理产品公司Welltok将 IBM的Watson功能融入旗下产品 CafeWell Concierge APP中,借助 Watson 的认知计算能力理解人类语言,实现与用户沟通的能力,从大量数据中进行分析并为用户提供健康管理相关的答案和建议,实现健康管理、慢病恢复训练、健康食谱等功能,这一领域的良好前景使 Wellltok公司近年的融资额连创新高。另外,2015年IBM斥资10亿美元收购医疗影像与临床系统提供商Merge,将研究如何实现 Watson的“辨读”医学影像功能。此外,AI 还可以从医疗中心获得的健康数据,通过大数据分析,实现根据分析患者行为来制定个性化治疗方案的功能。

智能家居:天花板尚远,AI有望成为核心

行业天花板尚远,增速有望保持在 50%左右, 《钢铁侠》中的“Jarvis”作为智能管家,除了起到钢铁侠的小秘书的作用,还帮主人打理着日常生活,向我们展示了一个理想中的智能家居系统。虽然我们目前可能离那个无所不能的智能管家还很遥远,但智能家居对我们生活的变革确实已经开始了。根据《2012-2020 年中国智能家居市场发展趋势及投资机会分析报告》的预测,我国智能家居市场在 2016年将达到605.7亿的规模,同比增长50.15%,到2020年市场规模将达到3294亿,年均增速将保持在50%左右,具备充足的向上延伸空间。而智能家居想达到“Jarvis”般的终极效果,必然需要引入AI技术,实现家居的感应式控制甚至自我学习能力。

AI有望成为智能家居的核心,实现家居自我学习与控制。按照智能家居的发展进度,大致可以分为四个阶段:手机控制、多控制结合、感应式控制、系统自我学习。当前的发展水平还处在手机控制向多控制结合的过度阶段。而从多控制结合向感应式控制甚至自我学习阶段进化时,AI将发挥主要功能。到今天为止,家居的实体功能已经较为全面,未来的发展重点可能在于如何使之升级改造,实现家居的自我行为及协作,因此未来AI在智能家居领域的应用有望成为其核心价值。AI对智能家居的重构可以深入到方方面面,包括:控制主机、照明系统、影音系统、环境监控、防盗监控、门窗控制、能源管理、空调系统、花草浇灌、宠物看管等等。

无人驾驶:政策渐萌芽,AI决定可靠性

优点多、动机足、政策渐萌芽。据麦肯锡的调查显示,如果能解放驾驶员的双手,一辆无人驾驶汽车内的乘客通过移动互联网使用数字媒体服务的时间多一分钟,每年全球数字媒体业务产生的利润将增加 50亿欧元。此外,由于自动泊车无须为乘客下车预留开门空间,使得停车位空间可缩减至少15%。

如果无人驾驶汽车以及ADAS系统能够将事故发生率降低90%,即可挽回全美每年的损失约1千900亿美金。可以说诸多的优点使得无人驾驶技术的研发动机还是相当充分的,因此未来无人驾驶推行的力度应该还会保持在一个比较高的水平。美国勒克斯研究公司曾预计无人驾驶汽车的市场规模在2030年将达到870亿美元。

到目前为止,各国政府对于无人驾驶技术在政策上的支持正逐步放开,美国政府在年初刚刚宣布了40亿美元的资助计划;英国目前已经不需要获得额外批准和履约保证即可进行实际道路的无人驾驶汽车测试;而德国也在去年宣布将计划设立无人驾驶汽车测试路段,供安装有驾驶辅助系统或全自动驾驶系统车辆行驶;欧盟总部正在就如何修改现行有关驾驶的法律法规从而支持自动驾驶的发展展开讨论和研究工作;日本也提出要在2020年之前实现自动驾驶汽车方面的立法,并将自动驾驶作为 2016年9月七国集团交通部长会议的议题。

“无人汽车大脑”AI的智能程度决定了无人驾驶的可靠性。由于无人驾驶完全交由汽车的内置程序负责,因此AI就是无人汽车的大脑,而测距仪、雷达、传感器、GPS等。设备都是AI的“眼睛”。AI的智能程度直接决定了无人驾驶汽车在不同的路况、不同的天气、甚至一些探测设备出现故障的突况下能否及时做出正确的判断并灵活调整行驶策略,最终决定了无人驾驶汽车当前最亟待突破的可靠性。

NVIDIA 在2016年的 CES大会上了“Drive PX 2”车载计算机,以及一套与之搭配的具有学习功能的自动驾驶系统。该系统的亮点在于“自我学习”,通过让车辆自行分析路面状况,而不是在数据库中寻找预先储存的策略实现自动驾驶,系统背后连接着名为NVIDIA DIGITS的深度学习训练平台,最终连接到NVIDIA DRIVENET神经网络,为车辆的自我学习和完善提供支持。并且由于它是通过判断物体的行进轨迹而不是物体本身去计算路径,因此在驾驶时受天气影响较小。

AI 成必争之地

目前全球AI主战场依旧在欧美。Venture Scanner的统计显示,根据从事 AI相关业务的公司数量来看,目前全球 AI的主战场还是集中在北美和西欧地区。美国数量最多,达到450家左右的水平。而中国从事相关业务的公司数量还比较少,和俄罗斯、澳洲、部分欧洲国家及非洲南部国家水平接近,相比起欧美国家的AI公司数量,还有很大的提高空间。

Google:投资未来的人工智能帝国

建立Alphabet帝国,具备品牌背书效应。2015年,谷歌成立母公司 Alphabet, 搜索、广告、地图、App、Youtube、安卓以及与之相关的技术基础部门”仍属于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都将独立出来,成为 Alphabet 旗下的独立公司。通过建立 Alphabet集团,谷歌将不同业务的研发独立出来,以子公司的形式进行业务开展,保留在Google这个品牌下的基本都是原有的传统强势业务。

而其它公司负责在各自的领域“打头阵”,一旦业务研发成功,母公司连带着google这个品牌都可以受益,而如果研发失败,也不会公司的品牌造成多大的不良影响,建立了良好的品牌背书效应。将机器学习技术应用到所有产品之中,我们不难发现,谷歌近年几乎将人工智能渗透到了旗下的各类产品中,可谓是全线铺开。正应了谷歌 CEO的那句话:“我们将小心谨慎地将机器学习技术应用到我们所有的产品之中。”根据当前Alphabet 的集团架构,我们将涉及到AI应用的子公司情况以及相应的业务开展情况罗列如下:

Nest:从事智能家居生态系统建设。2014 年谷歌以32亿美元收购 Nest。Nest 生产智能恒温器,它能够学习用户的行为习惯,并且根据他们的喜好去调节温度。同时,Nest 也提供火警探测器和家庭安全摄像头等智能家居。

Google X:谷歌各类创新技术的“孵化池”。Google X开展的与AI有关的项目有:无人驾驶汽车、Project Wing 无人机送货项目、对抗帕金森氏症的 Liftware“反抖”汤匙、用于疾病预警和健康监控的可穿戴设备、Project Titan 太阳能无人机项目、以及 Replicant 团队负责的机器人项目等。

Verily:从事生命科学业务,即原来的 Google Life Science。代表产品有可以收集佩戴者体温和血液酒精含量等生物数据的智能隐形眼镜,以及监控血液中纳米粒子的智能腕表。

DeepMind:深度学习算法公司。2014年谷歌以4亿美元收购了DeepMind。