前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的神经网络情感分析主题范文,仅供参考,欢迎阅读并收藏。
【关键词】微博数据;神经网络;电影票房;预测模型
1.引言
据2011年IDC的《Digital Universe Sduty》报告显示,数据以每年超过50%的速度增长,全球信息总量每过两年就会增长一倍。在众多产生大数据的平台中,Twitter、新浪和腾讯微博等使用简单便捷、信息丰富、传播速度快、更新迅速、影响范围广,新浪微博是中国微博产业的主导力量。
电影作为一种生存期短的商品,对其票房的预测难度较大,当前关于电影票房的研究较少。Kyung Jae Lee和Woojin Chang(1999)用贝叶斯网络研究票房的影响因素,给出了预测模型[1]。Sharda R和Delen D(2006)利用影响电影票房的多个属性,以多层神经网络算法为基础,提出一种电影票房分类模型[2]。Marshall P等(2013)提出使用电影历史数据预测电影上映期间的累计观众数量,使用多元线性回归算法预测第1周的观众人数,再用其预测后几周的观众总数[3]。王铮和许敏(2013)基于Logit 模型的研究电影票房的影响因素发现明星和导演存在显著的票房效应[4]。郑坚和周尚波(2014)利用神经网络算法,提出一种基于反馈神经网络的电影票房预测模[5]。
电影上映前,主创人员会对电影进行微博宣传,对电影有潜在消费欲望的网友会关注这些并评论和转发。对粉丝数多的用户,这是一种便宜、高效、传播范围广且迅速的营销方式。本文在此研究基础上,尝试利用神经网络方法,基于微博数据对电影票房进行预测性研究。
2.相关数据收集和处理
2.1 确定数据指标
本文采用新浪微博的相关数据来对电影票房预测研究,选取电影主创的粉丝数,相关转发量和评论量作为票房预测的指标体系(见图1)。
因此,在对票房进行相关分析时提取以电影名称为关键词的相关主创的微博,统一选取电影主演1、主演2、导演的粉丝数、相关微博评论量、转发量作为研究指标并收集数据。粉丝数、转发量和评论量越大对票房的贡献率越大。
图1 电影票房预测的数据指标
2.2 数据收集
电影的微博营销时间通常集中在上映之前和上映的几周之内。为了使本文的研究结果得到验证,本文选择的2013年上映的45部电影研究,电影名称见表1。
本文的数据收集流程见图2:
(1)搜索电影名称确定其导演和主要演员;
(2)查找主演和导演的个人认证微博中以电影名为关键词对其原创和转发的所有微博,收集其粉丝数量;
(3)收集有关电影所发微博的转发数和评论数。
2.3 数据处理
在收集数据时会遇到几个问题:
(1)有的电影主演没有个人认证微博,其粉丝数和转发数、评论数无法收集;
(2)有的电影主演的微博评论对粉丝关闭,只有互粉者可以评论;
(3)由于个人情感等原因,每部电影的相关转发数和评论数差距较大。
鉴于以上问题,需要对采集到的数据进行预处理。
(1)对于没开通微博的主演和导演,以和其影响力相同的微博账户来代替。
(2)对粉丝评论关闭的主演和导演,采用其的其他的微博转发数和评论数来近似替代,并采取转发数和评论数求均值来提高对比性。本文收集的电影的部分微博数据见表2、3。
表1 2013年上映的45部电影
序号 名称 序号 名称 序号 名称 序号 名称
1 西游降魔篇 13 不二神探 25 毒战 37 神奇
2 致青春 14 厨子戏子痞子 26 非常幸运 38 控制
3 私人定制 15 无人区 27 逃出生天 39 在一起
4 狄仁杰 16 扫毒 28 天台爱情 40 白狐
5 中国合伙人 17 盲探 29 激战 41 我爱的是你爱我
6 警察2013 18 101次求婚 30 我想和你好好的 42 越来越好之村晚
7 北京遇上西雅图 19 分手合约 31 等风来 43 意外的恋爱时光
8 小时代1 20 全民目击 32 笑功震武林 44 一场风花雪月的事
9 风暴 21 四大名捕2 33 摩登年代 45 超级经纪人
10 富春山居图 22 一夜惊喜 34 忠烈杨家将
11 小时代2 23 特殊身份 35 百星酒店
12 一代宗师 24 被偷走的那五年 36 宫锁沉香
图2 电影微博数据收集流程
表2 部分电影的微博数据
序号 名称 主1粉丝(万) 主1转发量 主1评论量 主2粉丝(万) 主2转发量
1 西游降魔篇 5334 753 1392 2455 1673
2 致青春 515 4379 4539 4208 9436
3 私人定制 412 1226 2055 1809 287
4 狄仁杰 515 819 558 1484 1867
5 中国合伙人 2118 8276 2817 1476 2772
6 警察2013 2216 4461 4574 3759 3519
7 北京遇上西雅图 516 2740 2833 556 5726
8 小时代1 2994 13201 12724 3335 7790
9 风暴 901 232 246 6687 2772
10 富春山居图 901 232 246 556 5726
表3 电影的微博数据
序号 名称 主2评论量 导演粉丝(万) 导演转发量 导演评论 票房
1 西游降魔篇 1979 1739 7060 5875 124603
2 致青春 7796 5712 2401 2109 71888
3 私人定制 173 1739 7060 5875 71210
4 狄仁杰 908 1 386 254 60036
5 中伙 1812 4 65 49 53857
6 警察2013 14724 4 324 72 53266
7 北京遇上西雅图 1979 6 38 22 51967
8 小时代1 5160 3168 22310 8069 48409
9 风暴 1812 1 400 100 31452
10 富春山居图 1979 1 400 100 30013
3.构建模型
3.1 研究工具
采用Spss Clementine12.0软件的神经网络节点构建模型。
3.2 构建神经网络预测模型
微博收集的相关数据采用神经网络来构建电影票房的相关预测模型,需要确定其输入层、隐藏层和输出层的神经元个数。神经网络模型结构见图3。神经网络模型的输入输出变量名和数据类型见表4。
图3 神经网络模型结构
表4 神经网络模型的输入输出变量名
图4 完整的模型图
4.实证分析
4.1 仿真实验
利用微博平台收集的有关45部电影的微博数据进行仿真实验时,使用45个数据的66%作为训练数据,34%作为测试数据,测试集和训练集是采取随机抽样的方法得到的,这两个部分的数据完全分离,没有重复样本。在实验中,将训练数据作为训练集对模型进行训练,使用测试集对模型进行测试。
将主1粉丝数、主1转发数、主1评论量、主2粉丝数、主2评论量、主2转发量、导演粉丝数、导演转发量、导演评论量的方向设置为输入,将票房设置为输出。将神经网络节点加入到模型中,设置神经网络的隐藏层数和每层的神经元数。在神经网络节点的专家选项中选择两个隐藏层,层1选择6,层2选(下转第16页)(上接第13页)择2。基于神经网络的完整模型见图4。
4.2 结果分析
利用微博数据进行建模之后,得出变量重要性见表5。基于数据的分析,可知导演粉和主2粉对电影票房预测模型有着很高的贡献率。如果某部电影导演的粉丝数、转发量和评论量大大高于其他电影导演,那么导演的指标的贡献率比主演的指标要高。在现实的电影票房中,小时代的导演郭敬明和致青春导演赵薇粉丝数、转发量、评论量都远超其他导演,票房也远比其他电影高。
表5 变量的重要性
变量名 变量重要性 变量名 变量重要性 变量名 变量重要性
主2粉丝数 0.24 导演评论量 0.124 导演转发量 0.041
导演粉丝数 0.183 主2转发量 0.117 主1评论量 0.032
主2评论量 0.181 主1粉丝数 0.058 主1转发量 0.025
经过神经网络模型使用训练集数据建模得到的模型的估计准确性为89.894%,即训练集数据的拟合优度为90%,从模型预测的精准性来看,数据量的增多会提高模型的预测结果。
4.3 模型评估
使用训练集数据建立基于神经网络的电影票房预测模型之后,要使用测试集数据对模型预测性能进行评估。本文使用相同的测试集数据分别对电影票房的线性回归模型和决策树模型进行测试,来比对神经网络的预测准确性。三种模型对测试集数据进行预测的平均相对误差见表6,平均误差见图5。可知运用神经网络预测模型具有良好的预测精确度。
表6 三种模型的平均相对误差 %
方法 平均相对误差
神经网络 82.42
C&RT 94.07
线性回归 104.55
图5 三种模型的误差对比图
5.结束语
本文利用Spss Clementine中的神经网络节点构建了电影票房的预测模型。通过结果分析得出电影票房与主演和导演粉、转和评和电影票房的关系,并给出了具体的预测模型。其精确度为89.894%,平均误差相对较小,具有一定的可信度。
但是,本文建模所用的电影数目为45个,进一步加大数据量可以提高模型的精确度,同时微博数据不局限于电影主创们的微博,还可以通过统计一定时间内以某部电影为关键词所发微博总量等数据来预测电影票房,增加输入神经元个数也能提高模型的准确性。下一步的研究可以将微博作为平台,将微博中关于某部电影的情感分析加入到电影票房的预测中,也可进一步考虑微博转发深度、评论活跃程度,以及相关微博数量随电影上映日期临近的变化趋势等数据,这些都可以被有效的提炼为特征并加入到模型中。
参考文献
[1]Ramya Neelamegham,Pradeep Chintagunta.A Bayesian Model to Forecast New Product Performance in Domestic and International Markets[J].Marketing Science,1999,18(2)115-136.
[2]Sharda R,Delen D.Predicting box-office success of motion pictures with neural networks[J].Expert Systems with Applications,2006,30(2):243-254.
[3]MarshallP,Dockendorff M,Ibanez S.A forecasting system for movie attendance[J].Journal of Business Research,2013,66(13):1800-1806.
【关键词】微表情识别 卷积神经网络 长短时记忆
1 引言
人们的内心想法通常都会表现在面部表情上,然而在一些极端环境下,人们为了压抑自己的真实内心情感时,他们的面部变化十分微小,我们通常称之为微表情。在刑侦、医学、教育、心理和国防等领域上,微表情的应用前景十分远大, 不过即便是经过训练的人也很难用肉眼来准确的检测和识别微表情。其主要原因就是它的持续时间短,仅为1/5~1/25s,而且动作幅度很小。
人脸表情识别技术早已发展到一定程度了,甚至不少研究团队提出的方法针对6种基本表情的识别率已经达到90%。然而微表情识别技术的研究在近几年来才刚刚开始,如Pfister等提出了一种结合时域插值模型和多核学习的方法来识别微表情; Wu等设计了一种使用Gabor特征和支持向量机的微表情识别系统;唐红梅等在LTP做出改进而提出的MG-LTP算法,然后采用极限学习机对微表情进行训练和分类;Wang等提出了基于判别式张量子空间分析的特征提取方法,并利用极限学习机训练和分类微表情。
上述的识别技术都是基于传统机器学习的方法,而近几年来,利用深度学习技术来解决图像识别问题是当前的研究热点。在ILSVRC-2012图像识别竞赛中,Krizhevsky等利用深度卷积神经网络的自适应特征提取方法,其性能远远超过使用人工提取特征的方法,并且在近几年内的ImageNet大规模视觉识别挑战比赛中连续刷新了世界纪录。
本文决定使用卷积神经网络(CNN)来提取人脸微表情特征,它能让机器自主地从样本数据中学习到表示这些微表情的本质特征,而这些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更为精确的识别微表情,这里我们采用长短时记忆网络(LSTM),它是递归神经网络(RNN)中的一种变换形式,它能够充分的利用数据的上下文信息,在对序列的识别任务中表现优异,近几年来它被充分的利用到自然语言处理、语音识别机器翻译等领域。综上所述,本文提出一种CNN和LSTM结合的微表情识别方法。
2 相关工作
2.1 卷积神经网络模型
卷积神经网络模型(CNN)最早是由LeCun等在1990年首次提出,现已在图像识别领域取得巨大成功,它能够发现隐藏在图片中的特征,相比人工提取的特征更具有区分度,而且不需要对原始数据做过多的预处理。
卷积神经网络(CNN)通过三种方式来让网络所学习到的特征更具有鲁棒性:局部感受野、权值共享和降采样。局部感受野是指每一个卷积层的神经元只能和上一层的一部分神经元连接,而不是一般神经网络里所要求的全连接,这样每一个神经元能够感受到局部的视觉特征,然后在更高层将局部信息进行整合,进而得到整个图片的描述信息。权值共享是指每一个神经元和上一层的部分神经元所连接的每一条边的权值,和当前层其他神经元和上一层连接的每一条边的权值是一样的,首先@样减少了需要训练的参数个数,其次我们可以把这种模式作为提取整个图片特征的一种方式。降采样是指通过将一定范围内的像素点压缩为一个像素点,使图像缩放,减少特征的维度,通常在卷积层之后用来让各层所得到的特征具有平移、缩放不变形,从而使特征具有更强的泛化性。
2.2 长短时记忆型递归神经网络模型
长短时记忆(LSTM)模型是由Hochreiter提出,它解决了传统RNN在处理长序列数据时存在的梯度消失问题,这一切都要归结于LSTM结构的精心设计。一个常规的LSTM结构如图1所示。
每一个LSTM结构都有一个记忆单元Ct(t表示当前时刻),它保存着这个时刻LSTM结构的内部状态,同时里面还有三个门来控制整个结构的变化,它们分别是输入门(xt),忘记门(ft)和输出门(ht),它们的定义如下所示:
(1)
(2)
(3)
(4)
(5)
(6)
其中σ是一个sigmod函数,而则表示输入数据的非线性变化,W和b是模型需要训练得到的参数。等式5展示了当前的记忆单元是由忘记门和上一时刻的内部状态所控制的,ft决定了上一时刻的内部状态对当前时刻的内部状态的影响程度,而it则确定了输入数据的非线性变换得到的状态对当前时刻记忆单元的影响程度。等式6展示了输出门和当前时刻的内部状态决定了该LSTM的输出。正因为这个巧妙的设计,LSTM就能处理长序列的数据,并且能够从输入序列中获取时间上的关联性,这一特性对于微表情的识别尤为重要。
3 网络结构调优和改进
3.1 卷积神经网络设计
本文针对输入大小为96×96的灰度图,构建了4个卷积层(C1,C2,C3,C4),4个池化层(S1,S2,S3,S4),1个全连接层(FC1)和1个Softmax层组成的卷积神经网络结构,如图2所示。卷积核(C1,C2,C3,C4)的大小分别为3×3,3×3,5×5,5×5,分别有32,32,32,64个。池化层的降采样核大小均为2×2,并且全部采用的是最大采样,每一个池化层都在对应的卷积层之后,而在所有的卷积层之后,连接了一个包含256个神经元的全连接层,为了尽可能的避免过拟合问题,本文在全连接层后加入一个p=0.75的Dropout层,除了softmax层,其余层的激活函数全部是采用ReLU,CNN的参数训练都是采用随机梯度下降算法,每一批次包含100张图片,并设置冲量为0.9,学习速率为0.001。
3.2 长短时记忆型递归神经网络设计
尽管CNN已经从人脸微表情图片从学习到了特征,但是单一的CNN模型忽略了微表情在时域上的信息。于是我们提出通过LSTM来学习不同人脸表情在时域上的关联特征。我们构建了多个LSTM层,以及一个softmax层。
我们首先先训练好CNN的参数,然后把训练好的CNN模型,作为一个提取人脸微表情的工具,对于每一帧图片,我们把最后一个全连接层的256维的向量输出作为提取的特征。那么给定一个时间点t,我们取之前的W帧图片([t-W+1,t])。然后将这些图片传入到训练好的CNN模型中,然后提取出W帧图片的特征,如果某一个序列的特征数目不足,那么用0向量补全,每一个特征的维度为256,接着将这些图片的特征依次输入到LSTM的节点中去,只有t时刻,LSTM才会输出它的特征到softmax层。同样LSTM网络的参数训练还是采用随机梯度下降算法,每一批次为50个序列,冲量为0.85,学习速率为0.01。
4 实验
4.1 微表情数据集
该实验的训练数据和测试数据均来自于中国科学院心理研究所傅小兰团队的第2代改进数据库CASMEII。该数据库从26名受试者中捕捉到近3000个面部动作中选取的247个带有微表情的视频,并且给出了微表情的起始和结束时间以及表情标签,由于其中悲伤和害怕表情的数据量并不多,因此本文选取了里面的5类表情(高兴,恶心,惊讶,其他,中性),由于数据库中的图片尺寸不一样并且是彩色图片,因此先将图片进行灰度处理,并归一化到 大小作为网络的输入。本实验采用5折交叉验证的方法,选取245个微表情序列等分成5份,每个序列的图片有10张到70张不等,每份均包含5类表情。
4.2 CNN+LSTM和CNN的对比实验
从图2中可以看出不同策略在五类表情里的识别率。当我们采用单一的CNN模型来对人脸微表情进行分类时,我们采取了dropout策略和数据集扩增策略来防止CNN过拟合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了数据扩增策略的CNN模型, 即对每一张图片进行了以下四种变换:旋转、水平平移、垂直平移、水平翻转。从而能将数据集扩增至4倍。CNN+AD表示采取了两种策略的CNN模型。CNN+LSTM表示结合了CNN和LSTM的网络模型。
从表1中我们可以看出,添加了策略的CNN,在人微表情识别上的表现要好于没有添加策略的CNN,这可能是因为训练图片较少,而CNN网络层次较深,导致没有添加策略的CNN在训练参数的过程中很容易就过拟合了。而对于CNN+LSTM的表现要好于单一的CNN模型,这说明LSTM的确能够充分利用时域上的特征信息,从而能够更好识别序列数据,这证明了CNN+LSTM的模型可以用于识别人脸微表情的可行性。从表1中,我们还可以看出高兴和惊讶的表情识别率较高,而其他的则相对较低,这可能是因为高兴和惊讶的区分度较大,并且样本较多。
4.3 LSTM的参数调整
下面我们逐一的研究不同参数对CNN+LSTM模型的微表情识别率的影响程度。
图4显示输入的序列个数为100左右能够拥有相对较高的准确率,这说明只有充分利用每一个微表情序列的时域信息,这样,训练出的模型才更加具有一般性。
图5显示出当LSTM隐层的神经元个数为128时,此时的微表情平均识别率最高,这说明隐层需要足够多的神经元才能保留更长的时域信息,对于微表情识别来说,能够拥有更高的精度。
图6显示了LSTM隐层的个数为5时,该模型拥有最好的识别率,这说明较深的LSTM网络才能充分挖掘特征的时域信息。因此经过以上实验,我们得到了一个由5层LSTM,每一层包含128个神经元,并能够处理长度为100的特征序列的模型。
4.4 和非深度学习算法的实验对比
为了比较传统机器学习算法和深度学习算法孰优孰劣,我们使用传统机器学习算法在Casme2进行了一样的实验,从表2中可以看出,本文所提出的CNN+LSTM模型相对于这些传统机器学习模型,有着较为优异的表现。
本文中的实验均是基于Google的开源机器学习库TensorFlow上进行的,硬件平台是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主频3.3GHZ,内存64GB、Nvida GeForce GTX TITAN X GPU、显存12GB。
5 结束语
本文针对传统方法对微表情识别率低,图片预处理复杂的情况,提出了采用卷积神经网络和递归神经网络(LSTM)结合的方式,通过前面的卷积网络层来提取微表情的静态特征,省去了传统机器学习方法,需要人工提取特征的过程,简化了特征提取的工作。然后再通过后面的递归神经网路,充分利用表情特征序列的上下文信息,从而在序列数据中发现隐藏在其中的时域信息,从实验结果中可以看出,利用了时域信息的CNN+LSTM比单纯使用CNN的识别率更高,而且相对于传统机器学习方法也更为优秀。但是当数据量越大时,如果网络的层次比较深的话,模型的训练时间就会很长,并且极度依赖硬件设备,这算是深度学习通有的弊病。为了进一步投入到应用中去,接下来还得提高微表情的识别率,以及在实时环境下,如何能够动态和准确的识别微表情,这些都将会是以后研究的重点。
参考文献
[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.
[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.
[3]Wu Q,Shen X,Fu X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.
[4]唐红梅,石京力,郭迎春,韩力英,王霞. 基于MG-LTP与ELM的微表情识别[J].电视技术,2015,39(03):123-126.
[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105
[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.
[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.
[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.
[10]S可.卷积神经网络在图像识别上的应用研究[D].杭州:浙江大学[学位论文],2012.
[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780
[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.
[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.
[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.
[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12
[16]张轩阁,田彦涛,郭艳君,王美茜.基于光流与LBP-TOP特征结合的微表情识别[J].吉林大学学报:信息科学版, 2015,33(05):521-522.
[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.
关键词:人机大战;人工智能;发展前景
中图分类号:TP391 文献标识码:A
0.引言
2016年3月15日,备受瞩目的“人机大战”终于落下帷幕,最终Google公司开发的“AlphaGo”以4∶1战胜了韩国九段棋手李世h。毫无疑问,这是人工智能历史上一个具有里程碑式的大事件。大家一致认为,人工智能已经上升到了一个新的高度。
这次胜利与1997年IBM公司的“深蓝”战胜国际象棋世界冠军卡斯帕罗不同。主要表现在两个方面:
(1)AlphaGo的胜利并非仅仅依赖强悍的计算能力和庞大的棋谱数据库取胜,而是AlphaGo已经拥有了深度学习的能力,能够学习已经对弈过的棋盘,并在练习和实战中不断学习和积累经验。
(2)围棋比国际象棋更加复杂,围棋棋盘有361个点,其分支因子无穷无尽,19×19格围棋的合法棋局数的所有可能性是幂为171的指数,这样的计算量相当巨大。英国围棋联盟裁判托比表示:“围棋是世界上最为复杂的智力游戏,它简单的规则加深了棋局的复杂性”。因此,进入围棋领域一直被认为是目前人工智能的最大挑战。
简而言之,AlphaGo取得胜利的一个很重要的方面就是它拥有强大的“学习”能力。深度学习是源于人工神经网络的研究,得益于大数据和互联网技术。本文就从人工智能的发展历程与现状入手,在此基础上分析了人工智能的未来发展前景。
1.人工智能的发展历程
AlphaGo的胜利表明,人工智能发展到今天,已经取得了很多卓越的成果。但是,其发展不是一帆风顺的,人工智能是一个不断进步,并且至今仍在取得不断突破的学科。回顾人工智能的发展历程,可大致分为孕育、形成、暗淡、知识应用和集成发展五大时期。
孕育期:1956年以前,数学、逻辑、计算机等理论和技术方面的研究为人工智能的出现奠定了基础。德国数学家和哲学家莱布尼茨把形式逻辑符号化,奠定了数理逻辑的基础。英国数学家图灵在1936年创立了自动机理论(亦称图灵机),1950年在其著作《计算机与智能》中首次提出“机器也能思维”,被誉为“人工智能之父”。总之,这些人为人工智能的孕育和产生做出了巨大的贡献。
形成期:1956年夏季,在美国达特茅斯大学举办了长达2个多月的研讨会,热烈地讨论用机器模拟人类智能的问题。该次会议首次使用了“人工智能”这一术语。这是人类历史上第一次人工智能研讨会,标志着人工智能学科的诞生。其后的十几年是人工智能的黄金时期。在接下来的几年中,在众多科学家的努力下,人工智能取得了瞩目的突破,也在当时形成了广泛的乐观思潮。
暗淡期:20世纪70年代初,即使最杰出的AI程序也只能解决问题中最简单的部分,发展遇到瓶颈也就是说所有的AI程序都只是“玩具”,无法解决更为复杂的问题。随着AI遭遇批评,对AI提供资助的机构也逐渐停止了部分AI的资助。资金上的困难使得AI的研究方向缩窄,缺少了以往的自由探索。
知识应用期:在80年代,“专家系统”(Expect System)成为了人工智能中一个非常主流的分支。“专家系统”是一种程序,为计算机提供特定领域的专门知识和经验,计算机就能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。不同领域的专家系统基本都是由知识库、数据库、推理机、解释机制、知识获取等部分组成。
集成发展期:得益于互联网的蓬勃发展、计算机性能的突飞猛进、分布式系统的广泛应用以及人工智能多分支的协同发展,人工智能在这一阶段飞速发展。尤其是随着深度学习和人工神经网络研究的不断深入,人工智能在近几十年中取得了长足的进步,取得了令人瞩目的成就。
人工智能发展到今天,出现了很多令人瞩目的研究成果。AlphaGo的胜利就是基于这些研究成果的一个里程碑。当前人工智能的研究热点主要集中在自然语言处理、机器学习、人工神经网络等领域。
2.人工智能l展现状与前景
人工智能当前有很多重要的研究领域和分支。目前,越来越多的AI项目依赖于分布式系统,而当前研究的普遍热点则集中于自然语言处理、机器学习和人工神经网络等领域。
自然语言处理:自然语言处理(Natural Language Processing,简称NLP),是语言学与人工智能的交叉学科,其主要功能就是实现让机器明白人类的语言,这需要将人类的自然语言转化为计算机能够处理的机器语言。
自然语言处理主要包括词法分析、句法分析和语义分析三大部分。词法分析的核心就是分词处理,即单词的边界处理。句法分析就是对自然语言中句子的结构、语法进行分析如辨别疑问句和感叹句等。而语义分析则注重情感分析和整个段落的上下文分析,辨别一些字词在不同的上下文定的语义和情感态度。
当前自然语言的处理主要有两大方向。一种是基于句法-语义规则的理性主义理论,该理论认为需要为计算机制定一系列的规则,计算机在规则下进行推理与判断。因此其技术路线是一系列的人为的语料建设与规则制定。第二种是基于统计学习的经验主义理论,这种理论在最近受到普遍推崇。该理论让计算机自己通过学习并进行统计推断的方式不停地从数据中“学习”语言,试图刻画真实世界的语言现象,从数据中统计语言的规律。
机器学习:机器学习(Machine Learning)是近20年来兴起的人工智能一大重要领域。其主要是指通过让计算机在数据中自动分析获得规律,从而获取“自我学习”的能力,并利用规律对未知数据进行判断和预测的方法。
机器学致可以分为有监督的学习和无监督的学习。有监督的学习是从给定的训练数据集中练出一个函数和目标,当有新的数据到来时,可以由训练得到函数预测目标。有监督的学习要求训练集同时有输入和输出,也就是所谓的特征和目标。而依据预测的结果是离散的还是连续的,将有监督的学习分为两大问题,即统计分类问题和回归分析问题。统计分类的预测结果是离散的,如肿瘤是良性还是恶性等;而回归分析问题目标是连续的,如天气、股价等的预测。
无监督学习的训练集则没有人为标注的结果,这就需要计算机去发现数据间的联系并用来分类等。一种常见的无监督学习是聚类分析(Cluster Analysis),它是将相似的对象通过静态分类的方法分成不同的组别或者是特定的子集,让同一个子集中的数据对象都有一些相似的属性,比较常用的聚类方法是简洁并快速的“K-均值”聚类算法。它基于K个中心并对距离这些中心最近的数据对象进行分类。
机器学习还包括如半监督学习和增强学习等类别。总而言之,机器学习是研究如何使用机器来模拟人类学习活动的一门学科,而其应用随着人工智能研究领域的深入也变得越来越广泛,如模式识别、计算机视觉、语音识别、推荐算法等领域越来越广泛地应用到了机器学习中。
人工神经网络:在脑神经科学领域,人们认为人类的意识及智能行为,都是通过巨大的神经网络传递的,每个神经细胞通过突出与其他神经细胞连接,当通过突触的信号强度超过某个阈值时,神经细胞便会进入激活状态,向所连接的神经细胞一层层传递信号。于1943年提出的基于生物神经元的M-P模型的主要思想就是将神经元抽象为一个多输入单输出的信息处理单元,并通过传递函数f对输入x1,x2…,xn进行处理并模拟神经细胞的激活模式。主要的传递函数有阶跃型、线性型和S型。
在此基础上,对神经网络算法的研究又有诸多进展。日本的福岛教授于1983年基于视觉认知模型提出了卷积神经网络计算模型。通过学习训练获取到卷积运算中所使用的卷积系数,并通过不同层次与自由度的变化,可以得到较为优化的计算结果。而AlphaGo也正是采用了这种深度卷积神经网络(DCNN)模型,提高了AlphaGo的视觉分类能力,也就是所谓的“棋感”,增强了其对全盘决策和把握的能力。
3.人工智能的发展前景
总体来看,人工智能的应用经历了博弈、感知、决策和反馈这几个里程碑。在以上4个领域中,既是纵向发展的过程,也是横向不断改进的过程。
人工智能在博弈阶段,主要是实现逻辑推理等功能,随着计算机处理能力的进步以及深度学习等算法的改进,机器拥有了越来越强的逻辑与对弈能力。在感知领域,随着自然语言处理的进步,机器已经基本能对人类的语音与语言进行感知,并且能够已经对现实世界进行视觉上的感知。基于大数据的处理和机器学习的发展,机器已经能够对周围的环境进行认知,例如微软的Kinect就能够准确的对人的肢体动作进行判断。该领域的主要实现还包括苹果的Siri,谷歌大脑以及无人驾驶汽车中的各种传感器等。在以上两个阶段的基础上,机器拥有了一定的决策和反馈的能力。无人驾驶汽车的蓬勃发展就是这两个里程碑很好的例证。Google的无人驾驶汽车通过各种传感器对周围的环境进行感知并处理人类的语言等指令,利用所收集的信息进行最后的决策,比如操作方向盘、刹车等。
人工智能已经渗透到生活中的各个领域。机器已经能识别语音、人脸以及视频内容等,从而实现各种人际交互的场景。在医学领域,人工智能可以实现自动读片和辅助诊断以及个性化t疗和基因排序等功能。在教育领域,机器也承担了越来越多的辅助教育,智能交互的功能。在交通领域,一方面无人车的发展表明无人驾驶是一个可以期待的未来,另一方面人工智能能够带来更加通畅和智能的交通。另外人工智能在安防、金融等领域也有非常广阔的发展前景。总之,人工智能在一些具有重复性的和具备简单决策的领域已经是一种非常重要的工具,用来帮助人们解决问题,创造价值。
参考文献
[1]阮晓东.从AlphaGo的胜利看人工智能的未来[J].新经济导刊,2016 (6):69-74.
关键词:图像;情感;视觉特征;对应关系;分类
中图分类号:TP391文献标识码:A文章编号:1009-3044(2011)21-5231-02
图像中蕴含着情感信息,如何有效地模拟人观察图像后引起的情感感觉,实现基于语义的图像检索,是一个热点且有挑战性的课题。过去的图像语义分析中,大都是根据图像的低层特征简单的语义分类,很少涉及情感语义范畴;目前的研究中多是提取图像的低层视觉特征并建立特征与情感的对应以实现图像情感分类。
图像情感语义分类的关键是如何提取有效表达图像情感的视觉特征,并根据视觉特征与高阶语义的对应关系,选择合适的分类算法。当前研究中一般选择某一类图像,如服装图像、天气图像等,在提取图像的视觉特征中大都采用某一个视觉特征或者组合两个视觉特征,高层语义分类一般是一对相反的形容词,如服装图像为“优雅”的和“俗丽”的,天气图像为“喜欢”的和“厌恶”的等,通常采用神经网络和支持向量机等方法进行分类。
1 图像的主要视觉特征
1.1 颜色特征
颜色特征是一种全局特征,有多种提取方法,可以分为两大类:一是提取全局颜色信息的颜色特征;二是提取局部颜色信息的颜色特征。
在提取颜色特征中颜色直方图是常用的有效方法,它反映了不同色彩在图像中的比例。数字图像大部分是基于RGB颜色空间的,但RGB空间结构在颜色相似性上与人们的主观判断不一致,所以多选择基于HSV等空间的颜色直方图[1]。
1.2 纹理特征
纹理特征也是一种全局特征,常用的特征提取与匹配方法:灰度共生矩阵、Tamura纹理特征、Gabor小波变换等。
灰度共生矩阵主要提取能量、惯量、熵和相关性4个参数;Tamura 纹理特征主要用粗糙度、对比度、方向度、线像度、规整度和粗略度6种属性表示;Gabor变换用Gabor核函数与样本卷积,分别提取数据的均值和方差作为特征数据,获得原图在不同频率和相位下的小波系数,使每个样本得到一个多维特征向量用于分类[2]。
1.3 形状特征
形状特征是图像的一个重要特征,常用两类方法表示,一是轮廓特征,二是区域特征。轮廓特征针对的是物体的外边界,区域特征则是整个形状区域。常用来描述形状特征的方法有:边界特征法、傅里叶形状描述符、几何参数法、不变矩法等。
边界特征法用边界特征的描述得到图像的形状参数,经典方法有Hough变换检测平行直线和边界方向直方图;傅里叶形状描述符采用物体边界的傅里叶变换描述形状;几何参数法是描述区域特征方法;不变矩法利用目标所占区域的矩描述参数。
2 情感空间的建立
图像情感语义的提取,是将图像映射到一个情感空间,每个图像对应着情感空间的一个点,每个点代表某种情感的描述,这样点之间的距离对应着图像的情感距离,即把观察图像后感受到的情感信息用语义描述,并定量比较。
根据实际情况,常构造一些简化的情感空间模型。Colombo等建立的是图像到愉快、紧张、放松、动感这几个基本情感的映射[3];毛峡等根据1/f波动理论,主要讨论了图像中和谐舒适、杂乱、单调三类情感感觉[4]。
目前获得人们对图像主观情感的方法,多采用调查法,即选择尽可能多的不同年龄、背景、文化程度等的人对图像进行情感描述。
3 图像情感分类识别
目前常用的是基于人工神经网络分类方法和基于支持向量机的分类方法。
3.1 人工神经网络
人工神经网络用计算机模拟生物机制,它不用对事物内部机制很了解,系统的输出由输入和输出之间的连接权决定,连接权是通过对训练样本的学习获得的。比较有代表性的网络模型有感知器、多层前馈BP网络、RBF网络等。
3.2 支持向量机
支持向量机的基础是统计学习理论,设计原则是结构风险最小化,针对的是有限样本的一种机器学习算法,它的优势是在解决模型选择与过学习问题、非线性与维数灾难问题、局部极小值问题等问题上很有效,基本原理是通过非线性变换把输入空间变换到高维空间,然后在新空间中获得最优或是广义最优线性分类面。
4 总结与展望
图像的情感语义研究是一个较新的研究方向,对这个领域的研究还不多,很多问题研究的还不够深入。目前的研究存在的局限主要有:一是图像的选取比较单一,只能分类描述同一事物的图像,如天气、衣服图像;二是反映图像情感的视觉特征比较少,多是用颜色特征描述情感,用纹理和形状描述情感还不多,将多种视觉特征融合起来更少;三是对图像的情感分类比较少,多是二分类,少有多种分类的研究,而一幅图像蕴含着多种情感,一对或较少的形容词并不能有效反映图像的情感。今后图像情感的分类要在以下几方面多做研究:一是扩大图像的选择范围;二是有效选择融合尽可能多的视觉特征;三是丰富对图像的情感分类。
由于图像的情感研究涉及到众多学科领域,研究起来有一定难度,对它的研究还在初步阶段,要解决的问题还比较多,所以发展潜力很大。
参考文献:
[1] 贺静.基于特征融合的服装图像情感语义分类研究[D].太原理工大学,2007.
[2] 赵志艳,杨志晓,李卓瑜,等.一种基于纹理特征的笔迹鉴别方法[J].微计算机信息,2010,26(1-2).
【关键词】情商教育 中职 情商课程 综合竞争力
一、中职生在校状态与情商
(一)缺乏自信心。中职生在小学、初中阶段,可能因为这样或那样的原因,老师和家长的否定性评价或许多了些,使他们的自信心受的了较大的伤害,他们大认为自己不行,在严重缺乏自信的情况下,使他们越来越不愿意学习,甚至害怕学习。
(二)缺乏学习主动性。现在的中职生普遍意志力较差,缺乏独立自主的生活能力,缺乏克服困难的决心和毅力,一遇到困难,就想退缩或放弃。小学、初中阶段过多的补习,使孩子失去了应有的,锻炼自主学习能力的良机,让他们只会适应被动学习的环境,一旦没有了老师的督促,家长的逼迫,他们就失去了学习的动力。
(三)公德及规则意识淡薄。相当一部分学生纪律观念淡薄,旷课、逃学、早恋、打架斗殴、部分学生甚至在课堂上辱骂教师。明知不可以违反学校的规章制度,但由于自控能力较差,时常有违规行为,且屡教不改。
(四)应对挫折的能力差。大多数中职学校的学生都是因为没能考进高中,退而求其次选择的来中职学校读书。很多学生文化基础课如数学和英语等课程普遍较差,他们对全新的专业基础课和专业技能课,学起来会比较费力。但并不是说所有的专业基础课和专业课程都与初中阶段的文化基础课程有直接的关系,只要学生能认真开始学习,学好专业课程还是有可能的,但多数“后进生”内心非常自卑,他们认为自己笨、认为自己不可能学得会、学得好,从而在自己心理上主动放弃了进步的机会。
中职学生的这些让老师和家长都异常头痛的外在表现,其根源就是学生在小学、初中阶段情商培养严重缺失的综合表现。
二、中职生情商教育的重要性
的话以点带面地剖析和分析出了“情商”对于人才培养的重要性、对于社会实际工作的重要性。有一句流行语称:“智商(IQ)决定录用,情商(EQ)决定提升。”哈佛大学教授丹尼尔・戈尔曼曾说过:“成功=20%的智商+80%的情商。”从这个角度说,情商已经不仅关系一个青年人的成长道路,也关系一个人的事业成败,乃至在一个社会工作领域的潜力和发展。众所周知,情商能更多的体现一个人的人格魅力、吸引力和凝聚力,放诸于生产领域、教育领域如此,在政务工作领域同样如此。
中职学校担负着为社会培养一线实际操作人才的重任,学生的情商水平决定了他们在工作中是否具备与人建立良好合作关系的团队精神,是否能够在团对中发挥更大作用的问题,更关系到学生个人的未来发展前途。所以,中职学校必须重视这一问题,把情商培养纳入学生的教学计划,让学生在学习专业技能的同时,情商水平能有一定程度的提高。
三、情商培养的时机选择
现代医学的研究成果告诉我们,大脑中有一个区域叫做前额皮质,是大脑的执行中心,它的形成主要受童年时代的体验的影响。这个区域所控制的神经网络可以抑制破坏性的情感冲动,帮助集中精力、平静和专注。如果孩子没办法减少焦虑,那么就没有太多的精力去学习、解决问题以及掌握新知识。比如,如果一个孩子因为一次突然袭击的考试恐慌不已,那么在脑子里留下的印象是当时的反应而不是考试的具体细节。精神紧张能毁灭学习。科学家相信,提高注意力和记忆力,摆脱思想的冲动和痛苦,可以让孩子的思维处在学习的最佳状态,社交和情绪学习也是一样。因此,帮助孩子们管理情绪和改善人际关系可以改善他们的学习状态。
青少年时期是人的大脑发育最快的阶段,大约到25岁左右,大脑才会逐渐地停止发育。有一个被科学家称作“神经可塑性”的名词,意思是大脑神经网络的不断形成,很大程度上依赖于每天的成长体验的积累。由此看出,外界环境对大脑发育的影响在“社交和情绪”神经网络方面尤为明显。如果孩子被父母及学校养育呵护得很好,并且在沮丧的时候父母和老师能教给他们调节自己情绪的方法,那么这些孩子的大脑神经网络在管理压力方面就会发育得比较好。而那些被父母忽视的孩子则更有可能会出现叛逆和反抗的情绪,当他们沮丧时也很难平静下来。
由此可见,中职教育阶段是仅存的,能够对这部分情商有缺陷的孩子进行情商改善性培养的教育机会了,中职学校应该勇敢的担负起这个责任,做出自己应有的努力,为社会培养更多的技艺高超、情商优雅的人才。
四、爱与静思――情商培养的重要途径
一、深度学习概念的提出
深度学习的概念,源于30多年来计算机科学、人工神经网络和人工智能的研究。上世纪八九十年代,人们提出了一系列机器学习模型,应用最为广泛的包括支持向量机(Support Vector Machine,SVM)和逻辑回归(Logistic Regression,LR),这两种模型分别可以看作包含1个隐藏层和没有隐藏层的浅层模型。计算机面对较为复杂的问题解决训练时,可以利用反向传播算法计算梯度,再用梯度下降方法在参数空间中寻找最优解。浅层模型往往具有凸代价函数,理论分析相对简单,训练方法也容易掌握,应用取得了很多成功。①随着人工智能的发展,计算机和智能网络如何基于算法革新,模拟人脑抽象认知和思维,准确且高清晰度地进行声音处理、图像传播甚至更为复杂的数据处理和问题解决等,在21世纪来临的时候成为摆在人工智能领域的关键问题。
30多年来,加拿大多伦多大学计算机系辛顿教授(Hinton,G.)一直从事机器学习模型、神经网络与人工智能等问题的相关研究,并在机器学习模型特别是突破浅层学习模型,实现计算机抽象认知方面取得了突破性的进展。2006年,他在《Science》上发表了《利用神经网络刻画数据维度》(Reducing the Dimensionality of Data with Neural Networks)一文,探讨了应用人工神经网络刻画数据的学习模型,首先提出了深度学习(Deep Learning)的概念和计算机深度学习模型,掀起了深度学习在人工智能领域的新。这篇文章的两个主要观点是:第一,多隐藏层的人工神经网络具有优异的特征学习能力,学习到的特征对数据有更本质的刻画,从而有利于可视化或分类;第二,深度神经网络可以通过“逐层初始化”(Layer-wise Pre-training)来有效克服训练和优解的难度,无监督的逐层初始化方法有助于突破浅层学习模型。②基于深度置信网络(DBN)提出非监督逐层训练算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。③2012年,辛顿又带领学生在目前最大的图像数据库ImageNet上,对分类问题取得了惊人的结果,将计算机处理图像数据问题时排名前五的错误率(即Top5错误率),由最高26%大幅降低至15%,大大提高了人工智能图像数据处理的准确性和清晰度,这是早先计算机仅仅依赖数学模型的表层学习和单层学习根本无法实现的水平。
在人工智能领域,深度学习其实是一种算法思维,其核心是对人脑思维深层次学习的模拟,通过模拟人脑的深哟纬橄笕现过程,实现计算机对数据的复杂运算和优化。深度学习采用的模型是深层神经网络(Deep Neural Networks,DNN)模型,即包含多个隐藏层(Hidden Layer,也称隐含层)的神经网络(Neural Networks,NN)。深度学习利用模型中的隐藏层,通过特征组合的方式,逐层将原始输入转化为浅层特征、中层特征、高层特征直至最终的任务目标。深度学习可以完成需要高度抽象特征的人工智能任务,如语音识别、图像识别和检索、自然语言理解等。深层模型是包含多个隐藏层的人工神经网络,多层非线性结构使其具备强大的特征表达能力和对复杂任务的建模能力。训练深层模型是长期以来的难题,近年来以层次化、逐层初始化为代表的一系列方法的提出,为训练深层模型带来了希望,并在多个应用领域获得了成功。
人工智能学者们认为计算机和智能网络的这一深层的自动编码与解码过程,是一个从数据刻画、抽象认知到优选方案的深度学习的过程。由于人脑具有深度结构,认知过程是一个复杂的脑活动过程,因而计算机和人工智能网络模拟从符号接受、符号解码、意义建立再到优化方案的学习过程也是有结构的;同时,认知过程是逐层进行、逐步抽象的,人工智能不是纯粹依赖于数学模型的产物,而是对人脑、人脑神经网络及抽象认知和思维过程进行模拟的产物。应该说,到目前为止,深度学习是计算机和智能网络最接近人脑的智能学习方法。近几年来,深度学习进一步尝试直接解决抽象认知的难题,并取得了突破性的进展,AlphaGo的问世,便是明证。2013年4月,《麻省理工学院技术评论》(MIT Technology Review )杂志将深度学习列为2013年十大突破性技术之首。④深度学习引爆的这场革命,将人工智能带上了一个新的台阶,不仅学术意义巨大,而且实用性很强,工业界也开始了大规模的投入,一大批产品将从中获益。二十世纪八九十年代以来,随着学习科学的不断发展,深度学习的概念和思想不断在教育中得到应用。
二、深度学习在教育中的兴起与发展
来自脑科学、人工智能和学习科学领域的新成就,必然引起教育领域研究者的深刻反省。计算机、人工智能尚且能够模拟人脑的深层结构和抽象认知,通过神经网络的建立开展深度学习,那人对知识的学习过程究竟应该是怎样的一个脑活动过程和学习过程?学生的学习有表层和深层等层次之分吗?从作为符号的公共知识到作为个人意义的个人知识究竟是怎样建立起来的?知识学习过程究竟是一个怎样的抽象认知过程?信息技术环境支持下深层次的学习如何实现?近十多年来,这些问题引起了许多教育研究者特别是教育技术学研究者的浓厚兴趣,深度学习、深度教学的研究日益引起人们的重视。也正是在辛顿的“深度学习”概念明确提出后,教育学领域特别是教育技术学领域的深度学习研究日益活跃起来。
其实,早在1956年布鲁姆在《教育目标分类学》里关于“认知领域目标”的探讨中,对认识目标的维度划分就蕴含了深度学习的思想,即“学习有深浅层次之分”,将教学目标分为了解、理解、应用、分析、综合、评价六个由浅入深的层次。⑤学习者的认知水平停留在知道或领会的层次则为浅层学习,涉及的是简单提取、机械记忆符号表征或浅层了解逻辑背景等低阶思维活动;而认知水平较高的深层理解、应用、分析、综合和评价则涉及的是理性思辨、创造性思维、问题解决等相对复杂的高阶思维活动,属于深层学习。1976年,美国学者马顿(Marton,F.)和萨尔约(Saljo,R.)在《论学习的本质区别:结果和过程》(On Qualitative Difference in Learning: Outcome and Process)一文中,明确提出了表层学习和深层学习的概念。⑥这被普遍认为是教育学领域首次明确提出深度学习的概念。他们在一项关于阅读能力的实验研究中,明确探讨了阅读学习的层次问题。通过让学生阅读文章并进行测验,发现学生在阅读的过程中运用了两种截然不同的学习策略:一种是试图记住文章的事实表达,揣测接下来的测试并记忆,即表层学习(Surface Learning);另一种是试图理解文章的中心思想和学术内涵,即深层学习(Deep Learning),也被译为深度学习。深度学习的学习者追求知识的理解并且使已有的知识与特定教材的内容进行批判性互动,探寻知识的逻辑意义,使现有事实和所得出的结论建立联系。浅层学习和深层学习在学习动机、投入程度、记忆方式、思维层次和迁移能力上有明显的差异。深度学习是一种主动的、高投入的、理解记忆的、涉及高阶思维并且学习结果迁移性强的学习状态和学习过程。之后 ,拉姆斯登(Ramsden,1988)、英推施黛(Entwistle,1997)以及比格斯(Biggs,1999)等人发展了浅层学习和深度学习的相关理论。⑦随着信息技术的发展,近十年来,国外学者对信息技术支持下的深度学习及其在各学科领域、各类教育中的应用研究日渐广泛。
2002年以来,从技术支持高等教育的深度学习、虚拟环境中的深度学习、形成性评估对深度学习的影响、学习环境对学生进行深度学习的影响、技术支持下的深度学习设计等方面研究成果日益丰富,但绝大部分是基于教育技术学视野的研究成果。2006年,辛顿教授关于深度学习的成果发表,进一步推动了深度学习在教育中的研究与应用。近十年来,在中小学深度学习研究方面最有影响的当属加拿大西盟菲莎大学(Simon Fraser University)艾根(Egan, K.)教授领衔的“深度学习”(Learning in Depth,简称LID)项目组所进行的研究,其成果集中体现在《深度学习:转变学校教育的一个革新案例》(Learning in Depth: A Simple Innovation That Can Transform Schooling)等著述之中。⑧该研究探讨了深度学习的基本原则与方法,分析了深度学习对学生成长、教师发展和学校革新的价值与路径,并在加拿大部分中小学进行实验研究。其核心成果聚焦课堂学习和教学问题,即使是关于教师教育中深度学习的研究,也聚焦于教师的学习过程和学习方式。⑨艾根所开展的深度学习研究项目超越了单一教育技术学视野的研究,不仅仅是关于教学设计、学习技术和学习环境开发的研究,而是基于建立新的学习观和知识观,对教学活动与学习过程作出了新的阐释。
总体上看,国内关于深度学习的研究最近十年才刚刚起步。2005年,我国学者黎加厚教授在《促进学生深度学习》一文中,率先介绍了国外关于深度学习的研究成果,同时探讨了深度学习的本质。他认为深度学习是指在理解学习的基础上,学习者能够批判性地学习新的思想和事实,并将它们融入原有的认知结构中,能够在众多思想间进行联系,能够将已有的知识迁移到新的情境中,作出决策和解决问题的学习。⑩此文被认为是国内较早介绍并论及深度学习的研究成果,此后,关于深度学习的探讨,特别是基于信息技术环境下的深度学习的相关研究论文逐渐增加。2006年10月,笔者在前期研究的基础上,与台湾成功大学教育研究所所长李坤崇教授联合发起“海峡两岸能力生根计划”,推进能力导向的深度教学的理论研究与实验研究,主张以价值观、知识观、学习观、过程观的重建为基础,以发展学生的学科能力为宗旨,实施深度教学,克服课堂教学改革过于注重教学程序、教学技术、教学时间的浅层次改革和表层学习的局限性,深化课堂教学改革。2014年后,中国教育科学院院长兼教育部课程教材研究与发展中心主任田慧生研究员基于深化课程改革的需要,带领一个团队开始启动深度学习的项目研究。直至今日,基于核心素养追求背景下的深度学习研究项目,如雨后春笋般涌现,“深度学习”成为教育研究中的一个热词。
尽管计算机、人工智能领域与教育学领域都提出了“深度学习”概念,但不难看出二者显然具有本质差异。计算机与人工智能领域的深度学习是建立在机器模拟人脑深层结构的基础之上的,是基于人脑结构的一种计算机算法思维和问题解决模型,是对人脑和认知结构的模拟。而教育学领域的“深度学习”概念,无论是布鲁姆还是马顿和萨尔约,都指向了“知识”和“学习”两个核心,是关于知识学习的目标和过程的问题。布鲁姆在教育目标分类学认知领域的目标构设中,认为认知目标是由了解、理解、应用、分析、综合、评价六个不断加深的层次构成的。这一目标明显是关于知识学习和认知过程的目标,在2001年修订版中,这一目标被精确表述为知识学习和认知过程两个维度。马顿和萨尔约在关于阅读的研究中,基于学生对文本理解的层次和理解的深度提出了“深度学习”的概念,并认为学习的本质区别在于过程而不是学习的结果,是学生对文本知识学习的深刻程度决定了其学习结果的差异性。
艾根的研究实现了从深度学习向深度教学的转向。艾根的深度学习(Learning in Depth)研究更明确地指向了学生对知识的学习所到达的深度,以及教师通过对知识的处理引导学生逐步到达一定的学习深度。这一深度学习的过程是一个逐步深化的学习过程,要求教师在教学过程中引导学生着眼于知识的深层次理解和深度处理。该项研究表明,深度学习的研究开始从单一的学习技术研究转向了对教学过程的关注,注重深度学习与深度教学的关联性和一致性,深度学习的研究呈现出向深度学习与深度教学相结合的转向。
三、深度学习的核心理念
从深度学习走向深度教学,一方面是教与学的一致性决定的,另一方面是当前中小学课堂教学普遍存在的局限性Q定的。教与学的关系既不是对立关系,也不是对应关系,而是一种具有相融性的一体化关系,离开了教无所谓学,离开了学也无所谓教。学生真正意义上的深度学习需要建立在教师深度教导、引导的基础之上。从本质上看,教育学视野下的深度学习不同于人工智能视野下的深度学习,不是学生像机器一样对人脑进行孤独的模拟活动,而是学生在教师引导下,对知识进行的“层进式学习”和“沉浸式学习”。“层进”是指对知识内在结构的逐层深化的学习,“沉浸”是指对学习过程的深刻参与和学习投入。离开了教师的教学和引导,学生何以“沉浸”?因此,深度学习只有走向深度教学才更具有发展性的意义和价值。同时,我国新一轮基础教育课程改革以来,课堂教学改革依然存在着诸多表层学习、表面学习和表演学习的局限性,“学习方式的转变”往往演变成了教学形式的改变,诸如教与学在程序上的简单翻转和在时间上的粗暴分配。其所体现出来的知识观、价值观、教学观、过程观依然陈旧落后,以学科知识、学科能力、学科思想和学科经验的融合为核心的学科素养依然未能得到实质性的渗透。
深度教学的“深度”是建立在完整而深刻地处理和理解知识的基础之上的。艾根在深度学习的研究中,首次从知识论的角度,论述了深度学习的“深度”(Depth)的涵义。他认为“学习深度”具有三个基本标准,即知识学习的充分广度(Sufficient Breadth)、知识学习的充分深度(Sufficient Depth)和知识学习的充分关联度(Multi-Dimensional Richness and Ties)。这三个标准,也是深度学习的核心理念。
第一,知识学习的充分广度。充分的广度与知识产生的背景相关,与知识对人生成的意义相关,与个体经验相关,也与学习者的学习情境相关。如果教学把知识从其赖以存在的背景、意义和经验中剥离出来,成为纯粹的符号,便成为无意义的符号、无根基的概念知识。知识具有强烈的依存性,无论是自然科学的知识还是社会科学或人文学科的知识,都是特定的社会背景、文化背景、历史背景及其特定的思维方式的产物。离开了知识的自然背景、社会背景、逻辑背景,前人创造的知识对后人而言几乎不具有可理解性。随着深度学习的兴起,旨在以广度促进理解的“无边界学习”日益引起人们的重视。可见,知识的充分广度,其实是为理解提供多样性的支架,为知识的意义达成创造了可能性和广阔性基础。
第二,知识学习的充分深度。知识的充分深度与知识所表达的内在思想、认知方式和具体的思维逻辑相关,深度学习把通过知识理解来建立认识方式,提升思维品质,特别是发展批判性思维作为核心目标。所以说,深度学习是一种反思性学习,是注重批判性思维品质培养的学习,同时也是一种沉浸式、层进式的学习。深度学习强调学习过程是从符号理解、符号解码到意义建构的认知过程,这一过程是逐层深化的。
第三,知R学习的充分关联度。知识的充分关联度,是指知识学习指向与多维度地理解知识的丰富内涵及其与文化、想象、经验的内在联系。知识学习不是单一的符号学习,而是对知识所承载的文化精神的学习。同时,通过与学生的想象、情感的紧密联系,达到对知识的意义建构。从广度,到深度,再到关联度,学生认知的过程是逐层深化的。所谓意义建构,即从公共知识到个人知识的建立过程,都需要建立在知识学习的深度和关联度之上。
①Y.LeCun and Y.Bengio.Convolutional networks for images,speech,and time-series.In M.A.Arbib,editor,The Handbook of Brain Theory and Neural Networks.MIT Press,1995.
②Geoffery E.Hinton and Salakhutdinov R.R.,Reducing the dimensionality of data with neural networks. Science.2006 Jul 28;313(5786):504-7.
③Geoffrey E.Hinton,Simon Osindero,Yee-Whye Teh. A Fast Learning Algorithm for Deep Belief Nets. Neural Computation.2006(7).
④余凯等.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,9.
⑤安德森.布卢姆教育目标分类学(修订版)[M]. 北京:外语教学与研究出版社,2009:78-80.
⑥Marton,F. and Saljo,R.,On Qualitative Difference in Learning:Outcome and Process. British Journal of Educational Psychology,1976,46:4-11.
⑦安富海.促进深度学习的课堂教学策略研究[J].课程・教材・教法,2014,11.
⑧Kieran Egan. Learning in Depth: A Simple Innovation That Can Transform Schooling. London, Ontario: The Althouse Press, 2010.
【关键词】共情;疼痛;亲社会行为;共情关注;利他行为
一、社会神经科学下的共情研究:共享神经网络假说
共情学者提出我们之所以能够理解他人的行为,感觉,情感,是因为这些情感激活了个体本身对这些情绪的表征,激活了共同的神经网络。在早期行为解释模型知觉―动作的启发下,Preston 和 de Waal (2002)提出了一个神经科学模型来解释共情,这个模型认为通过观察或者想象处于某种情绪状态下的人会自动的激活个体本身对该情绪的表征,并且伴随着自动的躯体反应。其他学者也认为共同的神经表征对理解他人的精神状态起到关键作用。他们认为同行的表征可以使他们模仿产生类似的感觉,情感体验和精神状态。这种观点认为我们能够通过想象将自己投射到他人的角度源于我们成熟的心理理解(mind-reading)能力,即激活自己的神经结构来模仿表征他人的情绪情感状态从而产生同形的表征。甚至这种思维方式已经蔓延到了行为和情感领域:为了明白他人特定行为的含义我们也模仿类似的行为;为了理解他人的感觉,我们激活自己的情感机制产生类似的情感体验。事实上,这种社会交往和相互主观性的所谓同形表征已成为近来共情FMRI研究中解释血液动力激活模式的主要理论。
目前对共情的社会神经科学研究主要是采用观察他人疼痛来激活个体自身疼痛共情的实验范式。采用这种实验范式的一个共同发现是对他人的疼痛共情会部分激活我们自身经历疼痛的神经网络。例如Singer(2004)和他的同事招募夫妻来做被试,实验有两种条件,一种是对妻子的右手施加电极来产生疼痛反应,激活痛觉感觉网络区域并用FMRI测量她的血氧水平,这属于自我疼痛。第二种情况是对坐在MRI检测器旁的丈夫施加疼痛刺激,但是躺在MRI里面的妻子可以通过一个反光系统观察到这种疼痛,再次测量其血氧水平,这属于他人疼痛。不同颜色的光束会指向妻子或者丈夫,暗示谁会接受疼痛刺激。这个实验程序可以测量不同条件下大脑的神经激活,疼痛刺激施加到被扫描的被试(疼痛的切身体验)或者她的伴侣身上(对疼痛的共情)。研究发现,不管是个体自己体验疼痛还是观察伴侣接受疼痛刺激都会共同激活大脑的疼痛加工网络即所谓的pain matrix的一部分(Derbyshire2000)。其中双侧前脑岛(AI),背侧前扣带回皮层(ACC),脑干和小脑主要涉及对疼痛的情感加工,也就是说,这些区域主要负责编码被试亲身体验到得或者感觉到的情绪体验如不愉快,厌恶等。因此,个体亲身感受到疼痛和观察自己所爱的人接受疼痛刺激会激活同样的情感神经回路―这暗示了我们的神经反应也反映了伴侣的消极情绪反应。
二、自下而上和自上而下的加工
大部分根据脑神经神经科学研究建立起来的共情模型都有一个共同的特点:观察者共同表征(自身和他人)的激活是没有意识加工到且自发启动产生地。举个例子来说,目前我们采用疼痛,触觉和厌恶刺激对共情的研究中,通常我们会要求被试观看一些场景或者电影,这些场景和电动描绘了一个处于某种情绪或者被触摸的他人,而不会告诉被试本研究的研究目的是观察共情诱发的神经反应。然而事实上,仅仅呈现这些情景都足以引起被试对这些情感和触摸的切身体验的表征。因此,一些研究者提出我们会自发地分享他人的情感,这个假设与早期的知觉―动作模型是一致的,该模型认为,当个体知觉到他人的行为时会自动激活其与该行为有关的个人经验的表征从而产生共情反应。此外,在这些研究中如果要让被试产生预想的一系列反应,从情绪感染到最终产生饱满的共情体验,一个重要的条件是需要被试将注意指向他人的情感状态。虽然注意,抑制和其他的一些执行控制加工在产生共情体验中有着关键的作用,但这并不意味着共情只是一种纯粹的感觉驱动加工过程,也就是说诱发共情反应只能通过自下而上的加工方式。相反,一些研究提出情景评估,认知加工和自上而下的控制也是人类产生共情的主要组成部分。譬如,在十八世纪,当时的哲学家和经济学家亚当斯密就提出这样一种说法,想象可以将我们投射到他人的情景中,从而产生类似他人但一般弱于他人的感知觉。现在有关共情的大部分脑神经科学模型认可这一说法,它们强调自上而下的加工和情景评估在产生共情反应和调节之前提到的由自下而上的加工诱发的共情反应中的重要作用。
最近的研究结果同样支持这样一种假设,这个假设认为是对情景的评估而不仅仅是感觉输入就可以决定共情者的神经和行为反应。在一项FMRI研究中,让被试观看一系列疼痛图片,譬如针扎在手上或者将活检针(biopsy needle)扎在一个麻醉的手上。因此,需要考虑这两种基本上一样的图片刺激所造成的疼痛感受,这样就可以产生比较匹配的替代性体验。支持这一情景评估加工过程的神经结构有背内侧和眶额皮层(OFC)以及右颞顶交界(Rtpj)。眶额皮层的涉及主要是重新评估一些刺激的效价,因为图片看起来是厌恶刺激,实际上是中性的活组织检查刺激。然而,颞顶叶和背内侧前额叶的激活与自我和他人的区分以及自我意识有密切的关系。这些区域的功能使得被试可以将两种反应区分开来,这两种反应是厌恶刺激可能诱发的自发的和自我中心的反应,和理论上根据情境信息我们知道对活组织检测的这种不合适的情感反应。
三、研究展望
关键词:E-learning;单模式情感识别;多模式情感识别
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2013)15-3599-04
E-learning(数字化学习或电子学习)是利用现代通信技术,将信息技术与课本知识整合,为学习者提供理想的学习环境和学习方式,以达到深化教学改革和创新人才培养的目的。
基于情感计算的E-learning系统,就是在传统E-learning系统的基础上增加了情感识别模块,包括:情感识别模块、情感分析模块、情感反馈模块、情感评价模块等,实现情感化个性化的教学。主要目的是弥补传统E-learning系统情感缺失的问题。在这些情感模块中,情感识别模块是基础,这一模块产生的结果直接影响后面所有模块的效果,因此对情感识别模块的研究放在重要的位置上,且进行深入的研究。
由于识别的环境为远程E-learning教学的学生端,因此可以将多模式识别方法分为三部分[1],分别为:基于视觉的面部表情识别和身体动作识别,还有基于听觉的会话信息(语音)识别。
1 基于单视觉的情感识别方法
1.1 面部表情识别
对面部图像的捕捉是通过网络摄像头来实现的,采样的方法是按一定的时间间隔来停帧并存取图像(与20秒为一个时间间隔),接下来会对存取的图像进行情感的识别,确定这一时刻的情感状态,为以后的情感分析和反馈提供依据。
1.1.1 对图像进行情感的识别
对面部图像进行情感识别其实是一种人脸识别过程,其中主要包括三个方面的内容:人脸检测、人脸表征、人脸鉴别。
1)人脸检测:采用基于肤色的人脸检测算法;
根据计算机色彩理论,通过对RGB格式、HIS格式、YCbCr格式[3]等主要色彩空间的比较,选用基于YCbCr空间的肤色模型来进行肤色区域分割。YCbCr[4]色彩空间从YUV色彩空间衍生而来。其中Y代表亮度, Cb和Cr分量分别表示蓝色和红色的色度,在不同的光照下这两种色度是稳定的。该空间的优点是将亮度分量与色度分量分离开来, 这样受亮度变化的影响就比较小, 降低了两者的相关性。
2)人脸表征:主要对眼睛、鼻子和嘴巴等的特征检测与定位。
在对人脸进行表征之前首先要进行人脸区域的分割,把人脸区域用矩形框起来。所采用的分割算法流程图如图1:
具体的算法是基于相似度的方法,得到的结果图如图2所示(红线矩形框为结果),把眼睛和嘴巴表示为分段多项式曲线,用变形模版得到准确的轮廓[3],标记的结果图如下图2 :
3)人脸鉴别:采用主成分分析(PCA)
主成分分析方法(Principal Component Analysis ,PCA) 也称为主元法,主分量分析法,是一种常用、简单有效的方法。PCA方法就是将包含人脸的图像区域看作是一种随机向量,用K-L变换获取其正交K-L基底,对应其中较大特征值的基底具有与人脸相似的形状,因此又称之为特征脸(Eigenfaces)[7]。
采用PCA算法进行人脸识别时,其中的测试数据库选用Yale人脸数据库(耶鲁大学网站上下载),此人脸数据库由耶鲁大学计算视觉与控制中心创建,包含15位志愿者的165张图片,包含光照,表情和姿态的变化,效果图如图3:
1.2 人体动作识别
人体动作过程是一个动态系统,其识别方法也都是基于动态系统的识别方法。人体运动分析中一个重要的内容是运动识别和动作检索。一般认为,运动识别的任务就是把物体的轮廓从背景中分离出来,根据特征值与目标样本库中的运动进行匹配运算,以达到识别目标的目的。而动作检索则是在已知的运动类型范围内,对于每个时刻的动作,根据特征值和时间关系,与运动库中的动作匹配[16]。
2 基于单听觉(语音)的情感识别方法
基于单听觉的语音情感识别的实现大致可分成三个模块:语音数据的读取、语音数据的特征提取与分析以及语音情感识别。
2.1 语音数据的获取
语音数据的获取以话筒为依托,并将输入的语音信息存储为数字音频文件,这里采用了波形音频文件,即WAVE文件格式,扩展名为“.wav”。它是WINDOWS中缺省的也是最常用的文件格式,这种格式在IBM PC及其兼容的平台上被广泛的应用于加工处理数字声音的程序中,波形音频文件符合RIFF(Resource Interchange File Format)文件规范[10]。
本系统对语音信息的处理,主要是对WAVE文件中data结构所包含的信息进行分析和提取,以及使用优化的FFT快速傅立叶变换,可以将输出直接转化成频率(Hz)的形式,从而得到输入信号中包含的频率(Hz)及其幅度值。对音频数据的优化FFT变换在Matlab平台实现。
2.2 语音情感识别
语音情感识别有两种较为流行的方法: a)基于概率生成模型的方法如高斯混合模型(GMM)和隐马尔可夫模型(HMM);b)基于判别模型的方法,主要有支持向量机(SVM)和人工神经网络(ANN)。近来,一种新的解决思路是把上述若干模型融合起来,各自取长补短,形成混合模型[12]。这里采用基于判别模型的PNN (probabilistic neural network)和基于概率生成模型的HMM(hidden markov model)的混合模型[13],算法如下:
3 基于多模式的识别方法
3.1 多模式识别系统的设计
以上基于单模式的各情感识别方法都有自己的缺点,例如,基于单视觉的人脸识别方法,只能对人的正面脸进行情感识别,而捕捉到的人脸图像大部分却是非正面的,因为自然状态下人的头部是很随意的;基于单视觉的人体动作识别方法,其中的多数方法只能识别一些简单的运动,无法应用到复杂动作的识别,且识别出的情感种类比较少,不能识别出教学中应有的一些情感状态;基于单听觉(语音)的识别方法,受语音库的影响比较大,而语音库的建立很不完善,正确率打折,同时对活动性相近的情感[13]的区分性较差。
针对各单模式情感识别的缺点,采用多模式的情感识别方法,目的是共同来识别人在无意识情况下的情感状态,为下一步进行情感分析、反馈与评价提供准确的信息,最终利用各种情感信息调用不同的学习策略以达到学习的最佳状态。
由于识别的环境为远程E-learning教学的学生端,因此多模式识别系统包括了文章所论述的各单模式情感识别方法,即:基于视觉的面部表情识别和身体动作识别、基于听觉的会话信息(语音)识别,共同配合来进行情感的识别,系统的构架图如图4:
3.2 多模式识别方法
基于多模式的识别方法,目前有三种可以对视听信息进行融合的策略[1](特征层面、决策层面和模型层面)。其中,特征层面上的融合策略[16]的主要方法为:首先关联韵律特征和面部特征,以构造共同特征向量,然后用来建立一个情感识别器;决策层面上的融合策略[3]的主要方法为:先独立的识别视觉、听觉的情感,最后把单一模式的识别结果进行融合;模型层面上的融合策略[18]的主要方法为:可以利用音频流和视频流之间的关联性,并能同步流。
目前常用的是特征层面与决策层面的融合策略,模型层面上的融合策略要同步音频视频流,比较复杂则不常采用。特征层面上的融合策略采用单一的分类器来处理视听的特征;决策层面上的融合策略视听的特征有各自的分类器处理,最后把输出的结果按一定的标准(包括最大、平均、乘积、权值)进行组合[6]。两种方法的流程图如图5:
特征层面上的融合策略对发怒(anger)与平静(neutral)这两种情感状态的识别率最高;而决策层面上的融合策略对快乐(happiness)与悲伤(sadness)这两种情感状态的识别率最高;两种方法对其它情感状态的识别情况基本相同[8]。因此,在本文的多模式识别系统中,结合以上分析得出的教学系统中常见的情绪:平静、困惑、无聊、高兴、挫败感、厌恶、惊讶,把这两种融合策略进行结合。
两种融合策略结合的方法:以决策层面上的融合策略为主,当所有采样的数据进入情感识别模块进行处理时,使用决策层面上的融合策略来输出结果;最后经过评价模块反馈回来的信息不理想时,先进入情感分析模块重新分析,再进入评价;评价还是不理想时,则把原来采样的数据在情感识别模块中,换为特征层面上的融合策略进行处理。
4 实验结果
系统的实现采用VC++开发平台,利用VC中的网络应用函数开发出客户端/服务器的通讯系统[6],多模式情感识别模型的仿真引用MATLAB中的神经网络来进行。
本系统利用MATLAB来进行训练使其能很好的为系统服务,然后把训练好的模型嵌入到学生端,该文中所设计的模型与E-learning系统没有整合在一块儿,而是单独在每个学生端安装,并且相应的数据库也是独立安装。动画人物的实现,利用了Microsoft Agent技术来实现,选用的动画人物为Merlin,并作为ActiveX控件嵌入到学生端程序,运行界面如图6:
5 结束语
基于多模式的情感识别方法,把基于单模式的识别方法集成到一块儿来共同识别情感,识别的过程较单模式要复杂,且识别时间相对要长。处理的又是人在无意识情况下的情感状态,对多模式情感识别提出了更大的挑战。基于多模式的识别方法已经是目前情感识别方法的主流。
参考文献:
[1] Zeng Z H, Pantic M, Glenn L. Roisman and Thomas S. Huang. A Survey of Affect Recognition Methods:Audio,Visual and Spontaneous Expressions, Japan:ICMI’07,2007:126-133.
[2] Hsu R L,Abdel-Mottaleb M,Jain A K.Face detection in color images.IEEE Trans.Pattern Analysis and Machine intelligence,2002,24(5):696-706.
[3] Reuderink B,Poel P,Truong P,Ronald Poppe,and Maja Pantic. Decision-Level Fusion for Audio-Visual Laughter Detection,LNCS 5237,2008:137-148.
[4] Alejandro J,Daniel G P,Nicu S,et al.Human-centered computing:toward a human revolution[J].Computer,2007,40(5)30-34.
[5] Jin N,Mokhtarian F.Image-based shape model for view-invariant human motion recognition[A].Proceedings of Conference on Advanced Video and Signal Based Surveillance[C].London:IEEE,2007:336-341.
[6] Ogale A S,Karapurkar A,Aloimonos Y.View-invariant modeling and recognition of human actions using grammars[A].International Conference on Computer Vision,Workshop on Dynamical Vision[C].Beijing,China:Springer Verlag,2005.
[7] Parameswaran V,Chellappa R.Using 2D projective invariance for human action recognition[J].International Journal of Computer Vision,2006,66(1):83-101.
[8] 王金庭,杨敏.基于YCbCr空间的亮度自适应肤色检测[J].计算机系统应用,2007(6):99-101.
[9] 刘振,吴鹏,陈月辉.基于PCA和神经网络的人脸识别[J].山东科学,2006,19(4):63-67.
[10] 王茜.一个语音情感识别系统的设计与实现[J].大众科技,2006,94(8):103-104.
[11] 赵腊生,张强,魏小鹏.语音情感识别研究进展[J].计算机应用研究,2009,26(2):428-432.
[12 蒋丹宁.蔡莲红.基于语音声学特征的情感信息识别[J].清华大学学报:自然科学版,2006,46(1):86-89.
[13] 董静,王万森.E-learning系统中情感识别的研究[J].计算机工程与设计,2008,29(17):4525-4534.
[14] 程祥.人体动作识别的研究[J].电脑知识与技术,2006:120-133.
关键词: 人工智能 发展过程 研究热点 应用领域 未来发展
一、人工智能概述
人工智能(Artificial Intelligence,简称AI),也称机器智能,它是计算机科学、控制论、信息论、神经生理学、心理学、语言学等多种学科互相渗透而发展起来的一门综合性学科。从计算机应用系统角度来看,人工智能是研究如何制造出智能机器或智能系统,实现模拟人类智能活动的能力,以延伸人们智能的科学。人工智能是一门交叉学科,是一门涉及心理学、认知科学、思维科学、信息科学、系统科学和生物科学等多学科的综合性技术学科,目前已在知识处理、模式识别、自然语言处理、博弈、自动定理证明、自动程序设计、专家系统、知识库、智能机器人等多个领域取得举世瞩目的成果,并形成了多元化的发展方向。
二、人工智能的发展过程
人工智能经历了三次飞跃阶段:第一次是实现问题求解,代替人完成部分逻辑推理工作,如机器定理证明和专家系统;第二次是智能系统能够和环境交互,从运行的环境中获取信息,代替人完成包括不确定性在内的部分思维工作,通过自身的动作,对环境施加影响,并适应环境的变化,如智能机器人;第三次是智能系统,具有类人的认知和思维能力,能够发现新的知识,去完成面临的任务,如基于数据挖掘的系统。
三、人工智能的研究热点
AI研究出现了新的,这一方面是因为在人工智能理论方面有了新的进展,另一方面是因为计算机硬件突飞猛进地发展。随着计算机速度的不断提高、存储容量的不断扩大、价格的不断降低,以及网络技术的不断发展,许多原来无法完成的工作现在已经能够实现。目前人工智能研究的三个热点是:智能接口、数据挖掘、主体及多主体系统。
1.智能接口技术是研究如何使人们能够方便自然地与计算机交流。为了实现这一目标,要求计算机能够看懂文字、听懂语言、说话表达,甚至能够进行不同语言之间的翻译,而这些功能的实现又依赖于知识表示方法的研究。因此,智能接口技术的研究既有巨大的应用价值,又有基础的理论意义。目前,智能接口技术已经取得了显著成果,文字识别、语音识别、语音合成、图像识别、机器翻译及自然语言理解等技术已经开始实用化。
2.数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但是又潜在有用的信息和知识的过程。数据挖掘和知识发现的研究目前已经形成了三根强大的技术支柱:数据库、人工智能和数理统计。主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现及网上数据挖掘等。
3.主体系统是具有信念、愿望、意图、能力、选择、承诺等心智状态的实体,比对象的粒度更大,智能性更高,而且具有一定的自主性。主体试图自治、独立地完成任务,而且可以和环境交互,与其他主体通信,通过规划达到目标。多主体系统主要研究在逻辑上或物理上分离的多个主体之间进行协调智能行为,最终实现问题求解。多主体系统试图用主体来模拟人的理,主要应用在对现实世界和社会的模拟、机器人及智能机械等领域。目前对主体和多主体系统的研究主要集中在主体和多主体理论、主体的体系结构和组织、主体语言、主体之间的协作和协调、通信和交互技术、多主体学习及多主体系统应用等方面。
四、人工智能的应用领域
1.专家系统
专家系统是一个具有大量专门知识与经验的程序系统,专家系统存储着某个专门领域中经过事先总结、分析并按某种模式表示的专家知识,以及拥有类似于领域专家解决实际问题的推理机制。专家系统的开发和研究是人工智能中最活跃的一个应用研究领域,涉及社会各个方面。
2.知识库系统
知识库系统也叫数据库系统,是储存某学科大量事实的计算机软件系统,它可以回答用户提出的有关该学科的各种问题。知识库系统的设计是计算机科学的一个活跃的分支。为了有效地表示、储存和检索大量事实,已经发展出了许多技术。但是在设计智能信息检索系统时还是遇到很多问题,包括对自然语言的理解,根据储存的事实演绎答案的问题、理解询问和演绎答案所需要的知识都可能超出该学科领域数据库所表示的知识。
3.物景分析
计算机视觉已从模式识别的一个研究领域发展为一门独立的学科。视觉是感知问题之一。整个感知问题的要点是形成一个精练的表示,以表示难以处理的、极其庞大的未经加工的输入数据。最终表示的性质和质量取决于感知系统的目标。机器视觉的前沿研究领域包括实时并行处理、主动式定性视觉、动态和时变视觉、三维景物的建模与识别、实时图像压缩传送和复原、多光谱和彩色图像的处理与解释等。机器视觉已在机器人装配、卫星图像处理、工业过程监控、飞行器跟踪和制导及电视实况转播等领域获得极为广泛的应用。
4.模式识别
模式识别就是识别出给定物体所模仿的标本或标识。计算机模式识别系统能够弥补计算机对外部世界感知能力低下的缺陷,使计算机能够通过感官接受外界信息,识别和理解周围环境。模式识别在二维的文字、图形和图像的识别方面已取得许多成果,在三维景物、活动目标的识别和分析方面是目前研究的热点,同时它还是智能计算机和智能机器人研究的十分重要的基础。此外,人工智能还在机器视觉、组合调度问题、自然语言理解、机器学习、博弈、定理证明等研究应用领域发挥着重要作用。可以说人工智能已深入各行各业,对人类社会作出了巨大的贡献。
5.机器人
机器人学所研究的问题,从机器人手臂的最佳移动到实现机器人目标的动作序列的规划方法,无所不包。尽管已经建立了一些比较复杂的机器人系统,但是现在工业上运行的机器人都是一些按预先编好的程序执行某些重复作业的简单装置,大多数工业机器人是“盲人”。机器人和机器人学的研究促进了许多人工智能思想的发展。智能机器人的研究和应用体现出广泛的学科交叉,涉及众多课题。机器人已在工业、农业、商业、旅游业、空中和海洋及国防等多个领域获得越来越普遍的应用。
五、人工智能的未来发展
目前绝大多数人工智能系统都是建立在物理符号系统假设之上的。在尚未出现能与物理符号系统假设相抗衡的新的人工智能理论之前,无论从设计原理还是从已取得的实验结果来看,Soar在探讨智能行为的一般特征和人类认知的具体特征的艰难征途上都取得了有特色的进展或成就,处在人工智能研究的前沿。上世纪80年代,以NewellA为代表的研究学者总结了专家系统的成功经验,吸收了认知科学研究的最新成果,提出了作为通用智能基础的体系结构Soar。目前的Soar已经显示出强大的问题求解能力。在Soar中已实现了30多种搜索方法,实现了若干知识密集型任务(专家系统),如RI等。对于人工智能未来的发展方向,专家们通过一些前瞻性研究可以看出未来人工智能可能会向以下几个方面发展:模糊处理、并行化、神经网络及其情感。
目前,人工智能的推理功能已获突破,学习及联想功能正在研究之中,下一步就是模仿人类右脑的模糊处理功能和整个大脑的并行化处理功能。人工神经网络是未来人工智能应用的新领域。未来智能计算机的构成,可能就是作为主机的冯・诺依曼型机与作为智能的人工神经网络的结合。研究表明:情感是智能的一部分,而不是与智能相分离的,因此人工智能领域的下一个突破可能在于赋予计算机情感能力。情感能力对于计算机与人的自然交往至关重要。
根据这些前瞻性研究我们也可以通过想象模拟勾画出人工智能未来发展的三个阶段。
1.融合时期(2010―2020年)
(1)用语言操纵和控制的智能化设备十分普及,像远程医疗这样的服务也更为完善。
(2)以计算机和互联网为基础的远程教育十分普及,在家就可以上大学。
(3)在身体里植入许多不同功能的芯片已不新奇。
(4)量子计算机和DNA计算机会有更大发展,新材料不断问世。
(5)抗病毒程序可以防止各种非自然因素引发灾难。
2.自信时期(2020―2030年)
(1)智能化计算机和互联网既能自我修复,也能自行进行研究、生产产品。
(2)一些新型材料的出现,促使智能化向更高层次发展。
(3)有了高水准智能化技术的协助,人们“定居火星梦”可能性大增。
3.非神秘时期(2030―2040年)
(1)新的全息模式世界将取代原有几何模式的世界。
(2)人们对一些目前无法解释的自然现象会有更完善的解释。
(3)人工智能可以模仿人类的智能,因此会出现有关法律来规范这些行为。