前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络的缺陷主题范文,仅供参考,欢迎阅读并收藏。
关键词:ROS;表面缺陷;图像采集;神经网络;模型训练
飞机蒙皮是包围在飞机骨架结构外且用粘接剂或铆钉固定于骨架上,形成飞机气动力外形的维形构件,在飞机正常工作状态下扮演着重要的角色,一旦飞机蒙皮出现缺陷等问题,需要及时的反馈出来并且维修。传统的飞机表面缺陷检测方式大多数是由人工来完成,会存在效率低、成本高等缺点,甚至会出现检测失误的情况。本文就针对铝合金表面缺陷检测方面,提出一种基于ROS的飞机表面缺陷检测系统,采用移动机器人底盘定位和导航技术,结合深度学习、图像处理等技术检测出存在缺陷的位置并标记出来,通过机器代替传统人工的方式,旨在提高检测效率和检测精度,为飞机表面缺陷检测提供一种方式。
1系统的总体设计
飞机表面缺陷检测系统主要由检测模块、ROS机器人模块、图像处理模块三大部分组成,系统的总体结构框图如图1所示。系统的具体工作原理为:在某一区域范围内,检测模块以树莓派为核心控制器,通过检测模块中的图像采集系统对铝合金材料表面进行图像采集,将采集到的图像通过TCP通信传输到图像处理模块上[4]。图像处理模块利用深度学习中设计的卷积神经网络进行数据训练,得到检测模型,将检测模型应用到图像预处理上。此时,OpenCV对检测模块得到的图像进行图像处理[5],最终得到缺陷出现的位置。当前区域检测完毕后,通过ROS机器人模块的定位和导航功能,驱动运动执行机构工作,并移动到相邻下一块检测区域,直到所有位置都检测完毕。上述工作原理可实现飞机表面缺陷检测系统,下文将对其包括的三大模块进行说明介绍。
2检测模块设计
如图2所示,系统的检测模块主要是包括树莓派和摄像头,其中树莓派作为检测模块的处理器,搭建的有Ubuntu系统,是系统实现的重要组成部分。树莓派可以提供普通计算机的功能,并且功耗低。可直接在树莓派上安装Keil进行开发,具有很好的开发效果,运行稳定。本次飞机表面缺陷检测系统实现了树莓派将摄像头拍摄的图片发送到图像处理模块上,同时也搭载ROS系统实现了移动底盘的定位和导航功能。
3ROS机器人模块设计
ROS随着机器人技术发展愈发受到关注,采用分布式框架结构来处理文件,这种方式允许开发者单独设计和开发可执行文件。ROS还以功能包的形式封装功能模块,方便移植和用户之间的共享。下面将介绍其建图和导航功能的实现。
3.1建图设计
本文在ROS系统中使用Gmapping算法软件包实现建图[7],在ROS系统中设计了建图过程中各节点及节点间的话题订阅/的关系如图3所示。在图3建图节点话题关系图上,其中椭圆形里代表节点,矩形基于ROS的飞机表面缺陷检测系统胡浩鹏(纽约大学NewYorkUniversity纽约10003)框里代表的是主题,节点指向主题代表着该节点了主题消息,主题指向节点代表着该节点订阅了主题消息。在建图过程中,主要涉及激光雷达节点、键盘控制节点、底盘节点、Gmapping节点和地图服务节点。
3.2导航设计
ROS提供的Navigation导航框架结构如图4所示,显然MOVE_BASE导航功能包中包括全局路径规划和局部路径规划两部分,即在已构建好的地图的基础上,通过配置全局和局部代价地图,从而支持和引导路径规划的实施。为了保证导航效果的准确,通过AMCL定位功能包进行护理床的位置定位[8]。获取目标点的位置后,MOVE_BASE功能包结合传感器信息,在路径规划的作用下,控制指令,控制护理床完成相应的运动。
4图像处理模块设计
图像处理模块设计主要分为图像预处理、模型训练和卷积神经网络三大部分,通过TCP通信协议进行通信,TCP通信是一种面向连接的通信,可完成客户端(树莓派)和服务端(PC)的信息传递[9]。下面主要对卷积神经网络部分进行介绍。
4.1卷积神经网络训练流程
通过相机采集到的缺陷和问题图像作为训练样本,这部分是检测飞机表面缺陷的关键一步,然后对训练样本进行训练,具体步骤如下所示。(1)训练标记数据:首先使用图像预处理中标记好的道路故障提取出来,通过卷积神经网络对标记框内的目标数据进行训练;(2)提取特征数据:将道路故障的类型统计并归纳;(3)误差反馈学习:对测试样本进行误差反馈学习,并进行测试;(4)优化训练数据:将得到的测试结果与设定的故障分类结果进行误差对比,不断优化训练集,最终得到理想的训练数据。
4.2缺陷检测流程
缺陷检测流程如图5所示,首先输入缺陷原始图像,通过特征提取网络,将处理后的图像使用检测器进行检测,其中检测器里为卷积神经网络训练后得到的模型,最终缺陷检测后得到的识别后的图像,并反馈出来。
4.3实验测试
铝合金表面缺陷主要有碰伤、刮花、凸粉、脏点等常见的缺陷,下面将以这四种为主要对象进行检测训练,各自训练集数量为1000张。通过卷积神经网络对缺陷的特征进行提取和分类,最终实现了缺陷的检测。本次实验测试的样本为200张,每种缺陷50张,均采集自铝合金材料表面且与训练样本一致,实验结果如表1所示。由表1可知,检测脏点的准确率高达98%,刮花和凸粉的准确率也达到94%,但碰伤的准确率相对较低,只有88%。可能造成的原因是:①硬件原因导致采集的图像清晰度比较低;②碰伤缺陷不明显,无人机难以识别;③训练的数据集较少,特征学习误差大;但最后结果是满足了设计需求,还需进一步改进。
5总结与展望
关键词:PCA算法;人脸识别;五级并行PCA模型;权重计算;均值滤波
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)19-0147-02
Research on Face Recognition System Based on Parallel PCA Algorithm
ZHAO Ya-peng
(College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China )
Abstract:In order to solve the problem of fast and accurate face recognition, a face recognition method based on parallel PCA algorithm is proposed. Using principal component analysis (PCA) method can reduce the dimension of features, easy to implement, training time is short, the design and implementation of a parallel algorithm for PCA, first of all according to the whole image to extract the 4 part of face images, then the whole image and 4 partial images at the same time by the same structure of the PCA model of learning, face feature vector extraction, the Euclidean distance for matching calculation of the test images and training images, finally through the test image with the five level parallel PCA model identification results are weighted decision, in order to achieve face recognition. Using the image data of the ORL face database , the simulation results in Matlab show that the method has a great degree of improvement in accuracy, the recognition speed is relatively fast, with a high degree of robustness.
Key words:PCA algorithm;Face recognition;Five level parallel PCA model;Weight calculation;Mean filter
1 概述
随着智能终端设备(手机、Pad、门禁等)的不断发展,身份识别已经成为我们日常生活的重要组成部分,身份验证技术被广泛应用于各个领域,特别是人们对于个人隐私信息的保护,使得身份识别再次成为关注的焦点。人脸识别作为身份识别的重要手段之一,因其具有识别率高、采集性强、接受性高等特点,在身份识别的各类方法中具有独特的优势,成为了目前比较热门的研究领域。
目前,卷积神经网络(Convolutional Neural Networks)是图像识别领域最重要的研究热点,而且在语音识别领域也取得了不错的效果,但是卷积神经网络的整个训练过程比较费时,而且实现相对复杂,而基于PCA算法的人脸识别技术因其自身存在的许多缺陷,一直没有被广泛应用,但该方法实现简单、学习速度较快,因此,本文主要研究改进的并行PCA算法,以弥补传统PCA算法在人脸识别领域的不足。
本文提出的基于并行PCA算法的人脸识别技术,首先对原始图像进行预处理,如灰度归一化和中值滤波等操作,以消除图像噪声、光照等因素造成的影响,使得特征提取更加准确可靠。然后,通过5级并行PCA模型获取数据的不同特征矩阵,然后将训练图像和测试图像分别进行子空间的投影,利用欧氏径向基函数(Euclidean Radial Basis Function)进行人脸的匹配,最后根据训练得到的权值向量进行加权决策。本文通过ORL人脸数据库的仿真实验证明,该算法的效果明显好于PCA算法。
2 并行PCA算法
PCA(Principal Component Analysis)即主成分分析技术,PCA是基于K-L变换的统计学分析方法,是多元分析中常用的方法,其基本思想是将高维数据投影到低维空间,主要过程在于特征值的计算和矩阵的降维。将PCA应用于人脸识别时,首先将图像转化成矩阵向量,然后进行矩阵的奇异值分解(Singular Value Decomposition),将高维向量通过计算得到的特征向量矩阵投影到低维的向量空间,从而减少数据的计算量。
2.1 基于并行PCA算法的人脸识别流程
本文中提出的并行PCA算法,正是基于上述的PCA算法,通过建立5级的PCA算法模型同时进行数据特征的学习,使得最终的人脸识别准确率得到进一步的提高,具体的人脸识别流程如图1所示。
2.2 并行PCA算法的实现的步骤
2.2.1 人脸图像的预处理
首先,需要把ORL人脸数据数据库的所有训练图像大小进行归一化,并转化为像素矩阵,矩阵大小记为,为矩阵的行数,为矩阵的列数。之后利用均值滤波和灰度归一化进行图像的去噪处理,以消除光线等问题对图像造成的影响,以方便后期的特征提取等操作。
2.2.2 人脸图像的PCA降维
根据PCA的原理,可以将每一张图像看成是一个高维的向量,所有的图像可以看成是这个高维空间中的一点,PCA要做的就是找出另外一个尽可能多的反应图像特征的低维空间。
假如样本由n张大小为p*q的人脸图像组成,那么每一张图像可以保存为一列向量,向量维数是p*q,真个样本可以看成是一个行数为n,列数为p*q的矩阵记为矩阵A。
根据上述过程,首先求出矩阵A的协方差矩阵,然后求出协方差矩阵的特征值,选取前m个最大的特征值,然后求出对应的特征向量,组成一个特征矩阵。通常所说的“特征脸”就是这些特征向量,而特种功能矩阵就是“特征脸”空间或者说子空间。然后可以将每一张图片投影到该子空间,得到了每一张图像的投影矩阵(l*m)。
2.2.3 人脸图像的识别
对于待识别的图像,也可以看成是一列向量,投影到子空间得到一个投影矩阵,然后一一求出这个投影矩阵与样本图像投影矩阵最相似的。然而有可能该人脸不是人脸库中的,所以最相似的人脸也不一定是同一个人脸,还需要设置一个阈值来判断待识别人脸是否是人脸库中的。
人脸识别部分正是基于上述的PCA算法,在本文所提出的并行PCA模型中,是由5级的PCA模型同时进行人脸识别这一操作,最后根据训练得到的权值向量进行决策,通过使用多个PCA模型,从而使得整个识别过程的准确率得到进一步的提升。
3 系统设计及实现
3.1 系统总体设计
本文中所提出的基于并行PCA算法的人脸识别系统,包括人脸图像采集模块、图像预处理模块、识别模块。人脸图像采集模块主要是采集训练图像数据和测试图像数据,并由原始图像提取出4幅与之对应的部分图像;图像预处理模块主要就是进行图像归一化和图像的去噪工作,图像的归一化包括大小归一化和灰度归一化,可以使用比较常见的直方图均衡化等技术,而图像的去噪可以使用中值滤波技术,以去除比较常见的高斯噪声等;人脸识别模块是基于5级相互独立的PCA模型进行特征值的学习和比对,而且通过训练得到的权值向量进行最终的是脸识别决策。整个系统的实现是基于Matlab进行仿真实验的,实验数据来自剑桥大学AT&T实验室创建的ORL人脸数据库。
3.2系统功能模块实现
3.2.1人脸图像采集实现
图像采集模块主要就是将存储在本地的图像文件通过Matlab的imread函数读入矩阵中,以方便后期的PCA操作,其核心语句为Image{t}=imread([[filepath,FilDir(ii).name],'\',ImDir{ii}(jj).name]);
使用上述语句即可读入训练数据和测试数据文件。
3.2.2 图像预处理模块
该模块的主要任务就是利用中值滤波和直方图均衡化进行图像的去噪工作,以消除不同光照和图像噪声的影响,提高准确率。其核心代码为:
S1=zeros(1,256);
for i=1:256
for j=1:i
S1(i)=GP(j)+S1(i);
end
end
S2=round((S1*256)+0.5);
for i=1:256
GPeq(i)=sum(GP(find(S2==i)));
end
3.2.3 识别模块
图像经过之前的预处理之后,需要将图像矩阵转化为列向量,一幅图像就是一列向量,整个训练图像构成了整个特征空间矩阵,测试图像也会转化为一列向量,之后会利用矩阵之间的运算进行图像的分析计算。识别模块的工作就是根据测试图像和之前所有的训练数据进行对比,查找到与之最相似的图像,实验的结果如图2所示。
4 结论
PCA算法作为传统的人脸识别算法,因其自身存在的许多缺陷而没能发挥较好的作用,但是其自身具有其他算法所不具有的特点,本文设计的并行PCA算法虽然是基于PCA算法,但是借鉴了卷积神经网络的多层结构,而且使用加权操作进行最终人脸识别的决策。基于ORL人脸数据库的测试结果表明,该并行PCA算法的准确率和鲁棒性均得到了进一步的提升,与其他的单独PCA算法具有十分明显的优势。
参考文献:
[1] 张利芳. 基于PCA算法的人脸识别系统研究[D].太原:中北大学,2015.
[2] 杨海燕,蒋新华. 基于并行卷积神经网络的人脸关键点定位方法研究[J]. 计算机应用研究, 2015, 32(8): 2517-2519.
[3] 杨颖娴. 基于PCA算法和小波变换的人脸识别技术[J]. 微电子与计算机, 2011, 28(1): 92-94.
[4] 段宝彬,韩立新. 改进的卷积神经网络及在碎纸拼接中的应用[J]. 计算机工程与应用, 2014, 50(9): 176-181.
关键词:交通标志检测;ITS;TSR;颜色检测;形状检测
中图分类号:TB
文献标识码:A
doi:10.19311/ki.16723198.2017.12.089
1引言
随着经济的发展,汽车出行在为人们带来便利的同时也增加了安全事故的发生。智能交通系统ITS(Intelligent Transportation System)作为一种全新的汽车识别模式,能够缓解交通事故的发生。具体表现在,汽车在行驶过程中,利用车载系统对交通标志进行识别,再反馈给驾驶员,为驾驶提供路况信息,使驾驶员能够对路况做出准确的判断,减少交通意外的发生。另一方面,对于无人驾驶和交通标志的识别,也l挥着重要的维护作用。
近几十年来,交通标志检测与识别受到了诸多学者的关注与研究,ITS在减少安全事故和缓解道路压力方面发挥着重要作用,交通标志识别系统TSR(Traffic Sign Recognition)也应运而生。交通标志识别系统包括很多方面,交通标志检测是其一个子方面,但其重视程度不言而喻,它的应用范围很广,如无人驾驶车辆和驾驶员辅助系统等,在行车过程中,为驾驶员提供实时路况检测。虽然目前在交通标志检测方面取得了一些突破性的进展和一些阶段性的成果,但随着道路环境的多样化和不确定因素,使得检测仍存在诸多困难。总的来说,交通标志检测实用性强,关注度高,在任何时候热度都不会消减,会引发更多的人去深入研究。
2交通标志检测系统组成
交通标志检测包括五部分:图像采集,预处理,颜色分割,形状检测,精准定位。图形的采集尤为重要,对于采集到倾斜的图像,我们需要对其进行矫正处理。对于正常图像,大多数情况我们需要对其做预处理,以消除光照等的影响,然后可以通过交通标志特有的颜色和形状信息对其进行分割处理,以得到待选区域。再根据一些特定的算法对干扰区域进行剔除,从而得到目标区域。对于目前交通标志检测的研究现状,虽然取得了突破性的进展,但各种算法亦有优缺点,面对复杂多变的交通环境很难做出很好的检测,所以有必要对交通标志的检测进行更进一步的讨论和研究。
3国内外研究现状
3.1国外研究现状
早在1987年日本就进行了交通标志的检测与识别,采用了模板匹配的经典算法,其平均识别时间为0.5秒。发到国家也不甘落后,1993年美国针对“停车”的标志研究开发了ADIS系统,采用了颜色聚类的方法对目标进行检测,然而AIDS存在一个明显的缺陷,就是时间不稳定。为了满通标志时间识别的精确性,1994年,戴姆勒-奔驰汽车公司与大学合作开发,最终,一个全新的系统诞生了,其速度之快令人叹服,达到3.2s/幅,交通标志数据库中,有40000多幅图像,其识别准确率为98%。交通标志检测与识别研究进入新千年。越来越多的科研工作者和科研机构加入到交通标志检测与识别中去,使得检测技术有了很大的进步。在2001年Winconsin大学的Liu和Ran基于HIS空间的颜色阈值分割法,结合神经网络进行识别,经过实验显示该系统的准确率为95%。2005年Carethloy实验室和Nick Barnes自动化研究所利用交通标志在图形上的对称性来确定交通标志的质心位置,其建立的交通标志识别系统的准确率为95%。在2009年Muhammad等人运用多个方法进行识别实验得到最好的识别准确率为97%。2011年德国以德国交通标志数据库(GTSRB)为基础举办了交通标志识别大赛(IJCNN2011)。标志着交通标志检测与识别受到了全世界的高度关注,这也促进了交通标志检测与识别的研究进展。Ciresan等人在IJCNN2011大赛上采用深度卷积神经网络(Deep Convolution Neural Network)识别算法得到了比人类识别平均率高的结果。2013年,对于交通标志检测系统,Kim J.B将视觉显著性模型运用到其中,使交通识别的准确性更高。
3.2国内研究现状
与国外相比,在时间上,对于交通检测系统,我国运用的稍微落后。在交通标志检测研究方面,将颜色和形状结合的相关检测方法较为广泛,在识别算法方面,国内一些学者也取得了显著性的成果。在2000年郁梅提出了一种基于颜色的快速检测方法。2004年,根据不变矩特征和BP神经网络,王坤明等人对交通识别系统做了进一步的阐述。2008年,交通识别系统有了进一步的发展,以BP神经网络为基础,宁波大学朱双东教授等人将交通标志的颜色区分成了五种最基本的颜色。2012年朱淑鑫在RGB和HIS空间上进行多阈值分割。2013年,“红色位图”方法被提出,其主要利用在边缘信息的形状检测上,王刚毅希望通过这一方法来提高红色圆形标志区域的检测率。
4交通标志检测算法现状
我国的交通标志主要分为警告、禁止、指示三大类,交通标志颜色主要有红色、蓝色、黑色、黄色和白色五种基本颜色,交通标志的形状有四大类,即三角形、矩阵、八边形和圆形。目前针对道路交通标志检测的算法主要是基于颜色的检测、形状的检测以及颜色和形状相结合的检测,下面我们对常见的检测方法进行简单的概述。
4.1基于色的检测方法
由于交通标志具有很明显的颜色特征,所以很多文献都对这一方法做了讨论和研究。常见的颜色空间有RGB、HSI、Lab、Ycgcr、Ycbcr等。De La Escalear A等人运用RGB阈值的方法将颜色分类。但此方法受光照影响因素较大,为了减少光照等环境因素的影响,Ruta等人提出了RGB空间颜色增强的方法,这种方法可以快速将标志区域检测出来。由于RGB空间亮度和色度的混合在一起的,后来研究者们运用了更符合人类对颜色的视觉理解的HIS、HSV空间。为了使交通标志的检测精度更高,在HIS空间中设定阈值这个方法被提出了,事实上,一个交通标志可以由几种颜色构成,因此,S.LafuenteCArroyo等人希望通过这种方法对于不同颜色的交通标志都能检测出来。但HIS颜色空间聚类效果不好,因此,为了更好的对交通标志的颜色进行区分,选择聚类效果好的颜色空间至关重要,在此基础上,Jitendra N.Chourasia等人主张使用Ycbcr颜色区间。
4.2基于形状的检测方法
除了利用颜色对交通标志进行检测之外,还可以利用交通标志的形状,这也是其另一个重要的特点。最常用的检测圆形和直线是Hough变换,事实证明,Kuo W J等人通过Hough变换,对交通标志进行检测,效果显著,但由于其计算量大的原因不适用于实时性监测。另一种形状检测法是基于拐角提取算法,Escalera等人提出拐角检测算法,简单来说,就是根据形状的变化所产生的像素点判断能否为拐点,来进行检测,但是,其唯一的缺点是误检率也比较高。Rangarajan等人提出了一种最优拐角检测方法,通过设计好的掩膜与图像做卷积运算后将拐角检测出来,鲁棒性好。
4.3基于颜色和形状的检测方法
既然基于颜色和基于形状的方法都不能得到很好的交通标志检测,于是很多学者将这两种方法结合起来,产生了综合颜色和形状的检测方法。并也取得了一些显著性的成果。M.Zadeh等人利用图像处理的相关知识,先把图像进行颜色分割,再运用形态学的相关方法提取区域边缘,最后对待定区域进行跟踪和几何分析,从而提取得到目标检测区域。但该方法对噪声特别敏感。所以当图像的噪声很强时这种检测方法的效果并不理想。
5交通标志检测与识别难点
尽管近几十年提出了很多新的检测方法,但目前的研究成果还不能够胜任复杂多变的现实场景。交通标志识别系统TSR设计到多个研究领域,包括图像处理、人工智能、模式识别和机器学习等相关领域,因此,关于交通标志识别系统的研究任重而道远,在未来,不管是自然场景下,还是复杂场景下,对于交通识别系统研究,都应重点关注。现阶段交通标志检测与识别主要面临的困难和挑战如下:
(1)环境对交通标志的影响。这主要表现在四季中风雨对交通标志的损坏,这在一定程度上会降低图像的清晰度。交通标志长年暴露在外面,难免会出现变形、污损、褪色等情况,这对检测也造成了困难。
(2)拍摄角度的影响。不同的拍摄角度对检测具有比较大的影响,对倾斜的图像我们需要对其做一个矫正处理。
(3)现场场景环境中有很多干扰物体,使得在分割的时候会把不是标志的物体也分割出来,对我们检测带来了一定程度上的干扰。
(4)交通标志类型复杂,种类多,目前所了解的就有130多种,包括警告标志、指示标志、禁令标志、指路标志等等,给检测大大增加了难度。
(5)实时性改进的问题,由于汽车移动速度快,而且在移动过程中往往在一定程度上有抖动和变速等动作,捕捉到的图像会产生变形模糊,处理时间过长会导致司机反应时间缩短。
(6)准确率有待进一步提升。准确率太低的话不但达不到驾驶辅助作用,反而会引起交通事故发生。
(7)没有公用样本数据。国内目前统一的评判标准和数据库尚未建立起来。
(8)智能交通识别系统服务于大众,因此需要考虑经济成本问题。
综合以上可知,由于在现实场景中以上问题的存在,所以在设计道路交通标志检测与识别算法的时候必须有针对性的解决上诉问题。
6总结
总的来说,交通标志检测与识别系统(TSR)的发展前景非常好,被广泛运用于辅助驾驶系统、无人汽车驾驶和各种道路检测标志的检测修复等领域。本文主要对国内外的研究现状做了一个回顾和分析,许多研究学者也做出了一些阶段性的成果和进展,但由于自然环境下一些复杂多变的因素对检测造成了困难和挑战,因此TSR系统的研究还面临许多难题有待解决。随着人工智能和机器学习等算法的提升,我们坚信未来的道路交通标志检测与识别会迈上一个新的台阶。
参考文献
[1]徐华青,陈瑞南,林锦川等.道路交通标志检测方法研究[J].福州大学学报,2010,(3):387392.
[2]常发亮,黄翠,刘成云等.基于高斯颜色模型和SVM的交通标志检测[J].仪器仪表学报,2014,35(1):4349.
[3]Salichs M A.TRAFFIC SIGN DETECTION FOR DRIVER SUPPORT SYSTEMS[C].2001.
[4]Kehtarnavaz N,Griswold N C,Kang D S.Stop-sign recognition based on color/shape processing[J].Machine Vision and Applications,1993,6(4):206208.
[5]Priese L,Lakmann R,Rehrmann V.Ideogram identification in a realtime traffic sign recognition system[C].Intelligent Vehicles 95 Symposium. Proceedings of the.IEEE,1995:310314.
[6]Liu H,Ran B.Vision-Based Stop Sign Detection and Recognition System for Intelligent Vehicles[J].Transportation Research Record Journal of the Transportation Research Board,2001,1748(1):161166.
[7]Barnes N,Loy G,Shaw D,et al.Regular polygon detection[C].Tenth IEEE International Conference on Computer Vision.IEEE,2014:778785.
[8]Muhammad A S,Lavesson N,Davidsson P,et al.Analysis of Speed Sign Classification Algorithms Using Shape Based Segmentation of Binary Images[J].Lecture Notes in Computer Science,2009,5702:12201227.
[9]Kim J B.Detection of traffic signs based on eigen-color model and saliency model in driver assistance systems[J].International Journal of Automotive Technology,2013,14(3):429439.
[10]郁梅,郁伯康.基于彩色D像的指示标志检测[J].计算机工程与应用,2000,36(4):169172.
[11]王坤明,许忠仁.基于不变矩和神经网络的交通标志识别方法研究[J].计算机应用研究,2004,21(3):254255.
[12]朱双东,蒋甜甜,刘兰兰.基于颜色规格化的交通标志识别[J].计算机应用与软件,2008,25(1):220222.
[13]朱淑鑫.基于颜色特征的交通标志图像分割研究[J].考试周刊,2012,(81):111112.
[14]Wang G,Ren G,Jiang L,et al.Hole-based traffic sign detection method for traffic signs with red rim[J].The Visual Computer,2014,30(5):539551.
[15]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.
[16]Ruta A,Li Y,Liu X.Real-time traffic sign recognition from video by class-specific discriminative features[J].Pattern Recognition,2010,43(1):416430.
[17]Lafuente-Arroyo S,Salcedo-Sanz S,Maldonado-Basc,et al.A decision support system for the automatic management of keep-clear signs based on support vector machines and geographic information systems[J].2010,37(1):767773.
[18]Chourasia J N,Bajaj P.Centroid Based Detection Algorithm for Hybrid Traffic Sign Recognition System[C].International Conference on Emerging Trends in Engineering and Technology.IEEE,2010:96100.
[19]Kuo W J,Lin C C.Two-Stage Road Sign Detection and Recognition[C].IEEE International Conference on Multimedia and Expo.IEEE Xplore,2007:14271430.
[20]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.
关键词:大学计算机基础;教学改革;人工智能;智慧课堂
云计算、大数据、人工智能新兴领域的崛起,推动信息技术全面渗透于人们的生产生活中。信息技术的核心在于计算机技术和通信技术。然而,虽然目前各个高校都开设了计算机基础课程,但是其教学却存在着诸多问题,导致该课程无法达到预期的教学效果。教育部在2012年《教育信息化十年发展规划(2011-2020年)》,其中指明“以教育信息化带动教育现代化,促进教育的创新与变革”[2]。因此,本文以华中师范大学计算机基础课程教学为例,深入阐述了传统计算机基础课程教学的弊端,提出了在当前人工智能如火如荼的时代背景下,如何应用人工智能相关技术对传统的计算机基础教学进行改革的具体方案。该方案以创建网络智慧课堂教学模式改革为主体,辅以教学观念、知识体系和课程考核方式改革,以期对高校的计算机基础课程教学有所裨益。
1传统教学的缺陷
⑴课程的教学地位没有引起足够的重视一些高校为计算机基础课程分配较少的学时(少于48学时),甚至有的专业将此课程设置为选修课。这种设置降低了该课程在教师和学生心目中的位置,导致了对该课程的忽视。同时,不少老师因为学时不够,时间紧迫,仅仅讲述与考试相关的内容,不考的一概不讲。这导致学生的眼界受限,知识和能力受限,无法培养其全面综合的计算机素质。还有的专业没有将这门课给专业的计算机学院的老师讲授,而是随意安排授课人员。没有经过系统专业训练的教师缺乏足够的知识储备,很难讲好这一门看似简单的课程。⑵课程教学内容的制定与当今时代对于信息化人才的需求脱节一些高校的现状是计算机基础的课程教材知识陈旧[3]、质量堪忧,教材总是无法跟上知识更新的步伐,例如都2019年了还在讲Office2010。有的高校由于缺乏对课程的重视,没有对教材优中选优,而是基于利益的考虑,优先选择自己院系编写的教材。其教材内容是七拼八凑,没有整体性、逻辑性和连贯性,更不用说前瞻性。这样的教材,无疑对学生的学习设置了巨大的屏障。除此以外,一些院校的课程教学知识体系不够明确和完善,教学大纲的制定不够科学。从教学大纲中制定的学时分配来说,常常偏重实用性[4],常用计算机软件操作占据了大部分的课时。这会让教师在授课时轻理论而重操作,如此培养学生,非常不利于其计算思维的形成,对后续其他计算机相关课程的学习也是很大的伤害。⑶教学模式过于传统,信息化水平较低从教学方式上来说,传统的教学模式以教师课堂授课为中心,是以教师为主体的教学模式[5]。在这种模式下,教师仍然主要以填鸭式教学为主[6],无法通过课堂教学发现学生的个性化特点,并进行有针对性的教学。另外,虽然计算机基础课程一般都配备了实验课时,但是实验课常常是采用教师布置上机任务、学生做完抽样检查的模式。这对于大课堂来说,教师的任务繁重,无法搜集到每一个学生的任务完成情况,无法清晰地掌握学生学习的实际情况和薄弱环节。而且,该课程缺乏相应的研讨课时,很难让学生对其所学知识进行深入思考和探究,以增强思辨能力和对课程的学习兴趣。⑷课程考核方式不够公平合理从考核方式上来说,该课程普遍采用“平时成绩”+“期末考试”的加权方式对学生成绩进行评定。平时成绩多由考勤分所得,期末考试多采用机考模式。这种考核方式过于单一化、机械化,无法对学生进行全方位的评价。很多学生来到教室打考勤,但可能根本没听讲,而是在睡觉或者玩手机。期末机考的公平合理性也是存在着很多的漏洞。例如机考的试题库可以十年不变,分值的分配和难度的掌握都没有经过系统的考量。甚至有的考试系统不够稳定和安全,频频爆出Bug,严重影响了考试结果的真实性。
2新人工智能环境下对计算机基础课程改革的具体方案
2012年开始,在随着卷积神经网络技术在视觉处理方面的应用取得巨大的成功之后,人工智能到达了有史以来的第三个爆发期。目前,深度学习技术在AlphaGo、无人驾驶汽车、机器翻译、智能助理、机器人、推荐系统等领域的发展如火如荼。与此同时,人工智能技术在教育领域方面的应用已经兴起。人工智能的教学产品也已有先例,例如基于MOOC平台研发的教学机器人MOOCBuddy等等。基于人工智能的教育是融合云计算、物联网、大数据、VR、区块链等新兴技术的增强型数字教育[2].在当前人工智能的大时代背景下,针对传统计算机基础的种种弊端,我们提出了如下教学改革方案。⑴改变教学理念,确立计算机基础课程的重要地位计算机基础作为高校的一门公共课,实则应当作为各个专业的学生后续的学习、科研的必修之课程。因此,高等学校应从源头上确立该课程的重要地位,将该课程纳入必修课范畴,并给与更充分合理的课时分配。除教学课时、实验课时之外,需要为该课程增加一定的研讨课时。任课老师必须是来自于计算机专业的人才。同时,定时举办关于该课程的教学培训、教学研讨会和教学比赛,改变教师的教学理念,从源头上给予该课程足够的重视。⑵优化教学内容,重新制定课程的教学知识体系教材是教师教学的主要依据,也是学生获得系统性知识的主要来源。因此,教材对于教学的重要性不言而喻。教材的选取需要优中择优,必要的时候可以根据自身院校的情况自己编写,力求使用好的教材使教学事半功倍。在选定优质教材的基础上,制定更加合理的教学大纲,优化计算机基础课程的教学知识体系,突出计算机学科入门相关基础理论知识的重要地位。对现有的过时内容进行更新,例如操作系统以Windows10的操作取代Windows7,Office这部分使用Office2019版本取代2010的版本,同时增加关于算法入门知识、程序设计入门知识以及人工智能、区块链等前沿知识单元的介绍。以华中师范大学为例,我们在图1中给出了该校计算机基础课程的教学知识体系结构图。⑶充分利用现代化的教学工具和人工智能技术,构建智慧课堂,改变传统教学模式现代化的教学应当转变以教师为核心的教学模式,更加突出学生的主体性地位。因此,在人工智能、物联网、大数据等技术和蓬勃发展的情形下,应当改变传统的课堂教学形式,充分利用现代化信息技术,将传统课堂教学和网络课堂教学模式相结合,构建智慧课堂。融合课堂教学身临其境的效果与网络课堂自主性强且方便师生交流的特点,通过师生之间多层次、立体化的互动,达到提升教学效果的目的。同时,建立功能强大、完善的学生实验平台,基于不同专业学生的不同特点和不同需求,进行个性化的作业设置。针对教师布置的实验任务和学生的完成情况,结合在线网络教学系统,通过传感器及网络数据,搜集学生的学习行为数据,并且使用人工智能算法进行智能分析,使教师对当前的学生的学习情况一目了然,并能引导学生对重点、难点的巩固和掌握。研讨课以学生为主体,按照所选课题进行分组调研、分组讨论,刺激学生的学习兴趣,培养其思辨能力。研讨内容最终可以课程论文的形式上交至课程共享平台,由教师和同学共同给出评分。这里,仍以华中师范大学为例,我们将在线教学系统、实验课平台、研讨课共享平台等集成为一个基于人工智能技术的网络智慧教学综合平台系统。该系统主要包括用户管理、在线教学、课堂互动、作业管理、考试管理、BBS系统、智能分析和平台管理8个模块,其主要功能如图2所示。该系统采用C/S模式,系统的服务器选用Linux服务器,同时开发基于PC机的和手机端的客户端系统,方便学生和教师随时选用、更加灵活。在线教学模块中的智能学习助理功能,能够根据历史用户的学习行为和当前用户的学习行为,自动地识别学习内容中的难点以及当前学生的难点内容,有针对性地对学生进行知识点强化。课堂互动模块中,通过可穿戴式传感器搜集学生的学习行为,用于后续智能分析模块中对学生的学习态度和学习行为进行智能分析。在线作业评价模块包括机器评价和教师评价两个功能。机器评价是系统为学生作业(客观题、主观题)自动评分,其中主观题的评分也是使用人工智能技术来实现。教师评分时可以参考机器评分,减少教师工作量。同时,教师评分为机器评分提供机器学习的经验数据,促进机器评分更加智能。智能分析模块能够依据学生的在线课程学习模块、课堂学习模块、作业管理模块等搜集到的学习行为数据进行综合分析,促使教师深入了解学生的学习情况和个性化特点,提升教学的针对性,并且有助于后续对学生进行全面、综合的分析和成绩评定。所有系统模块中使用到的智能分析技术包括基本的统计分析、以及各类机器学习算法(k-means,NaveBayes,SupportVectorMachine,DeepLearning等等)。⑷改变传统成绩考核的方式在“教学”+“实验”+“研讨课”课程结构以及网络智慧教学综合平台的辅助之下,学生的成绩评定更加全面化、多元化、公平化、自动化[7]。平时成绩中,除了教学综合平台的“课堂签到”次数之外,还增加更多丰富多元化的考察信息,如:学生的课堂讨论、在线课程学习和考核结果、平时作业完成情况,以及智能分析模块中辅助分析的学习态度、学习能力、平时成绩预测。期末上机考试系统也是智慧课堂综合平台的一个子模块,是精心设计的稳定、安全、功能强大的子系统,方便教师每一年更新试题库,修改bug。试题库中的每一套试卷都应当经过科学的考卷质量分析,使其难度、覆盖范围在一个均衡、合理的范围。最后,教师通过对各类平时成绩指标以及期末考试成绩加权,给出最终的学习成绩。通过规范、合理、公平、全面的考核体系,获得对学生公平、完善的评价机制,激励学生并刺激教学良性运转。
3结束语
1图像特征表示方法概述
设计图像的特征表示是计算机视觉中一项非常基本的研究内容,图像的分类、检索、标注等工作都是以提取图像特征为初始步骤,好的特征表示可以在相关图像分析中取得更佳的效果.因此,图像特征的设计与构造,直接影响算法的性能.而如何定义一个好的图像特征却是非常困难的:一方面,设计的图像特征对于同一类别下图像之间的变化(比如尺度、光照变化、对象位置变化等)要有足够的鲁棒性;另一方面,设计的图像特征要具备足够的判别性来处理不同类别间图像的变化.近年来,研究者提出了大量的底层特征用于各种图像分析任务,其中最具有代表性的是基于梯度朝向直方图的SIFT(scale-invariantfeaturetransform)[1]和HOG(histogramoforientedgradient)[2].尽管这类特征取得了一定意义的成功,但研究者发现,这类单一的底层特征并不足以在某些应用上达到更好的效果,因此提出了一类中间层的图像特征表示方法.其中,BoW(bagofwords)[3]是这类图像特征表示方法的典型代表,该方法在场景分类中获得了较好的性能.BoW算法生成图像特征表示分为3个过程:图像底层特征的获取、学习过完备字典和计算图像的码字直方图表示.然而,BoW方式并没有考虑特征向量在图像空间上的位置关系,使得其特征描述能力并没有达到最大化.为了弥补这一缺陷,空间金字塔匹配(spatialpyramidmatching,简称SPM)[4]方法通过在一幅图像的不同层次上计算码字直方图,形成了一个BoW多层特征,将BoW模型与图像空间进行合理融合.然而,由于SPM方法利用直方图交核函数来度量两幅图像间的相似度,导致无法产生低维度的图像特征表示,而且需要完整计算训练集图像间相似度的Gram矩阵,因此,其算法复杂度为O(n2)(其中,n为训练集中图像的个数).为了解决这一问题,有效匹配核算法(efficientmatchkernel,简称EMK)[5]在码字间相似性的基础上构造了一个低维特征映射空间,整个图像的特征可以表示为码字映射在这个低维特征空间后的平均,且可以采用线性SVM方法训练分类器,在图像分类应用中获得了非常不错的效果.然而,有效匹配核算法仍然依赖于人为定义的图像局部特征(如SIFT或HOG),只不过是通过计算有限维空间的局部线性特征表示来推出整体图像的线性特征.
Bo等人扩展了有效匹配核算法并提出了核描述子(kerneldescriptor,简称KD)[6]方法.这种方法只需定义任意两个局部图像块之间的相似性,且该相似性函数满足核函数定义.由于每个核函数都隐性定义了一个映射,它将图像块映射为再生核希尔伯特空间(reproducingkernelHilbertspace,简称RKHS)中一个非常高维的向量,这样,核函数可以表示为RKHS中两个高维向量的内积,通过核主成分分析(kernelprincipalcomponentanalysis,简称KPCA)[7]算法,可以由核函数推出图像块特征的有限维线性表示.这种低维空间中的表示就称为核描述子,并且采用EMK算法将其推广到整个图像的特征表示.尽管核描述子方法的设计思想较为新颖,但仍然存在计算复杂度过高这一缺陷,限制了其在大规模图像数据库上的应用.事实上,在KPCA方法的离线阶段,所有联合基向量对之间的相似性都需要计算,这是非常耗时的.更重要的是:在线阶段计算一个新图像块的特征映射时,该图像块与所有联合基向量之间的相似性也是需要计算的,而这实际上是不需要的.Xie等人[8]通过使用不完整Cholesky分解替代KPCA算法,成功地解决了这个问题,并且通过迭代,应用不完整Cholesky分解算法表示整个图像特征[9].但文献[8,9]中,通过不完整Cholesky分解得到的标志联合基向量并没有对应实际的图像块,因此,其产生的特征判别能力并没有最大化地得到利用.
Wang等人提出了有监督的核描述子方法[10],该方法利用训练集中的图像类标来辅助设计底层图像块特征.尽管他们利用该特征取得了不错的分类效果,但这个算法运行过程中需要大量有类标的图像,并且对象优化函数求解过程复杂,时间复杂度过高.除了上述生成图像底层特征表示的方法以外,另外一类构成图像特征的方法基于深度学习理论.2006年,Hinton等人[11,12]提出了用于深度信任网络(deepbeliefnetwork,简称DBN)的无监督学习算法,DBN的多层结构,使得它能够学习得到层次化的特征表示,实现自动特征抽象,文献[12]将DBN模型成功用于手写数字识别应用上.Bengio等人在文献[13]中提出了基于自编码器(auto-encoder)[14]的深度学习网络,在手写数字识别图像数据库上得到了类似的实验结果.另外,文献[1517]提出了一系列基于稀疏编码的深层学习网络,在图像应用中取得了一定的成功.LeCun等人用误差梯度设计并训练卷积神经网络(convolutionalneuralnetwork,简称CNN),其在图像分类,特别是手写体字符识别应用中得到优越的性能.在此基础上,Krizhevsky等人[21]将CNN模型应用到分类大规模ImageNet图像数据库,更加充分地显示了深度学习模型的表达能力.尽管在深度学习模型下获得的图像特征有很强的判别表示能力,但其要求计算机硬件条件较高,单机环境下很难实现.除此之外,更加详细地介绍图像特征描述子领域的综述可以参考文献[23].本文在大数据时代背景下,为了能够快速得到图像块的线性特征表示,提出了有效图像块描述子(efficientpatch-leveldescriptor,简称EPLd)方法.该方法在不完整Cholesky分解基础上,可以自动地进行图像块筛选,对于求解新图像块的线性特征表示,只需计算它和一小部分基图像块的相似性就足够了.有了图像块的特征表示之后,一幅图像就对应着一个图像块特征的集合,该集合可以看作是特征空间中基于某个分布的样本集,这样,两幅图像之间的差异可以看作两个分布的距离.本文采用基于高维概率分布的MMD距离[24]进行估算,进而计算两幅图像间的相似性.本文首先介绍核描述子方法,然后给出有效图像块描述子算法的具体实现过程以及如何利用MMD距离计算两幅图像的相似性,并在几个著名的图像分类数据库上进行实验,最后给出工作的结论和展望.
2核描述子方法简介
核描述子方法是对图像像素点属性(梯度/形状/颜色+位置)基础上生成的联合基向量应用KPCA方法,从而计算新图像块的有限维特征表示.为了方便叙述,本文采用像素点的梯度属性来介绍核描述子方法.通过公式(2)可以看到,核描述子方法的主要缺陷有以下3点:(1)算法计算复杂度高,因为需要对dodp维的联合基向量形成的Gram矩阵计算特征值分解,如果联合基向量的维度过高或者个数过多,KPCA算法甚至无法实施;(2)对联合基向量进行KPCA获得的tij并不是稀疏的,这也就意味着在计算新图像块的特征表示时,需要和所有的联合基向量进行在线计算,所以算法需要存储全部的联合基向量;(3)算法无法进行特征选择,即,并不知道联合基向量中哪些样本最具代表性.
3有效图像块描述子算法
针对核描述子方法的3点不足之处,文献[8]解决了其主要缺陷的第一、第二两点,但是文献[8]在本质上仍然使用联合基向量,所以没有明确地进行特征选择,即,找出哪些图像块是最具代表性的,使得其特征表示能力并没有达到最大化.为了更加完善地解决核描述子方法的缺陷,本文提出了一种新的图像块特征表示方法,称为有效图像块描述子.该方法基于对图像块相似度矩阵执行不完整Cholesky分解。总体上来说,有效图像块描述子算法由两部分构成:1)首先从训练图像集中均匀抽取足够的图像块,然后在这些图像块形成的Gram矩阵上执行不完整Cholesky分解算法.如果设定N代表图像块的个数,M代表分解后矩阵的秩,通常情况下,M<<N.这样做的好处有两点:首先,在分解过程中只需要按需计算O(MN)个Gram矩阵元素的值;其次,对Gram矩阵执行Cholesky分解的时间复杂度为O(M2N),远远低于KPCA算法的O(N3).2)经过第1步分解步骤之后,选择出了M个最具代表性的基图像块,新图像块的特征表示仅仅通过O(M)次计算就可以得到.算法的具体步骤将在以下部分详细介绍.
3.1Gram矩阵的低秩近似半正定的Gram矩阵K可以分解为GGT,所以不完整Cholesky分解的目标就是找到一个矩阵G,其大小为NM,使得TGG在M足够小的情况下近似K.在执行不完整Cholesky分解算法的过程中,选择出M个最具代表性的基图像块,利用所有图像块和这M个基图像块之间的相似性,可以近似恢复Gram矩阵K.这里,M的值是可以通过算法在线确定的,由算法中提前给定的近似精度参数来控制.关于不完整Cholesky分解的详细执行过程可以参考文献[26],其中,作为输入参数的Gram矩阵K实际上是按需计算的,即,算法执行过程中需要用到哪两个训练图像块间的相似度,就按照公式(1)计算得到.算法执行后,就得到了一些具有代表性的基图像块,用向量P保存基图像块的索引序号,同时得到了矩阵G,使得.TGGK
3.2构造图像块特征映射算法一旦获得了NM的矩阵G,新图像块的特征(有效图像块描述子)就可以由G构造.其中,新图像块特征维度大小由M确定,每一维度i的值可由新图像块与P(i)所指示的基图像块间相似性K(newpatch,P(i))恢复得到。通过算法1可以看到:选择出的M个最具代表性的基图像块可以看成是一系列局部图像块的非线性滤波器,将每个新图像块和这些基图像块进行相似性度量的过程,也可看成是对这个新图像块进行特征提取的过程.另外,针对图像块相似度矩阵执行不完整Cholesky分解往往可以保证获得精度非常高的低秩近似,且分解过程中只与某些训练样本(图像块)有关.也就是说,利用这些训练样本就可以很好地近似恢复相似度矩阵,所以训练集中的图像块具有不同程度的重要性.因此,我们称重要性最高的前M个图像块为“最具代表性”的基图像块.为了更加形象地展示这些重要的基图像块,我们在Scene-15图像库上提取了最重要的前16个基图像块,如图1所示(每个图像块由其像素点的梯度幅值来表示).可以看到,每个图像块都包含了丰富的边缘和纹理信息.本文提出的有效图像块描述子算法不只继承了文献[8]的有效性,而且很好地解决了核描述子算法中的第3点缺陷,最大限度地发挥了图像块特征的判别能力.
4利用MMD距离计算图像间的相似性
基于算法1,每一个图像块都可以用有效图像块描述子来表示.一幅图像通过稠密采样确定很多关键点,每一个关键点都对应着一个局部的图像块,因此,一幅图像就对应着一个局部特征的集合.假定图像I1包含m个图像块,则其特征集合可以表示为Fp(patchp1,patchp2,…,patchpm),图像I2包含n个图像块,其特征集合表示为Fq(patchq1,patchq2,…,patchqn).Fp可以看作特征空间中来自分布p的一个样本集,同样,Fq也可以看作是来自分布q的样本集.这样,图像I1与I2之间的差异性就可以由p和q两个分布的距离表示.当然,这两个概率分布之间的距离只能通过这两个样本集进行估算.为此,本文采用基于高维概率分布的MaximumMeanDiscrepancy(MMD)距离[24]进行估算.MMD距离可以看作是将两个概率分布,通过非线性核函数映射到再生核希尔伯特空间(RKHS)后均值的距离.对于上述分布p和q的MMD距离估计可由公式(3)计算。单纯地利用公式(3),并没有考虑局部特征在整幅图像上的空间分布信息.为了解决这个问题,本文首先采用空间金字塔方法将整幅图像进行逐层划分;然后,在两幅图像每个层次对应的小图像上计算它们之间的MMD距离;最终,将所有层次的MMD距离按照其对应层次的权重进行汇总求和,然后度量两幅图像I1与I2之间的差异性.
5实验
本文使用像素点的梯度、形状和颜色属性分别构造基于梯度的有效图像块描述子(EPLd-G)、基于形状的有效图像块描述子(EPLd-S)和基于颜色的有效图像块描述子(EPLd-C).为了测试有效图像块描述子算法的性能,分别在3个著名的图像分类数据库(Scene-15,Caltech-101[28]和UIUC-8[29])上做了实验.在接下来的实验中,计算3个不同类型的有效图像块描述子都是首先将图像按照固定比率缩放到不超过300300像素点;特别地,在计算EPLd-G和EPLd-S时,将缩放后的图像中的像素点的灰度值标准化为[0,1]范围.图像块通过每隔8个像素点的稠密采样方式从训练集图像中进行抽取,大小为1616像素点.EPLd-All是将EPLd-G,EPLd-S和EPLd-C这3个描述子串接起来形成的.训练线性SVM分类器使用LIBLINEAR[30],其中,图像间的相似性利用MMD距离来定义.在计算MMD时,将图像按照11,22和33分为3个层次来汇总求和,尺度参数在不同的数据库上利用交叉验证方法确定.所有的实验均重复10次,每次的训练集和测试集都随机抽取确定,将10次分类准确率的平均值和方差记录下来.实验中的其他参数从公平比较的角度考虑,与文献[6,8]设置相同.
5.1Scene-15Scene-15场景数据库包含4485张图片,这些图片分属15个类别,有室内场景和室外场景,每一个类别包含200张~400张图片不等.按照惯例,从每个类别中随机抽取100张图片作为训练,剩余图片作为测试.在算法中设置Pivots的个数为200,即,利用不完整Cholesky分解选出200个最具代表性的基图像块来构造维度为200的有效图像块描述子.实验结果列在表1中(其中,KD代表核描述子方法[6],EKD代表有效核描述子方法[8],EPLd代表本文提出的有效图像块描述子方法),EPLd方法获得在这个数据库上的最佳分类准确率(87.0%).另外,EPLd方法在所有4种不同情况(梯度、形状、颜色和上述3种属性的汇总)下的性能均超过了文献[6,8].在实验中,除了测试分类准确率来体现EPLd的判别能力,还通过不同维度下测试分类准确率来体现EPLd的有效性.我们发现,在特征维度只有50维的情况下也获得了接近最优分类准确率的性能,这充分体现出EPLd算法的有效性和健壮性.事实上,通过表2可以看到:特征维度从50维增加到300维,分类准确率并没有得到明显的提升.造成这一现象的原因是,不完整Cholesky分解容易获得高质量的低秩近似.表2中的数据表明:即使是50维的低秩近似也足以体现Gram矩阵中的关键信息,而这些关键信息直接决定了分类的性能.在后面的实验中,从算法效率的角度考虑都使用了100维的特征表示.
5.2Caltech-101Caltech-101图像数据库包含9144张图片.这9144张图片隶属于101个对象类别外加一个背景类别,每个类别中的图片在31张~800张不等.表3中,将EPLd与其他有代表性的描述子算法进行了对比.同样根据惯例,每个类别随机挑出30张图片进行训练,从剩余图片中挑选不超过50张进行测试.可以看到:EPLd算法达到了最佳的分类准确率(77.1%),甚至在仅仅使用梯度属性的情况下(EPLd-G)也达到了非常不错的分类效果(73.7%).
5.3UIUC-8UIUC-8图像数据库包含1579张图片,这1579张图片隶属于8个运动类别,每个类别下包含图片137张~250张不等.按照惯例,随机从每个类别中抽取70张图片进行训练,从剩余图片中挑选60张进行测试.分类准确率结果列于表4中.通过表4可以看到,EPLd-All非常接近最佳分类准确率(87.2%vs.87.23%).在实验部分的最后,本文对比了构造3种不同描述子(EPLdvs.KDvs.EKD)的计算效率.其中,最耗时的是形状特征,一幅标准图像(最大300300分辨率,图像块大小为1616像素点,图像块间隔8个像素点)上的EPLd-S与EKD-S描述子在Matlab环境下计算需要耗时2s,而KD-S需要耗时2.5s.对于梯度特征,EPLd-G与EKD-G描述子耗时0.9s,KD-G耗时1s.以上对比结果列在表5中.表5中的对比结果是在生成100维特征情况下得到的,如果提高特征的维度,EPLd与EKD的计算效率提升相对于KD会表现得更加明显.另外一点需要指出的是:EPLd与EKD的计算耗时虽然基本相同,但EPLd描述子的特征判别能力相对于EKD描述子要强很多,这一点通过在3个图像数据库上的实验对比结果可以得到印证.所以,综合考虑,EPLd描述子无论在计算效率还是在判别能力上都要优于EKD和KD描述子.
6结束语