前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的计算机视觉技术应用主题范文,仅供参考,欢迎阅读并收藏。
关键词:计算机;视觉技术;交通工程
中图分类号:TP391 文献标识码:A 文章编号:1674-7712 (2014) 04-0000-01
一、引言
随着科技的发展,计算机替代人的视觉与思维已经成为现实,这也是计算机视觉的突出显现。那么在物体图像中识别物体并作进一步处理,是客观世界的主观反应。在数字化图像中,我们可以探寻出较为固定的数字联系,在物体特征搜集并处理时做到二次实现。这既是对物体特征的外在显现与描绘,更是对其定量信息的标定。从交通工程领域的角度来看,该种技术一般应用在交管及安全方面。监控交通流、识别车况及高速收费都是属于交通管理的范畴;而对交通重大事件的勘察及甄别则是交通安全所属。在这个基础上,笔者对计算机视觉系统的组成及原理进行了分析,并形成视觉处理相关技术研究。
二、设计计算机视觉系统构成
计算机视觉处理技术的应用是建立在视觉系统的建立基础上的。其内部主要的构成是计算机光源、光电转换相关器件及图像采集卡等元件。
(一)照明条件的设计。在测量物体的表征时,环境的创设是图像分析处理的前提,其主要通过光线反射将影像投射到光电传感器上。故而要想获得清晰图像离不开照明条件的选择。在设计照明条件时,我们通常会视具体而不同处理,不过总的目标是一定的,那就是要利于处理图像及对其进行提取分析。在照明条件的设定中,主动视觉系统结构光是较为典型的范例。
(二)数据采集的处理。如今电耦合器件(CCD)中,摄像机及光电传感器较为常见。它们输出形成的影像均为模拟化的电子信号。在此基础上,A模式与D模式的相互对接更能够让信号进入计算机并达到数字处理标准,最后再量化入计算机系统处理范围。客观物体色彩的不同,也就造就了色彩带给人信息的差异。一般地黑白图像是单色摄像机输入的结果;彩色图像则需要彩色相机来实现。其过程为:彩色模拟信号解码为RGB单独信号,并单独A/D转换,输出后借助色彩查找表来显示相应色彩。每幅图像一旦经过数字处理就会形成点阵,并将n个信息浓缩于每点中。彩色获得的图像在16比特,而黑白所获黑白灰图像则仅有8比特。故而从信息采集量上来看,彩色的图像采集分析更为繁复些。不过黑白跟灰度图像也基本适应于基础信息的特征分析。相机数量及研究技法的角度,则有三个分类:“单目视觉”、“双目”及“三目”立体视觉。
三、研究与应用计算机视觉处理技术
从对图像进行编辑的过程可以看出,计算机视觉处理技术在物体成像及计算后会在灰度阵列中参杂无效信息群,使得信息存在遗失风险。成像的噪声在一定程度上也对获取有效信息造成了干扰。故而,处理图像必须要有前提地预设分析,还原图像本相,从而消去噪音。边缘增强在特定的图像变化程度中,其起到的是对特征方法的削减。基于二值化,分割图像才能够进一步开展。对于物体的检测多借助某个范围来达到目的。识别和测算物体一般总是靠对特征的甄别来完成的。
四、分析处理三维物体技术
物体外轮扩线及表面对应位置的限定下,物体性质的外在表现则是其形状。三维物体从内含性质上来看也有体现,如通过其内含性质所变现出来的表层构造及边界划定等等。故而在确定图像特征方面,物体的三维形态是最常用的处理技术。检测三维物体形状及分析距离从计算机视觉技术角度来看,渠道很多,其原理主要是借助光源特性在图像输入时的显现来实现的。其类别有主动与被动两类。借助自然光照来对图像获取并挖掘深入信息的技术叫做被动测距;主动测距的光源条件则是利用人为设置的,其信息也是图像在经过测算分析时得到的。被动测距的主要用途体现在军工业保密及限制环境中,而普通建筑行业则主要利用主动测距。特别是较小尺寸物体的测算,以及拥有抗干扰及其他非接触测距环境。
(一)主动测距技术。主动测距,主要是指光源条件是在人为创设环境中满足的,且从景物外像得到相关点化信息,可以适当显示图像大概并进行初步分析处理,以对计算适应功率及信息测算程度形成水平提高。从技术种类上说,主动测距技术可分为雷达取像、几何光学聚焦、图像干扰及衍射等。除了结构光法外的测量方法均为基于物理成像,并搜集所成图像,并得到特殊物理特征图像。从不同的研究环境到条件所涉,以结构光法测量作为主要技术的工程需求较为普遍,其原理为:首先在光源的设计上由人为来进行环境考虑测算,再从其中获取较为全面的离散点化信息。在离散处理后,此类图像已经形成了较多的物体真是特征表象。在此基础上,信息需要不断简化与甄别、压缩。如果分析整个物体特征信息链,则后期主要体现在对于数据的简化分析。如今人们已经把研究的目光转向了结构光测量方法的应用,体现在物体形状检测等方面。
(二)被动测距技术。被动测距,对光照条件的选择具有局限性,其主要通过对于自然光的覆盖得以实现。它在图像原始信息处理及分析匹配方面技术指向较为突出。也通过此三维物体之形状及周围环境深度均被显露。在图像原始信息基础上的应用计算,其与结构光等相比繁杂程度较高。分析物体三维特性,着重从立体视觉内涵入手,适应物体自身特点而存在。不过相对来说获得图像特征才是其适应匹配的条件保障。点、线、区域及结构纹理等是物象特征的主体形式。其中物特较为基础与原始的特征是前两个特征,同时它们也是其他相关表征的前提。计算机系统技术测量基本原理为对摄像机进行构建分析,并对其图像表征进行特征匹配,以得到图像不同区间的视觉差异。
五、结束语
通过对计算机视觉技术的研究,悉知其主要的应用领域及技术组成。在系统使用的基础上深入设计,对系统主要构成环节进行分析。从而将三维复杂形态原理、算法及测量理论上升到实际应用。随着社会对于计算机的倚赖程度增加,相信该技术在建筑或者其他领域会有更加深入的研究及应用。
参考文献:
[1]段里仁.智能交通系境在我国道路空通管理中的应用[J].北方工业时报,2012(06).
[2]王丰元.计算机视觉在建筑区间的应用实例分析[J].河北电力学报,2011(04).
关键词:计算机视觉;果蔬分类;应用;挑战;展望
自“农业4.0”时代的来临,以“互联网+”为驱动的农业技术已成为发展农业强有力的支撑。在果蔬业中,果蔬分类通常由经过训练的人员人工评估农产品或农作物的质量。但是,人工分类会带来许多相关的限制,工作人员需要熟悉果蔬的许多特征,并且高强度的机械性工作带来的失误不可避免,因而分类技术的提高是农产品质量提升的关键。计算机视觉技术具有效率高、非接触、抗干扰能力强等优点,在多个领域已经广泛应用,能实现农产品快速无损检测的要求[1]。果蔬分级效率的提升对我国产品质量提升、农民增产增收具有重要意义。
1图像处理技术在果蔬分类领域的应用
本文对基于计算机视觉技术的果蔬分类进行了比较调查,发现研究人员多使用一种或者多种传感器或者机器学习技术进行农产品的分类与分级,但是由于相同水果品种不同造成形状、大小与颜色的不同,果蔬的分类依然面临着许多挑战[2]。为解决这些问题研究人员已经进行了多种实验,其中结合机器学习技术对于系统有明显提升。通过使用传感器捕获水果与蔬菜的特征,使用机器学习对任务进行优化,以提高系统整体性能[3]。
2果蔬分类的主要挑战
虽然已经在多个产业中实现目标分类,但将果蔬作为对象进行分类仍然是一项复杂的问题。在实际过程中,环境、光及空间等因素制约了系统的优化,使系统的时间与准确性方面受到限制。光照方向及亮度、色温以及背景所造成的镜面反射与漫反射都会制约系统的进一步优化,并且不同种类果蔬的特征并不相同,这也使果蔬分类系统没有被广泛地开发。
2.1缺乏合适的传感器
分类任务的一个关键步骤就是选择适合场景的传感器用于数据采集。在果蔬的分类任务中视觉传感器与非视觉传感器已经广泛地应用,但是由于各种传感器性质不同其所适用的应用场景亦有不同[4-6]。例如超声波传感器与触觉传感器都不太适合易损的目标物[7]。因为这些传感器需要物理接触果蔬以获取数据。另外,视觉传感器对许多因素高度敏感,例如照明条件和背景环境。这些基本因素是许多复杂因素的结合,包括反射、折射、缩放、旋转和平移,这在系统实际的设计中需要深入考虑。传感器大致分为视觉传感器和非视觉传感器。由于每个传感器具有一定的局限性,例如视觉传感器对照明条件和背景颜色高度敏感。高光谱相机可以得出物体反射特性,检测具有相似颜色或背景的不同对象的固有特性,其对许多颜色等因素不敏感,并且高光谱信息与水果的其他特征相结合,可以提高系统性能。最近,热红外分析已用于许多领域,例如植物病害检测、冷藏对果实的冷害、农作物成熟度估算和农作物产量估算[8]。然而,由于蔬菜和背景的热物理性质大致相似,并且这种技术对温度变化敏感,因而热红外分析仍不能很好地完成绿颜色水果和多叶蔬菜的分类任务。
2.2难以准确选择特征
特征是用于与其他物体区分的物理特征。果蔬具有多种物理特征,例如颜色、质地、形状和大小,这些都是可以用作分类的特征参数,并且果蔬具有类间和类内的同异性。类别间的变化是主要变化,即颜色、纹理和形状的变化,而类别内的变化更难以发现,特征更加难以区分。理想的系统能够进行类间和类内分类。研究表明,单个特征不能有效地对果蔬或物体进行有效分类。计算机视觉是用于图像分类和识别的一种技术,可以设计算法通过多种方式对果蔬进行分类,通常分类是基于神经网络完成。在任何机器学习应用程序中选择合适的算法至关重要,但是由于果蔬的类间相似性,算法优化尤为重要。数字图像中某些与特性有关信息的识别、分类、检索、重建称为特征描述,果蔬具有相关的独特视觉特征。果蔬的分类和识别最常用的特征是颜色、形状、大小和质地,可以根据整体或局部图像特征来选择特征描述是全局或者局部的特征。特别是对于对象识别,全局图像特征描述整个对象,具有良好的不变性,而局部图像特征则易于实现快速匹配。因此,通常将局部和全局图像特征配合使用以提高整体性能。在图像经过去噪、平滑等操作之后,图像的细节将不可避免地丢失,因而需要更加注意特征的选取。这些因素对特征描述的选取造成了一些限制。
3展望
数据挖掘就是从大量的不完全的有噪声的模糊的随机的实际应用数据中,抽取隐含在其中的、事先并不知道的、但又是潜在有用的信息和知识的过程。
决策树算法作为常用的数据挖掘技术之一,其基本思想是将实例库中记录的大量有限的具体事实数据进行归纳和分类并建立树型结构,以发现并形成隐含在大量实例中的若干形式化的分类判别规则,典型的决策树算法方法有ID3方法和IBLE(Information—based Learning from Example)方法。
利用决策树评估教材质量的基本思想
笔者以高校教学质量建设中的重头戏——教材建设为例来阐释决策树算法在教育统计学中的应用。
从教材的教学水平,科学水平等两大要素来对教材的质量进行合理分类,探索出科学合理的决策树的模型,使之成为学校教材建设管理的理论方法,并在今后的教材管理中起着一定的指导作用。
教学水平:教材符合人才培养目标及本课程教学的要求:取材合适、深度适宜、份量恰当;符合认知规律;富有启发性;便于学习。
科学水平:能反映本学科国内外科学研究和教学研究的先进成果;能完整地表达本课程应包含的知识;反映其相互联系及发展规律;结构严谨。
构建决策树模型
即利用训练集(教材建设数据库)建立并精化一棵决策树。该过程可分为建树和剪枝两阶段。其中,建树是用每一个属性将训练集划分成一个或多个子集,递归地调用该过程,直到每个子集中的记录都属于同一类,最终得到决策树。剪枝是为提高树的精度及分类效率,而去掉因训练数据中的噪声和孤立点等引起的不可靠或可能是噪声的一些枝条。
利用决策树研究影响教材质量的因素
首先,将学生问卷调查数据库和教学管理部门所掌握的资料结合起来,分类整理,同时进行规范化的数据清洗,得到创建决策树模型的训练集,如表1所示。
根据评估预期的要求,将所有教材的评估结果分为两类:
Class p:综合评价=“优秀”
Class n:综合评价=“一般”
从上表显示的数据可知,综合评价为“一般”的教材有9种, 综合评价为“优秀”的教材有6种,从而可以计算出样本分类的期望信息:
—∑Pi log2(pi)=
I(p,n)=I(9,6)= —[(9/15)×log2(9/15)+6/15×log2=(6/15)]
=—(—0.444—0.53)=0.974
下面以综合评价是否为“优秀”作为衡量标准分别计算由各个属性划分子集的信息熵,以及各自的信息增益度。
计算“教学水平”的信息增加益度
从而算出信息熵E(教学水平)=
I(3,1)+I(3,2)+I(0,3)+I(0,3)=0.43
再计算出其信息增益度
GainI(p,n)—E(教学水平)=0.974—0.507=0.467
计算“科学水平”的信息增益度
计算信息熵E(科学水平)=I(2,1)+I(3,2)+I(1,6)+I(0,0)—0.783再计算出其信息增益度GainI(科学水平)=I(p,n)—E(科学水平)=0.974—0.783=0.191
计算“教材编者职称”的信息增益度
从而算出信息熵E(教材编者职称)=I(4,1)+I(2,1)+I(0,4)+I(0,3)=0.424再计算出其信息增益度GainI(教材编者职称)—I(p,n)—E(教材编者职称)=0.974—0.424=0.55
计算“教材编者学历”的信息增益度
计算信息熵E(教材编者学历)=I(3,1)+I(3,3)+I(0,5)=0.667再计算出其信息增益度GainI(教材编者学历)=(p,n)—(教材编者学历)=0.974—0.667=0.307
由此可以得知“教材编者职称”的信息增益度最大,它是最能区别训练集实例中教材质量的属性,应作为决策树的根节点。根据各个属性的信息增益度的大小,可以构建该训练集实例的决策树如下图1所示:
由该决策树可以得出诸如以下结论:
1 计算机视觉定义
人类天生具有五感,视觉便是其中之一,而计算机视觉,就是让计算机网络能够睁开眼看世界。让计算机有一定的视觉能力,可以从各个方面帮助人们进行监督、检验检测。利用计算机视觉科学可以使工作变得更加简便。计算机视觉主要应用于对二维码、条形码、照片、视频资料如片段等进行智能处理。
2 计算机视觉研究在医疗、交通中的作用
随着医学成像技术的发展与进步,图像处理在医学研究与临床医学中的应用越来越广泛。最常见的有癌细胞显微图像分割与识别、基于多特征融合的血红细胞识别和乳腺癌细胞计算机的自动识别等。计算机视觉技术的迅猛发展,为医疗诊断带来了很大的方便,同时促进了临床医学的发展。另外,在各大综合医院慢慢发展起的体检体系中,计算机视觉技术起到了决定性因素。随着体检的人数上升,对医院体检的管理、速度、准确性都提出了更高的要求。视觉识别轻而易举的解决了这个问题,只需要去识别体检人员的身份证,就可以将体检人员对号入座,检查过的项目,没有检查的项目一目了然。理化指标的检验,只需要在采血试管或采尿瓶上粘贴与体检者对应的条形码即可,利用视觉技术对号入座,方便而准确的确定每一位体检人员的血样及尿样。及提高了医院的工作效率,又将错误率降到最低。
计算机视觉在交通上同样得到了广泛的应用及发展。交通安全是交通运输中的重大问题,随着近年来机动汽车数量的迅猛增长,交通事故的发生也随之越来越频繁,给人类社会带来的危害也日趋严重,使很多的家庭失去亲人,甚至家破人亡。全国一线城市例如:北京、上海、广州、深圳等交通道路供需的矛盾日趋严重,交通安全、交通堵塞及环境污染已成为困扰我国交通领域的三大难题。基于图像处理的计算机视觉技术是通过摄像机获取场景图像,并借助于计算机软件构建一个自动化或半自动化的图像、视频理解和分析系统,并提供及时准确的图像、视频处理结果,以模仿人的视觉功能。主要功能如下:
一是基于计算机视觉技术的车辆牌照自动识别: 车辆牌照是车辆的唯一身份,对车辆牌照的有效检测与识别在车辆违章检测、停车场管理、不停车收费、被盗车辆稽查等方面有着重要的应用价值。尽管针对车牌识别技术的研究相对成熟,然而在实际的应用场景中,受到天气、光照、拍摄视角、车牌扭曲等因素的影响,车牌识别技术仍然有一定的改善空间。
二是基于计算机视觉技术的车辆检测与流量统计:目前城市交通路口的红路灯间隔时间是固定的,而不同路段、不同时间段交通流量是随机变化的。若能根据各个交通路口的交通状况辅以计算机进行自动分析,并判断与预测交通流量,无疑为交通警察出警,红绿灯时间间隔的动态设置等提供技术支持。
三是基于计算机视觉技术的公交专用道路非法占道抓拍:公共交通是每个城市交通的重中之重,城市的公共交通为老百姓提供了便捷的出行方式。公共交通的发展,有利于城市的节能减排,有利于降低城市的空气污染指数。由于城市公共交通具有运量大、相对投资少、人均占有道路少等优点,解决城市交通问题必须优先发展城市公共交通。然而目前拥挤、缓慢的公交出行方式已成诟病,因此发展“快速公交”将是未来公交的一种运行模式。道路畅通则是发展“快速公交”的前提,相应地,公交专用车道的设定必不可少。为防止其他社会车辆的驶入,并对违规驶入的其他社会违规车辆进行抓拍与惩罚是保证公交车道公交车专驶的一种重要手段。因此在公交车前部装置摄像头并辅以其他处理设备,从而可以使得每一辆公交车成为了一个流动的监控设备。
3 计算机视觉在条形码检测中的应用
条形码是将宽度不等的多个黑条和空白,按照一定的编码规则排列,用以表达一组信息的图形标识符。在中国,由中国物品编码中心赋予制造厂商代码。那么最常见的计算机视觉应用与条形码检测就是在超市中。超市中每样产品都有自己的条形码,当人们选择了自己需要的物品后,来到收银台进行结账,我们会看见收银人员会用扫码器对物品的条形码进行扫描,扫描后就会出现产品的信息及价钱。记录以及扫描条形码的技术就是计算机视觉技术。
4 计算机视觉重要技术——智能识别
近年来,基于生物特征的鉴别技术得到了广泛重视,主要集中在对人脸、虹膜、指纹、声音等特征上,这其中大多都与视觉信息有关。指纹、人脸功能已经大范围在生活中应用,其中很多单位的打卡制度就是依据面部识别、指纹识别来实现的。社会飞速发展的今天,很多的单位都实行了上下班打卡制度,这一制度已经被作为单位管理制度中的重要一条。购买的打卡机就是采用计算机视觉的重要技术——智能识别来实现的。利用打卡机的储存功能,记录每个职工的指纹或面部容貌,规定在某一个时间范围内对应识别指纹或面部容貌,视为打卡。在上下班打卡的过程中,员工将面部或指纹对应在打卡机的制定位置上,让打卡机进行识别,当识别的结果与存储结果相同时,打卡成功。这样看起来十分简单的打卡机可以使单位的工作有序化,制度化,而实现这个功能的技术就是计算机视觉技术中的重要技术之一:智能识别。
5 计算机视觉技术的发展过程及未来
计算机视觉技术研究经历了近40年的过程,20世纪50年代的统计模式识别、60年代的Roberts的三围积木世界、70年代的Marr为代表的计算理论、80年代的主动视觉,但是仍然面临许多的问题。主要由于计算机视觉是一个逆问题,视觉信息多种多样,视觉知识的表达很困难,图像数据量巨大,信息存储于检索困难,对生物学、神经生物学等的研究有待深入。
计算机视觉技术的未来必定会朝着高科技发展,航空遥感测控地形地貌、电影特效制作、工业生产自动化检测、医学影像检测,再到天文领域等,在这些科学领域中计算机视觉将无法取代,成为主流的技术之一。
作者简介
【关键词】精密测量 计算机视觉图像 关键技术
在现代城市的建设中离不开测量的运用,对于测量而言需要精确的数值来表达建筑物、地形地貌等特征及高度。在以往的测量中无法精准的进行计算及在施工中无法精准的达到设计要求。本文就计算机视觉图像精密测量进行分析,并对其关键技术做以简析。
1 概论
1.1 什么是计算机视觉图像精密测量
计算机视觉精密测量从定义上来讲是一种新型的、非接触性测量。它是集计算机视觉技术、图像处理技术及测量技术于一体的高精度测量技术,且将光学测量的技术融入当中。这样让它具备了快速、精准、智能等方面的优势及特性。这种测量方法在现代测量中被广泛使用。
1.2 计算机视觉图像精密测量的工作原理
计算机视觉图像精密测量的工作原理类似于测量仪器中的全站仪。它们具有相同的特点及特性,主要还是通过微电脑进行快速的计算处理得到使用者需要的测量数据。其原理简单分为以下几步:
(1)对被测量物体进行图像扫描,在对图像进行扫描时需注意外借环境及光线因素,特别注意光线对于仪器扫描的影响。
(2)形成比例的原始图,在对于物体进行扫描后得到与现实原状相同的图像,在个步骤与相机的拍照原理几乎相同。
(3)提取特征,通过微电子计算机对扫描形成的原始图进行特征的提取,在设置程序后,仪器会自动进行相应特征部分的关键提取。
(4)分类整理,对图像特征进行有效的分类整理,主要对于操作人员所需求的数据进行整理分类。
(5)形成数据文件,在完成以上四个步骤后微计算机会对于整理分类出的特征进行数据分析存储。对于计算机视觉图像精密测量的工作原理就进行以上分析。
1.3 主要影响
从施工测量及测绘角度分析,对于计算机视觉图像精密测量的影响在于环境的影响。其主要分为地形影响和气候影响。地形影响对于计算机视觉图像精密测量是有限的,基本对于计算机视觉图像精密测量的影响不是很大,但还是存在一定的影响。主要体现在遮挡物对于扫描成像的影响,如果扫描成像质量较差,会直接影响到对于特征物的提取及数据的准确性。还存在气候影响,气候影响的因素主要在于大风及光线影响。大风对于扫描仪器的稳定性具有一定的考验,如有稍微抖动就会出现误差不能准确的进行精密测量。光线的影响在于光照的强度上,主要还是表现在基础的成像,成像结果会直接导致数据结果的准确性。
2 计算机视觉图像精密测量下的关键技术
计算机视觉图像精密测量下的关键技术主要分为以下几种:
2.1 自动进行数据存储
在对计算机视觉图像精密测量的原理分析,参照计算机视觉图像精密测量的工作原理,对设备的质量要求很高,计算机视觉图像精密测量仪器主要还是通过计算机来进行数据的计算处理,如果遇到计算机系统老旧或处理数据量较大,会导致计算机系统崩溃,导致计算结果无法进行正常的存储。为了避免这种情况的发生,需要对于测量成果技术进行有效的存储。将测量数据成果存储在固定、安全的存储媒介中,保证数据的安全性。如果遇到计算机系统崩溃等无法正常运行的情况时,应及时将数据进行备份存储,快速还原数据。在对于前期测量数据再次进行测量或多次测量,系统会对于这些数据进行统一对比,如果出现多次测量结果有所出入,系统会进行提示。这样就可以避免数据存在较大的误差。
2.2 减小误差概率
在进行计算机视觉图像精密测量时往往会出现误差,而导致这些误差的原因主要存在于操作人员与机器系统故障,在进行操作前操作员应对于仪器进行系统性的检查,再次使用仪器中的自检系统,保证仪器的硬件与软件的正常运行,如果硬软件出现问题会导致测量精度的误差,从而影响工作的进度。人员操作也会导致误差,人员操作的误差在某些方面来说是不可避免的。这主要是对操作人员工作的熟练程度的一种考验,主要是对于仪器的架设及观测的方式。减少人员操作中的误差,就要做好人员的技术技能培训工作。让操作人员有过硬过强的操作技术,在这些基础上再建立完善的体制制度。利用多方面进行全面控制误差。
2.3 方便便携
在科学技术发展的今天我们在生活当中运用到东西逐渐在形状、外观上发生巨大的变大。近年来,对于各种仪器设备的便携性提出了很高的要求,在计算机视觉图像精密测量中对设备的外形体积要求、系统要求更为重要,其主要在于人员方便携带可在大范围及野外进行测量,不受环境等特殊情况的限制。
3 计算机视觉图像精密测量发展趋势
目前我国国民经济快速发展,我们对于精密测量的要求越来越来高,特别是近年我国科技技术的快速发展及需要,很多工程及工业方面已经超出我们所能测试的范围。在这样的前景下,我们对于计算机视觉图像精密测量的发展趋势进行一个预估,其主要发展趋势有以下几方面:
3.1 测量精度
在我们日常生活中,我们常用的长度单位基本在毫米级别,但在现在生活中,毫米级别已经不能满足工业方面的要求,如航天航空方面。所以提高测量精度也是计算机视觉图像精密测量发展趋势的重要方向,主要在于提高测量精度,在向微米级及纳米级别发展,同时提高成像图像方面的分辨率,进而达到我们预测的目的。
3.2 图像技术
计算机的普遍对于各行各业的发展都具有时代性的意义,在计算机视觉图像精密测量中运用图像技术也是非常重要的,在提高图像处理技术做以提高。同时工程方面遥感测量的技术也是对于精密测量的一种推广。
4 结束语
在科技发展的现在,测量是生活中不可缺少的一部分,测量同时也影响着我们的衣食住行,在测量技术中加入计算机视觉图像技术是对测量技术的一种革新。在融入这种技术后,我相信在未来的工业及航天事业中计算机视觉图像技g能发挥出最大限度的作用,为改变人们的生活做出杰出的贡献。
参考文献
[1]汤剑.周芳芹.杨继隆.计算机视觉图像系统的技术改造[J].机电产品开发与创新周刊,2015,14(18):33-36.
[2]马玉真.程殿彬.范文兵,计算机视觉检测技术的发展及应用研究[J].济南大学学报,2014,18(23):222-227.
[3]李华.基于计算机视觉图像精密测量的关键技术分析[J].电脑知识与技术,2013(05):1211-1212.
1计算机视觉概述
1.1计算机视觉学概述
从某种意义上说,计算机视觉学是一门在20世纪60年代兴起的新学科。它是一门边缘学科,融入了很多学科的特点,具有很强的工程性特征。比如,图像处理、应用数学、光电技术。换个角度来说,计算机视觉同属于工程领域、科学领域。
1.2计算机视觉的应用
计算机视觉的应用能够使计算机具有和人一样的视觉功能。在生活和生产过程中,照片资料、视频资料的处理是计算机视觉应用的主要方面。比如,在航空事业方面,对卫星照片的翻译;在医学领域中,主要用于辅方面的诊断;在工业生产方面,由于各种复杂因素的影响,计算机视觉在这方面的应用显得特别简单,有利于相关系统的实际构成。
2目标图像检索存在的问题
从某种角度来说,目标图像检索需要分为特征匹配、特征提取两个方面。它们表达了不同的含义。对于特征提取来说,它是图像进行检索的第一步,其提取结果会对进一步的研究造成直接的影响。而对于特征匹配来说,其匹配的准确度会直接影响图像检索系统的返回结果。但在目标图像检索完善的过程中,遇到一些问题阻碍了这两个方面的完善。因此,本文作者对其中的一些予以了相关的探讨。
2.1环境因素不断变化
对于目标图像来说,环境因素是影响其准确率的重要因素。同时,在复杂混乱的环境中,由于受到众多干扰物的影响,加上部分目标图像区域被遮盖,致使目标图像信息不够全面,使目标物体特征的提取难度进一步加大。
2.2图像噪声的影响
子为了更好地模仿生活中的图像检索,数据库中的图像也会随之发生一系列的变化。比如,尺度、角度、光照。而其中图像噪音的影响会使目标物体的外观发生对应的变化。在此基础上,严重降低了目标图像信息获取的准确度。
2.3目标图像检索训练数据的自动标注
由于处于网络中的图像资源信息过于繁多,需要采用手工的方式对它们进行标注。但这种方法非常浪费时间,准确率也比较低。很显然,这就需要目标检索图像能够具有自动标注的能力。实际上,图像检索方法过分依赖人工标注信息。而这些信息很多收到来自各方面因素的影响。比如,认识差异因素、个人经验。以至于对图像产生误解。
3基于计算机视觉下的目标图像检索技术
3.1以多尺度视觉为纽带的目标图像检索方法
该种目标检索技术的应用主要是为了提高目标图像检索的准确率,能够实现目标图像训练数据的自动化标注。该类技术主要是用于那些没有遮挡,不需要进行监督的目标图像检索方面。具体来说,它需要经过一系列的训练。在训练的过程中,以统计学习为纽带,对相应多尺度的目标检测模型进行适当的训练。在此基础上,以该模型为基点,对图像中那些显著性的区域进行合理地提取。比如,该区域的亮度、颜色。最后,需要对用于该实验研究中的概率潜在语义分析模型进行合理地利用。总之,利用这种检索方法可以对图像中那些显著目标所处的区域自动进行检测。同时,对其中目标图像的显著性进行合理地排序,能够提高检索引擎所返回图像结果的准确度。
3.2以彩色LBP局部纹理特点为媒介的目标图像检索方法
这种目标图像检索方法能够有效地解决图像信息采集过程图像噪声以及其它相关因素对所提取纹理特征的影响,提高了图像目标的准确率。对于这种图像目标检索方法来说,它把图像彩色空间特征和简化的LBP特征有机地相融合。在此基础上,该类方法增加了光照的不变特性,却保留了LBP局部的旋转特点。在提高图像检索速度方面,主要是利用原来的LBP特征来丢失其中的彩色信息。以此,使其中的特征维度能够在一定程度上降低。同时,这种目标图像检索方法的应用可以使对应计算方法的难度得以降低,还能对角度等变化状态下的目标图像进行准确地识别以及检索。
3.3以视觉一致性为桥梁的目标图像检索方法
从某个角度来说,它的应用主要是为了提高图像搜索引擎的返回效果,使局部噪声图形具有更高的显著性特征。一是:站在客观的角度,对搜索引擎返回结果的目标显著图予以准确的计算。此外,还要对其中的目标显著系数进行适当地过滤。二是:以所有图像为基点,以显著目标为导向,采取视觉一致性的模式。三是:以视觉一致性为基础,对其中的不同目标图像信息进行客观地分类。这种以视觉一致性为核心的方法能够有效地提高图像检索结果的准确率。更重要的是,在提高图像搜索引擎检索性能的同时,能够及时为用户选出最优的图像信息。而这些信息资源和用户寻找的主题信息密切相关。
4结语
关键词:三目摄像机;标定;立体视觉;外部参数
一、绪论
1.1研究的背景及意义
计算机视觉是当今极为重要的学科之一,它在具有很强的挑战性的同时又拥有广泛的应用前景和实用价值。计算机视觉以视觉理论为中心,以图像处理、模式识别、计算机技术和生理学、心理学为基础,研究内容主要有两个方面:一是开发从输入图像数据自动构造场景描述的图像处理系统;二是理解人类视觉机理,用机器代替人去做人类难以达到或根本无法达到的工作[1]。
计算机视觉应用的广泛性体现在其不仅用于文字、指纹、面部、商标以及图像数据库、检测集成电路芯片、多媒体技术这些图像方面,还应用到机器人导航、工业检测和产品的自动装配、CT图像器官重建和遥感照片解释等空间物体的定位、识别以及重建上。现如今,计算机视觉已经应用到机器人、地理、医学、物理、化学、天文等各大的研究领域。
作为多个学科交叉与融合中心的计算机视觉,摄像机是其研究的重要工具,而摄像机标定又是计算机视觉研究的一个关键问题,故摄像机的标定越来越受到广泛的重视。摄像机标定是通过物体空间上的点与图像中的对应点的几何关系,来确定摄像机的内外参数的过程。标定结果是否准确影响着三维测量的精度和三维重建的结果,而且实时的标定更能满足自动导航机器视觉的需要[2]。
伴随着应用的发展,摄像机广泛地被应用于三维立体的测量、视觉检测、运动检测等领域。由此,对摄像机标定的精度要求也日益增加。摄像机标定结果的优劣影响了计算机视觉在各领域的应用。摄像机标定的准确与否,对能否提高计算机视觉在各领域测量的准确度有重要影响[3]。因此,研究摄像机标定方法具有重要的理论研究意义和实际应用价值。
1.2摄像机标定技术研究的发展及现状
摄像机有一个图像平面和提供三维空间到图像平面转换的镜头。由于镜头会产生畸变,不能把这个转化过程简单描述为投射变换。所以它表示的是畸变的模型,这些模型近似于真实数据,而其精确性则依靠于建立的模型及模型参数的准确性。
首先进行摄像机标定工作的是加拿大的Deville,他于1910年建立实验室,使用多个瞄准仪对他的“测量摄像机”(surveying camera)进行标定[4]。上个世纪三十年代后期,美国标准局发明了一种精确镜头,用来检测摄像机,同时将它用在摄像机标定上。四十年代后期,该项工作得到进一步加深,有了更多对高精度的需求和对易操作设备的需求。1955年,Carman出版了 《棋盘平面度的干涉测量和控制》,该书引起了社会各界对摄像机标定的关注。二战时期,随着飞机的大规模使用,航空摄影与制图兴起,为得到更加精确的测量结果,对摄像机镜头的校正要求也变得更高。五十到七十年代也是镜头校正技术发展最为迅速的时间段。在这期间,各种镜头像差的表达式逐步被提出并且得到普遍认同与采用,建立了很多的镜头像差的模型,D.C.Brown等人作出了比较大的贡献,他们导出了近焦距情况下给定位置处径向畸变表达式并证明了近焦距情况下测量出镜头两个位置的径向畸变就可以求出任何位置的径向畸变[5]。这些径向与切向像差表达式成为后来各摄像机的标定非线性模型的基础。这段时间里,研究的重点是如何校正镜头与用何种方法补偿镜头像差,这些研究对促进各性能镜头组的研制起到了重要作用。在1999年,张正友提出了一种简便的摄像机标定方法,该方法介于传统标定和自标定之间,操作方便灵活,能够得到不错的精度,满足了众多拥有桌面视觉系统的用户在摄像机标定方面的需求。
1.3本文的主要研究内容
本文的主要研究多个摄像机的标定问题。标定主要是对摄像机内外参的测量计算,利用这些参数对多个摄像机识别的物体尺寸进行衡量并建立起多摄像机系统的数字环境。
论文的内容包括:
第一章为绪论,介绍摄像机标定相关的研究背景、国内外研究现状。
第二章为摄像机标定理论基础:主要介绍标定的坐标系与待标定的参数。
第三章提出本文的多摄像机标定方法与实验过程。
第四章进行全文的总结。
二、摄像机标定方法研究
2.1摄像机标定原理
摄像机通过透镜将三维物体投影到--维图像平面上,这个成像变换的过程称为摄像机成像模型。摄像机成像模型有多种,最常用的为小孔成像模型。由于实际的摄像机镜头会发生一定的畸变,使得空间点所成的像不在线性模型描述的位置而会发生一定的偏移,为了能准确的标定摄像机参数,标定的过程中要考虑非线性畸变因子。
一般来说,得到标定结果后要对其精度进行评估,然而很难得到准确的摄像机标定参数真值作为参考,其中基于图像坐标和世界坐标的绝对和相对误差的评价方法应用广泛,本文将对这些方法的原理进行探讨。
2.2摄像机标定坐标系建立
首先定义了四个坐标系,如图1所示,图像坐标系的坐标原点为O0,列与行由坐标轴u和v表示;成像平面坐标系的原点是摄像机光轴与图像坐标系的交点0l,x、y 轴分别与u、v 轴平行;在摄像机坐标系中,坐标原点0c即为在摄像机的光心,Xc、Yc轴与x、y 轴平行,与图像平面垂直是摄像机光轴作为Zc轴,0c0l为摄像机焦距f;世界坐标系是假想的参考坐标系,可固定于场景中某物体上,用于描述摄像机的位置,由Xw,Yw,Zw轴组成。
图(1)
2.3摄像机外部参数构成
主动视觉传感器从在笛卡尔直角坐标系中的运动表现为相应的旋转矩阵和平移矩阵,故摄像机外部参数表现为旋转矩阵R和平移矩阵T,则摄像机坐标系与世界坐标系的转化关系可以表示成:
上式中(Xc,Yc,Zc)表示空间点在摄像机坐标系下的坐标,(Xw,Yw,Zw)表示空间点在世界坐标系下的坐标。根据靶标点在像空间坐标系和物方空间坐标系中的坐标,通过分解旋转矩阵线性计算像空间坐标系与物方空间坐标之间的转换参数,即外方位元素(摄站参数)[6]。
2.4各摄像机相对位置确定
三目摄像机拥有三个视觉传感器,而三个传感器之间的相对位置可通过已获得的外部参数进行确定。将三个摄像机坐标系设置为,Oci xci yci zci(i=1,2,3),由2.3中所介绍的内容可知,这三个摄像机坐标系与世界坐标系的关系为:
i=(1,2,3)
由此我们可以得到任意两个摄像机i,j的坐标系转换关系:
其中: = = i,j=1,2,3
三、摄像机标定实验过程及结果
3.1实验系统介绍
实验中被用来标定的是一个多摄像机系统,摄像机标定有关的基本参数、系统组成和开发环境如下:
(1)硬件环境
标定板、三目摄像机和图像采集卡等。
(2)软件环境
OpenCV开源视觉库,它仅由一系列C函数和少量C++类构成,为Python、MATLAB等语言提供了接口,在图像处理和计算机视觉方面实现了很多通用算法。
3.2实验过程
本系统以棋盘格模板作为标定模板。采用激光打印机打印棋盘格黑白方块间隔纸,方块边长为3cm,共6行9列,将打印纸固定在一块平板上,作为标定模板,如图(2)。安装三目摄像机系统,调节固定好个摄像机位置,如图(3)。手持标定板在三目摄像机前方各个位置拍摄5组共15张各姿态的照片,利用Canny算子进行像点灰度中心提取、同名像点匹配并解算出三个摄像机在标定板坐标系中的外部参数值。
3.3标定结果
摄像机1:
R= T=
摄像机2:
R= T=
摄像机3:
R= T=
四、总结
随着计算机技术的高速发展,计算机视觉成为当今热门的研究课题,受到了广泛关注。本文就如何在机器视觉的理论基础上对三目视觉系统进行标定进行了研究,讨论了计算机视觉理论知识,分析摄像机标定原理以及标定坐标系的建立。同时通过计算机视觉知识的分析讨论了基于三目视觉系统的摄像机标定技术,完成了三目视觉系统的外部参数标定实验。三目摄像机测量系统外部参数的标定能够解决测量作业现场、测量控制场建立难的问题,为快速地建立简单实用的控制场提供了方案,有一定的实用价值。
参考文献
[1] 荆丽秋.双目视觉系统标定与匹配的研究与实现[D].哈尔滨工程大学,2009.DOI:10.7666/d.y1489086.
[2] 马颂德.计算机视觉―计算理论与算法基础[M].北京:科学出版社,1998.
[3] 王荣一.摄像机标定及关键技术研究[D].哈尔滨理工大学,2011.DOI:10.7666/d.y2012483.
[4] Clarke T A,Fryer J G.The development of camera calibration methods andmodels.Photogrammetric Record,1998,16(91):51-66
[5] Brown D C.Decentering distortion of lenses.Photogrammetric Engineering,1 966,32(3):444-462.
[6] 范亚兵,黄桂平,高宝华等.三目立体工业摄影测量系统外部参数的快速标定[J].测绘工程,2012,21(5):48-52.DOI:10.3969/j.issn.1006-7949 .2012.05.013
关键词 模式分析 计算机视觉 教学改革
中图分类号:G643.2 文献标识码:A DOI:10.16400/ki.kjdkz.2016.03.015
Research and Practice on Course Group of Pattern Analysis and
Visual Processing for Graduated Students
SUN Han, CHEN Songcan, LIU Ningzhong, HUANG Yuanyuan, ZHU Qi
(College of Computer Science and Technology, Nanjing University of
Aeronautics and Astronautics, Nanjing, Jiangsu 210016)
Abstract By analyzing the teaching status of pattern analysis and visual processing course group, this paper puts forward the new teaching goal, which includes improving students' international vision, the ability of linking theory with practice, and promoting the engineering practice ability and innovative consciousness. Then this paper discusses the whole process of course group reform. Firstly the structure of teachers' group is optimized. And then the knowledge system of course group is sorted and the teaching mode is improved. Finally the practice system of course group is optimized and the assessment system is reformed.
Key words pattern analysis; computer vision; teaching reform
1 背景
我校模式分析与智能计算研究所师资团队是江苏省“青蓝工程”创新团队,主要研究领域包括智能数据分析、图像处理和机器视觉等方向,承担研究生和本科生的模式识别、机器学习、数据挖掘、智能信息检索、数字图像处理、计算机视觉等课程的教学任务。以往的教学过程中虽然积累了丰富的教学经验,但当前新知识不断涌现、新技术发展迅猛,对模式分析与视觉处理课程群的知识体系、实践体系改进提出了新的挑战。
近年来,国内外高校在该类课程教学上,已涌现出众多新理念、新方法。Coursera联合创始人Andrew Ng推出的机器学习课程,开启了教育领域的MOOC时代,引领了教育教学方法的新革命。①深圳大学、②江苏科技大学③分别进行了基于CDIO工程教育理念的计算机视觉课程教学改革实践,实现多层次项目设计的教学模式改革,讲座式、讨论式、实践式教学方法的探索。国防科技大学④在计算机视觉课程中引入研讨式教学模式,通过案例教学、小组研讨的方式来替代传统的教学方式。华中科技大学⑤从教学内容国际化、教学方式国际化、教学成果国际化三个方面开展了计算机视觉课程的国际化建设。另外,也有高校进行了图像工程课程群建设,⑥基于图像分析与计算机视觉应用课程结合的项目协同创新能力培养实践。⑦
在分析上述国内外高校该类课程改革的基础上,我们重点以模式分析与视觉处理课程群的实践教学体系改革为切入点,优化师资队伍结构,梳理课程群知识体系,优化课程授课模式,完善课程群实践体系,改革实践考核模式,实现学生国际化视野、理论联系实际、工程实践和创新能力全面提升的目标。
2 模式分析与视觉处理课程群特点
模式分析与视觉处理课程群涵盖了模式识别、机器学习、数据挖掘、数字图像处理、计算机视觉等多门课程。该类课程存在以下特点。
(1)该类课程属于多学科交叉,涉及的知识面既广又深。由于该方向涉及计算机科学与技术、应用数学、自动化、电子科学与技术、信息工程等多学科内容,而学生在大学本科阶段很难学习和了解如此多的知识模块,这对研究生阶段学习来说,具有相当大的挑战。同时,对于每个知识模块,所要求的数学基础较高,理论具有相当的深度,理解和掌握不容易。
(2)该类课程既重视扎实的基础理论,也强调良好的工程实践能力。该类课程的基础理论教学一直受到各高校的重视。随着近年来产业界的迅猛发展,计算机视觉应用层出不穷,对学生的工程实践也提出了更高要求,需要能够在系统层次上有整体认知,同时要能对各功能模块进行优化,提升系统的整体性能。
(3)该类课程所面向的选修学生面广。该类课程既是多学科交叉,也面向计算机应用、电子科学与技术、自动化、应用数学等不同研究方向、不同水平层次的研究生开设。这对课堂教学和实验实践也带来更大挑战。
3 模式分析与视觉处理课程群改革举措
针对上述分析的课程群特点,我们重点以实践体系改革为突破口,通过优化师资队伍结构,梳理课程群知识体系,优化课程授课模式,完善课程群实践体系,改革实践考核模式等举措,实现学生国际化视野、理论联系实际、工程实践和创新能力全面提升的目标。
3.1 师资队伍结构优化
为了学生能够适应模式分析与视觉处理产业的快速发展,在课程群建设过程中更强调学生的工程实践和创新能力培养。这首先对师资队伍结构提出了新的要求。
近年来,课程教学团队引进海内外具有深厚理论功底和较强工程能力的高水平师资4名,大大充实了机器学习、数据挖掘、图像处理等课程的教学力量。对于现有教师队伍,鼓励教师跟产业一线企业广泛合作,目前已与华为、中兴等企业在视频检索、智能交通视觉处理等方面开展了实质合作。这些来源于产业界的高质量课题对科研和教学起到了良好的促进作用。
与此同时,通过研究生工作站、企业短期实习等渠道,鼓励企业高级研发人员参与到学生实践能力培养环节中,将实际项目进行适当切分或提炼,实现该类课程实践环节的模块化、专题化训练。
综上,通过引培并举,优化校内师资队伍结构;通过校企合作,积极吸引企业师资参与。良好的师资队伍为该类课程的实践体系改革提供了有力支撑。
3.2 课程群知识体系梳理与授课模式改革
模式识别、机器学习、数据挖掘、智能信息检索、数字图像处理、计算机视觉等课程既有一定的逻辑关系,也存在相互交叉的混杂关系。一般认为,模式识别、机器学习是模式分析与视觉处理领域的基础理论课程,数据挖掘是建立在模式识别、机器学习和数据库基础上的应用类课程,智能信息检索则是数据挖掘基础上更为具体的应用实现。数字图像处理为计算机视觉课程提供了基础支撑,计算机视觉则是在综合利用模式识别、机器学习、数字图像处理、数据挖掘等知识模块基础上面向应用的系统实现。但是,这些课程也存在着知识点的交叉或重复。例如,模式识别和机器学习中都有贝叶斯参数估计、支持向量机模型等知识点,但视角和侧重点有所不同;图像处理、计算机视觉中都有颜色模型、成像模型等知识点,也同时存在与模式识别、机器学习交叉的知识点。
我们针对来自不同研究领域的学生群体,对该课程群的知识点进行系统梳理,既避免知识点的重复讲授,也防止重要知识点的缺漏。课程教师集体讨论,形成每门课程的核心知识集,和针对不同研究领域的选讲知识集。学生在学习课程时,在掌握核心知识集的基础上,结合自己的研究方向选择相关的选讲知识集学习。
在课程教材和参考书的选择上,注重挑选国际上有影响力的教材。例如,模式识别的参考书为Richard O. Duda等人编著的Pattern Classification;机器学习的参考书为Tom M. Mitchell编著的Machine Learning和Christopher M. Bishop编著的Pattern Recognition and Machine Learning;数据挖掘的参考书为Jiawei Han等人编著的Data Mining:Concepts and Techniques;数字图像处理的参考书为K. R. Castleman编著的Digital Image Processing;计算机视觉的参考书为D. A. Foryth编著的Computer Vision: A Modern Approach和Richard Szeliski编著的Computer Vision: Alogrithms and Applications。这些教材已被国内外著名大学普遍采用。同时,每门课程都提供相关的国内外顶级会议和期刊的列表,供学生课后追踪研究领域的热点问题。
在课堂授课环节上,注意采用灵活多样的授课方式。对于核心基础知识模块,以教师讲授为主,同时提供国内外该类课程的热门MOOC网址给学生参考。对于选讲知识模块,鼓励学生事先结合各自研究方向有目的自学,在学生报告的基础上进行课堂讨论方式进行。充分发挥学生学习的主体作用,也便于教师了解学生的水平和学习状况。
除此以外,不定期邀请国内外著名学者来校做学术报告,让学生充分了解该研究领域的最新前沿动态,并就热点问题进行专题讨论。
3.3 课程群实践体系完善与考核方式改革
工程实践和创新能力的培养是该课程群改革的重要目标。我们在上述师资队伍结构优化、课程群知识体系梳理与授课模式改革的基础上,着力进行课程群实践体系的改革与完善。我们通过多层次菜单式的实验项目选择、项目牵引的创新能力训练、学生综合研究能力的全面考查等方面来实现。
首先,整合和优化课程群实践内容,实现多层次菜单式灵活选择。根据各研究领域的要求进行灵活搭配,根据学生个体的能力与水平选择适当规模和难度的实践内容,通过课程内的基础实验、课程间的综合实验、课程群的创新实验来选择和组合,如图1所示。
图1 多层次菜单式实验内容示意图
基础型实验内容主要是各课程核心知识点的实验验证,主要包括模式识别,机器学习,数据挖掘,图像处理与分析,计算机视觉等课程的实验。要求选课学生对这些基础实验必做,打下良好的研究基础。
综合探索型实验在基础型实验基础上,既有单门课程内总的综合实验,也有课程间知识的综合应用。主要分为两大块,包括模式分析与机器学习方向的综合实验,以及图像处理与机器视觉方向的综合实验。实验目的主要是针对这两大块方向重点知识的综合分析和比较,能够熟练掌握和灵活应用。例如模式分析、机器学习、数据挖掘等方向都用到的线性判别分析、支持向量机、均值聚类等内容;图像处理与机器视觉中的图像特征抽取、视觉系统选型、目标检测、特定平台的算法优化等内容。学生可根据各自研究方向有目的的选择两块综合实验的大部分内容。
在综合型实验基础上,该课程群通过若干创新型实验来检验学生理论知识掌握程度和实践方法应用能力,为后续的研究课题开展打下良好的科研素养。主要内容包括人脸识别、二维条码识别、车辆属性识别、智能视觉监控、以及企业来源的关键技术等。这些项目实践既涉及用到图像处理与机器视觉的内容,也涉及模式分析与机器学习方向的知识。并且需要学生在综合运用相关知识的基础上有创新能力。
其次,重视各类项目牵引的创新能力训练。一方面,鼓励教师从国家自然科学基金、企业合作项目等研究中提炼出问题规模和难度适中的训练项目,作为课程群的综合能力训练项目。另一方面,鼓励学生参加挑战杯、全国研究生智慧城市技术与创意设计大赛等各类具有挑战性的竞赛项目,以赛代练,提升学生的工程实践和创新能力。同时,也鼓励学生利用百度、微软等相关研究领域的企业实习机会,参与产品一线的工程实践能力训练。
再次,注重考核环节,实现科研素养和实践能力的全面考查。只有严格、公平、公正的考核,才能保证实验实践的质量和水平,才能提升学生的科研素养和实践能力。我们主要在手段、方式方法上进行了改进。在题目选择上,根据学生个体水平和研究领域要求的差异,在选题上有适当的难易区分度,让每位学生都有锻炼和提升的机会;在考核方式上,采用结题书面报告来检验学术论文的写作能力,采用程序演示检验系统的设计与实现水平,采用上台汇报的方式检验学生的表达能力,多管齐下全面检查学生的综合科研素养;在考核成绩评定上,采用现场教师和学生共同评分的方式,公平合理;最后,通过网站展示、发表学术小论文、专利、软件著作权等方式展示和公开优秀成果,激发学生的学习热情,并由此形成积累,有利于学生实验实践氛围的传承。
4 结语
本文在分析国内外高校模式分析与视觉处理类课程群改革现状的基础上,以学生国际化视野、理论联系实际、工程实践和创新能力全面提升为目标,重点开展了师资队伍结构优化、课程群知识体系梳理、课程授课模式改革、课程群实践体系完善和实践考核模式改革等工作,取得了良好的效果,并为校内其他课程群的教学改革作为示范推广。
注释
① https:///learn/machine-learning/
② 郭小勤,曹广忠.计算机视觉课程的CDIO教学改革实践.理工高教研究,2010.29(5):98-100,148.
③ 史金龙,白素琴,庞林斌,钱强.研究生机器视觉课程的CDIO教学改革实践.计算机教育,2013.9:40-43.
④ 陈芳林,刘亚东,沈辉.在《计算机视觉》课程中引入研讨式教学模式.当代教育理论与实践,2013.5(7):112-114.
⑤ 王岳环,桑农,高常鑫.计算机视觉课程的国际化教学模式.计算机教育,2014.19:101-103.
生活中,每个人都问过别人“这件衣服是从哪买的?”“这双鞋是什么牌子的?”这一问题很快会被AI技术解决,只需要拿出手机对着物品拍照,就会得到商品的各种信息,并且能一键买买买。这就是美国著名图片社交网站Pinterest(拼趣)即将推出的应用图片识别购买业务。
Pinterest总裁Tim Kendall表示,“Pinterest可以即刻在存储750多亿张图片的巨大网络空间内进行搜索,从而为用户找到与所拍摄照片相似的配对图片,以及查找到哪些地方能够买到他们所需的商品。”
目前,Pinterest的估值已经达到了110亿美元,该公司的专注点正在向营收增长和创收方面转变。相比Facebook、Twiter等社交网站,Pinterest已经率先找到了一条清晰的创收道路。
从兴趣到产品
亚里士多德曾经说过,古往今来人们开始探索,都应起源于对自然万物的惊异。科技的进步也是如此,就像微软研发主管和项目负责人Mitch Goldberg所说:“我们想通过该应用向人们展示识别技术的无限魅力。”
今年2月,微软旗下的Garage实验室了一款名为“Fetch!”的应用,它可通过机器学习系统识别照片中宠物狗的品种并用文字对该品种进行简单的介绍。
随着计算机视觉领域开始利用深层神经网络这种模仿人类大脑生物过程的系统来从事机器学习,识别的精确度实现了巨大飞跃。也就是说通过机器学习技术,Fetch!识别的准确度会越来越高,随着大量图片的涌入,Fetch! 可以自我修复错误,从而更加精确地识别每一只狗的样貌、形态、动作。除了测试狗类品种以外,你还可以把朋友的照片上传至平台,看看他们能够对应出哪种宠物。
微软的这款产品基于目前最为热门的一种图像识别技术――“深度神经网络”,同样基于这种技术,微软还有另一款有趣的产品:。去年5月,有超过5.75亿图片被提交到,超过8500万来自世界各地的使用者访问了这个网站,只为寻找一个简单问题的答案――颜龄机器人认为我看起来像几岁?如果是合照,并且颜龄机器人识别出的自己比周围人年龄小,则更能引发用户的兴趣,这种“损人利己”的识别应用着实在社交媒体上火了一把。
另一让计算机视觉研究技术人员特别感兴趣的领域是生物识别,当下最为火爆的莫过于人脸识别技术了。早期的人脸识别技术多为安防领域,如海关识别走私犯、商店识别小偷等。近年来,深度学习的研究与应用使得人脸识别和人工智能的核心技术得到了极大的提升,摄像头等图像硬件的发展为人脸识别提供了很好的图像基础,如今人脸识别技术应用更加广泛,比如公司可以使用刷脸打卡来杜绝代人打卡签到现象。
其实早在2012年,谷歌就开发出了安卓系统的“刷脸解锁”技术,但因安全问题未解决,该技术一直未能得到普及。
而今年3月,电商巨头亚马逊提交了一项针购物付费的专利技术,即消费者在亚马逊网站购物时可以通过自拍或者视频来进行付费,无须再输入账号密码。在消费时系统会提示用户表现出特定的行为、情绪或手势来证明消费者就是本人,而不是拿着照片的冒名顶替者。
亚马逊表示,这项技术能使消费者更加安全地进行网上购物,因为很多用户为了省事会把所有账户都用同一个密码,或者把密码记在手机里,一旦遭遇“撞库”或者手机被盗,后果不堪设想,而刷脸技术则没有这个风险。
除了识别人脸,在识别其他生物方面也有了突破性进展,比如识别寄生虫。疟疾,是一种由疟原虫造成的全球性急性寄生虫传染病,据统计,2015年有大约有2.14亿人受疟疾的影响。
一直以来,医疗工作者是通过肉眼观察采样玻片来确定采样对象是否被疟原虫感染,这不但是对医疗工作者经验的考验,而且工作效率也十分低下,而贫困地区一直都缺乏有经验的医疗工作者。
今年2月,根据MIT Technology Review报道,Intellectual Ventures Laboratory(智能事业实验室)开发出了能够检测和评估疟疾感染的便携式显微镜。这种显微镜采用的是一个名为“Autoscope”的系统,通过计算机视觉和深度神经网络技术,采用深度学习算法来鉴别疟原虫。这款便携式显微镜今年在泰国实地测试,成功鉴别出了 170块玻片中的疟原虫如果这项技术得到普及之后,只要诊所有一台Autoscope显微镜和一些载玻片,就可解决疟疾的诊断问题,这将使疟疾诊断不再依赖于有限的专业医疗人员。
技术转化为产品
新技术的出现,让计算机不但“看见”这个世界,更能“看懂”这个世界,可以代替人眼甚至超越人眼。
人的视野是有限的,并且会受到周边条件的影响,驾驶员在开车时会有视野盲区,还会受到光线的影响,并且大雾、暴雨等极端天气也会严重影响驾驶员的视线。而计算机视觉技术就不一样了,视野会更开阔,受限制更小。根据汽车媒体《Leftlane》报道,福特公司最新的无人驾驶汽车研究计划是由激光感应(LiDAR)和雷达、摄像头形成一张周围环境的高清3D地图,不但让无人驾驶汽车看到摄像头视野范围之外的物体,而且并不受光线限制。在夜间试驾后,福特工程师Wayne Williams说:“坐在汽车里,我能感到它在走,但是我往车外看,只能看到一片漆黑。结果令人惊喜,车辆准确地沿着蜿蜒的道路行驶。”
识别场景这一领域技术的发展,使得计算机不但能当机器的眼睛,还能变成人类的眼睛。
对于双目失明的人来说,能亲自感知这个世界是梦寐以求的事,而微软2016 Build开发者大会上Seeing AI项目正是要帮助盲人实现这一愿望。
Seeing AI项目是通过计算机视觉和自然语言去形容一个人的周围环境、朗读文本、回答问题以及识别人的面部表情,可以在手机上使用,也可以在Pivothead的智能眼镜上使用。如果投入使用,将有助于为视障人士营造更公平的环境,是一款能够真正改变人们生活的产品,就像此项目的高级项目经理Anne Taylor所说的,这是“为真正重要的场景寻求解决方案”。也许不久微软能开发出一种仿生眼,直接发送视觉信号到大脑,让盲人真正看到这个世界。