公务员期刊网 精选范文 计算机视觉的研究方向范文

计算机视觉的研究方向精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的计算机视觉的研究方向主题范文,仅供参考,欢迎阅读并收藏。

计算机视觉的研究方向

第1篇:计算机视觉的研究方向范文

关键词 计算机视觉;立体匹配;研究情况

中图分类号:TP391 文献标识码:A 文章编号:1671-7597(2014)07-0001-01

随着科学技术的快速发展,计算机技术也得到了飞速的发展。将计算机技术应用于人类的视觉系统,并辅助人们观察到一些眼睛难以看到的东西,已经逐渐成为一门大家所热捧和追逐的技术。随着人们对视觉传感器技术越来越多的探索,人们也逐渐实现了古代时想拥有千里眼的梦想。目前,人们已经把视觉传感器技术和计算机技术良好的结合在一起,并把这些技术应用到食品、建筑、医药、电子、航天航空等众多领域当中。而该项技术的快速发展,也帮助人们解决了一些日常工作当中人类视觉存在盲区的问题,保证了人们工作过程的安全。视觉技术与IT技术的完美结合使得人们的生活变得更加便利,让人们亲身体会到了IT技术给人们生活带来的便捷。

1 双目立体视觉概述

双目立体视觉又称双目视觉技术,是目前计算机视觉应用领域的重要研究内容。双目立体视觉控制系统的组成因其采用的原理和应用功能的不同,组成也都各不相同。

双目立体视觉的实现原理是基于人眼的视网膜看物体的特性,从两个不同的方向来观看同一个物体的不同角度,从而实现清楚的了解到物体的图像的目的。双目立体视觉从不同的角度获得物体的投影信息,并根据匹配的结果,获取同一个物体不同偏差位置的信息。最后在依据三角测量技术,根据已经获得的这些偏差信息从而获得这些不同点对应的距离信息,并最终获得这些实际物体的具体坐标位置信息。

视差测距技术告诉我们,要清楚的观察到一个物体的全貌,需要两个观察物从不同的方向,或者固定一个观察物,移动另外一个观察物的方式,以达到拍摄同一个物体的目的。根据同一个物体在两个观察物当中的位置偏差,从而确定该物体的三维信息。一般来说,双目立体视觉的组成包括:图像获取设备、图像预处理设备、摄像机标定设备、立体匹配设备、根据二维信息实现三维重构设备等五个重要设备。

2 双目立体视觉技术的原理

立体画又可以称之为三维立体画,是一种人们可以从三维立体图中获取二维平面图信息的技术。三维立体图表面看似毫无规则,但是假如通过一些特殊的技术或者通过合理的观察手段和观察设备,就可以看到一组秩序井然的美妙图片。

三维立体图是一组重复的二维图片有序的堆积积累而成,因此可以呈现出立体效果。人体观察物体的原理大致如下:当人类通过左右眼观察所在的空间平面的时候,这些平面图都只是一些毫无秩序的图片。而当左右眼重新聚焦或者在观察画面的时候呈现一定的层次感,则人类的左右眼观察到的一组重复案在经过人体识别以后,这些画面之间将存在一定的距离差异,从而在脑中生成立体感。

双目立体视觉技术正是基于以上的原理,从两个不同的方向去观察物体,并获得目标图像的信息,并经过一定的处理获得三维重建的物体立体信息的技术。

双目立体视觉在计算机技术中实现三维重建的大致流程

如下。

1)摄像机定位,并通过单片机计算得到要获取图像信息需要的外部的参数的大概值,并根据这些参数值设定摄像机。

2)用设定参数的摄像机拍摄目标场景的画面,并采集这些画面的二维图的信息。

3)通过计算机技术实现双目匹配,并判定采集画面中的二维图像中的不同点之间的对应关系。

4)在第三步中若得到两组二维图像的关系是稠密的时候,则生成三维视差图。如果不是则进一步采集图片信息。

5)根据得到的视差图最终实现场景的三维图形的重建。

3 双目立体匹配技术的研究难点和未来的发展方向

尽管目前有很多学者都投身到双目立体匹配技术的研究和开发当中,直至目前为止也解决了很多关于视觉理论当中存在的很多缺陷问题。但是视觉问题是一个复杂且难以解决的问题,特别是在双目立体匹配问题方面更是困难重重。立体匹配技术的难点已经成为限制将双目技术应用到计算机技术当中的重要瓶颈。

立体匹配的主要手段就是找到计算机采集到两幅和多副图片的中像素的对应关系,然后根据这些像素关系判定并生成三维重建图。但是二维图像的匹配存在层层困难,主要体现在以下几个方面。

1)由于视角的问题或者观察物体存在遮挡问题,导致采集回来的图片信息存在盲点,这样子更难找到图片的匹配区域。

2)场景中的一些深度不连续的区域大都处在场景当中的边界位置,这些位置容易出现像素不高,边界不清晰等问题,这些问题也给图像匹配带了很多困扰。

3)场景当中的低纹理的图片匹配特征和匹配关系较少,而且该位置的每个像素点极为相似。假如只是通过简单的像素相似性检测的话,会检测到很多匹配结果,而这些匹配结果当中有一大部分是错误的。这样子的结果势必会导致最终的图像匹配正确率极为低下。

从以上的分析,我们可以看出立体匹配技术存在很多技术上的难点,这些都在很大程度上限制双目立体匹配技术在计算机当中的应用发展。如何才能设计出有效、准确、快速、通用性强的立体匹配算法将会是以后双目立体匹配计算发展的重要方向。也只有通过设计出一套行之有效的立体匹配算法才能使得双目立体匹配技术在计算机视觉当中得到广泛的应用。

4 结束语

人们通过眼睛可以感受到外界事物的存在,可以清楚的了解到事物的立体信息,分辨出观察物的广度和深度,以及物体的远近。因此人类视觉感知系统就是一个双目的立体感知系统。本文讲述的计算机中的双目立体匹配技术正是基于人眼视觉观察物体的原理,通过双目立体视觉原理,对计算机采集获得两幅二维图像的信息进行分析,并结合计算机的分析,最终获得同人类眼睛一样观察到物体三维表面信息的目的。双目立体匹配技术与计算机技术的完美结合帮助人们可以更加轻易的获得物体的信息。希望在不久的将来,可以将该项技术应用于人类的视网膜当中,以帮助一些视网膜存在问题的人们,让他们重新感受到光明,感受世间的温暖。

参考文献

[1]高文,陈熙霖.计算机视觉算法与系统原理[M].北京:清华大学出版社,2002.

[2]明祖衡.双目立体视觉测距算法研究[M].北京:北京理工大学,2008.

[3]刘昌,郭立,李敬文,刘俊,杨福荣,罗锋.一种优于SAD的匹配准则及其快速算法[J].电路与系统学报,2007,12(4):137-14.

[4]陈蛟.双目立体匹配的算法研究及其多核并行化[M].南京:南京邮电大学,2012.

第2篇:计算机视觉的研究方向范文

关键词:计算机视觉;定标方法;应用特点

中图分类号:TP319文献标识码:A文章编号:16727800(2012)007014902

作者简介:许志雄(1968-),男,浙江绍兴人,江汉石油钻头股份有限公司工程师,研究方向为计算机多媒体。

0引言

计算机技术的应用在诸多领域占据了主要位置,并得到了人们的极大重视。在此形势下,摄像机的高清晰度亦成为了人们追逐的目标,而在计算机视觉中的定标方法有各种不同的处理方式,从而为摄像机的发展提供了一个绝好的机会。由此,计算机视觉中的摄像机定标方法成为当今世界摄像机研究领域里至关重要的一个方面,以摄像机得到的图像信息作为出发点来计算三维空间中自然场景的几何信息成为计算机视觉的基本任务之一,并且它的应用特点也得到了人们的密切关注。

1摄像机视觉投影原理

透镜成像的原理利用了光的折射现象,而摄像机的视觉投影原理和透镜的成像原理相差无几,只不过在一些细节上进行了相应的改变,使成像更加清晰,以更好地满足人们的需求。摄像机视觉投影原理就是利用镜头的光学原理进行视觉成像,而其中又有许多理论支持,包含镜头与焦距和视角。焦距是指镜头的焦点之间的距离,对于摄像机而言,就是指从镜头的中心位置到摄像管,也可以说是成像的位置之间的距离就是摄像机镜头的焦距,只有调整好了这两者之间的距离,才能保证摄像机的摄像效果,这也是保证摄像机正常工作的首要任务。视角要受到镜头焦距的限制,由镜头焦距对摄像的大小情况而决定,摄影师们就是通过对焦距的不断变换来改变对任务的造型,从而改变人们的视觉效果。对于拍摄相同距离的目标而言,镜头焦距越大,摄像的水平视角就会变得越窄,这样带来的后果就是拍摄到的目标的范围就越小,使得拍摄效果大打折扣,从而给摄像机带来不利的使用效益。因此,必须在两者达到一个较好的组合效果之时,才能够充分发挥摄像机的作用,并将摄像艺术发挥到极致。由此可见,计算机视觉中的摄像机定标方法将会给摄像机的拍摄效果带来巨大的转变。

2计算机视觉中的摄像机定标方法

2.1三维定标法

在人们的平常思维中,凡是物体的影像必定是三维的,本文的理论研究也同样基于这样的想法。在讨论单幅图像的设计标定之时,我们所追求的理论基础就是需要摄像机的定标物是人们所追求的那种三维的效果,在此基础上再进行相关的理论研究,以达到相得益彰的效果。在此过程中,首先要准确定位定标物上一些比较重要的点的三维坐标,这样才能够为后来的工作提供方便;然后在与定标物相对应的成像上找到相应的点的位置,这是至关重要的一步,这也决定了后面成像的具体设计方法;最后在那些比较重要的点的图像上标出其具体的三维坐标,达到定标物的实际成像效果图,这样就可以完全解决摄像机的成像问题了。这种定标方法的基本原理就是充分分析定标物的三维信息,同时与它的具体成像位置相关联,在这两者之间形成一种具体的相对应关系。由此我们可以充分利用计算机的快速运算,实现摄像的功能,并适时进行程序功能改进,优化定标物参数的获取方法,从而达到增加摄像机清晰度的目标。

2.2平面定标法

与上面的定标方法相对立的一种方法就是多幅图像的设计标定。在这样的时代背景下,人们的要求应尽可能得到满足,因而理论研究者会在这个方面下足功夫,弄懂这里面的个中玄机,利用多幅图像对平面的定标物来进行物体的标定工作,以达到摄像机定标的目的。这样的平面定标方法就是充分利用平面物体的运动特性,在它和摄像机之间找到一个平衡点,观察两者的相对运动,这样的定标方法也给拍摄运动中的物体带来了生机。此方法在实施之余也会带给人们不一样的感受,让人们充分体会到摄像的魅力。当然这种考虑运动的平面定标法会受到特征点的增多的影响,随着点的不断增加,定标情况就会越来越好,定标物的精度也会不断提高,于是在定标物相同的前提下,平面定标法自然就可以从定标物上获得更多的数据信息,为准确对定标物进行定位测量提供了更多的依据。因此,这种方法的效果要比前面的方法好很多,得到推广的力度也会大大增加,所得到的经济效益也会增加,设备的成本在原来的基础上还有降低的趋势。所以,理论研究者的研究领域就会逐渐向这一方面进行转变。

2.3两步定标法

有了前面的研究成果作支撑,摄像机定标方法的进一步研究就会显得异常容易,人们的进一步要求也会得到满足,可谓一举两得。理论研究者们在有了丰富的理论和实践基础之后,利用直接线性的定标方法进行摄像机参数的进一步优化提高,通过透视原理来修改以前的参数,然后将修正的参数进行初始值的确认,把它们作为现在研究阶段的起点,在这样的起点之上综合考虑各种外界因素,利用最优化的计算机算法进行摄像机成像程序的改进,把原来的程序进行升级处理,使得定标物的精确度得到进一步的提高,这就是我们所提到的两步定标法。它的基本原理其实很简单,只不过是充分利用了原有的理论,并进行了一定的创新而已。但就是这样的创新步伐的迈出,给计算机视觉中的摄像机定标方法带来了新的生机,也给摄像机镜头的优化带来了很多指导方法。在图像中心到图像点的距离保持不变的前提下,参数的数量会显著减少,这样不仅节省了材料的用量,而且还进一步提高了摄像机的摄像清晰度,有效弥补了以前清晰度不高的缺点。这样一来,摄像机的成像效果大大改进,于是才有了现代摄像机的高清效果,确实让人们享受到了科技带来的福音。

3计算机视觉中的摄像机定标方法的应用特点

3.1建立于主动视觉上的自我标定

由于计算机视觉中摄像机定标方法的不断推广,一些计算机技术在摄像机的制作过程中得到了较好的应用。但是在这之中必不可少地存在一些制作人员或设计人员的主观因素,这样摄像机的标定方法中就会形成形色各异的特点,而且彼此之间可能会出现较大的不同,特别是在主动视觉上的自我标定。在主动视觉中,我们所用到的摄像机可以在一个被控制的平台上被人们固定,利用计算机的高运算能力,计算机可以把平台上所出现的参数精确地读出来,我们只需要利用控制摄像机的运转顺序,让摄像机作一定的周期运动,就可以在这个过程中得到更多的图像,然后再利用所成的图像和固定的摄像机的运动参数来确定摄像机的运动情况。这种自我标定方法比较简单,但是必须为人们提供精确控制摄像机运动的平台,这种以主观意识为主的标定特点强化了个人的主观能动性,让人们更加易于接受。

3.2进行有层次划分的逐步标定

近年来,人们对摄像技术的理论研究已经日趋成熟,并根据自己的意愿进行相关的研究工作,把自己的想法融入到摄像机的设计中,真正做到有层次的逐步标定,把所要的标定物以逐个击破的方式实现有层次的程序算法,从而让人们在逻辑上能够有所认识,并且易于接受,从而达到有层次划分的逐步标定的目的。分层逐步标定法已为标定研究领域中普遍认同的方法之一,在实际的应用中逐渐取代了直接标定的方法。因为进行有层次划分的逐步标定是符合人们的想法的,而且这种方法的特点是以射影标定作为基础,以某一幅图像作为基准图像,进行其它图像的射影对齐工作,从而将摄相机中成像未知参数的数量减少,更易于为人们所接受。可以说,进行有层次划分的逐步标定是人们在实践中得出的一套符合大势所趋的标定方法,为世人所推崇。

4结语

综上所述,计算机视觉中摄像机定标方法在人们的不断认识中得以应用和推广,在时代的不断进步中逐渐向前发展。同时,摄像机标定方法的应用特点也大相径庭,各有千秋,从而实现百家争鸣的态势,进一步推动计算机视觉中的摄像机研究工作的向前发展。

参考文献:

第3篇:计算机视觉的研究方向范文

国内人工智能产业链解构

基础技术、人工智能技术和人工智能应用构成了人工智能产业链的三个核心环节,我们将主要从这三个方面对国内人工智能产业进行梳理,并对其中的人工智能应用进行重点解构。

人工智能的基础技术主要依赖于大数据管理和云计算技术,经过近几年的发展,国内大数据管理和云计算技术已从一个崭新的领域逐步转变为大众化服务的基础平台。而依据服务性质的不同,这些平台主要集中于三个服务层面,即基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。基础技术提供平台为人工智能技术的实现和人工智能应用的落地提供基础的后台保障,也是一切人工智能技术和应用实现的前提。

对于许多中小型企业来说,SaaS 是采用先进技术的最好途径,它消除了企业购买、构建和维护基础设施和应用程序的需要;而 IaaS通过三种不同形态服务的提供(公有云、私有云和混合云)可以更快地开发应用程序和服务,缩短开发和测试周期;作为 SaaS 和 IaaS 中间服务的 PaaS 则为二者的实现提供了云环境中的应用基础设施服务。

人工智能技术平台

与基础技术提供平台不同,人工智能技术平台主要专注于机器学习、模式识别和人机交互三项与人工智能应用密切相关的技术,所涉及的领域包括机器视觉、指纹识别、人脸识别、视网膜识别、虹膜识别、掌纹识别、专家系统、自动规划、智能搜索、定理证明、博弈、自动程序设计、智能控制、机器人学习、语言和图像理解和遗传编程等。

机器学习:通俗的说就是让机器自己去学习,然后通过学习到的知识来指导进一步的判断。我们用大量的标签样本数据来让计算机进行运算并设计惩罚函数,通过不断的迭代,机器就学会了怎样进行分类,使得惩罚最小。这些学到的分类规则可以进行预测等活动,具体应用覆盖了从通用人工智能应用到专用人工智能应用的大多数领域,如:计算机视觉、自然语言处理、生物特征识别、证券市场分析和DNA 测序等。

模式识别:模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读,它偏重于对信号、图像、语音、文字、指纹等非直观数据方面的处理,如语音识别,人脸识别等,通过提取出相关的特征来实现一定的目标。文字识别、语音识别、指纹识别和图像识别等都属于模式识别的场景应用。

人机交互:人机交互是一门研究系统与用户之间交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。在应用层面,它既包括人与系统的语音交互,也包含了人与机器人实体的物理交互。

而在国内,人工智能技术平台在应用层面主要聚焦于计算机视觉、语音识别和语言技术处理领域,其中的代表企业包括科大讯飞、格灵深瞳、捷通华声(灵云)、地平线、SenseTime、永洪科技、旷视科技、云知声等。

人工智能应用

人工智能应用涉及到专用应用和通用应用两个方面,这也是机器学习、模式识别和人机交互这三项人工智能技术的落地实现形式。其中,专用领域的应用涵盖了目前国内人工智能应用的大多数应用,包括各领域的人脸和语音识别以及服务型机器人等方面;而通用型则侧重于金融、医疗、智能家居等领域的通用解决方案,目前国内人工智能应用正处于由专业应用向通用应用过度的发展阶段。

(1)计算机视觉在国内计算机视觉领域,动静态图像识别和人脸识别是主要研究方向

图像识别:是计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。识别过程包括图像预处理、图像分割、特征提取和判断匹配。

人脸识别:是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术,通常也叫做人像识别、面部识别。

目前,由于动态检测与识别的技术门槛限制,静态图像识别与人脸识别的研究暂时处于领先位置,其中既有腾讯、蚂蚁金服、百度和搜狗这样基于社交、搜索大数据整合的互联网公司,也有三星中国技术研究院、微软亚洲研究院、Intel中国研究院这类的传统硬件与技术服务商;同时,类似于 Face++ 和FaceID 这类的新兴技术公司也在各自专业技术和识别准确率上取得了不错的突破。

而在难度最大的动态视觉检测领域,格灵深瞳、东方网力和 Video++ 等企业的着力点主要在企业和家庭安防,在一些常见的应用场景也与人脸识别技术联动使用。

(2)语音/语义识别

语音识别的关键基于大量样本数据的识别处理,因此,国内大多数语音识别技术商都在平台化的方向上发力,希望通过不同平台以及软硬件方面的数据和技术积累不断提高识别准确率。

在通用识别率上,各企业的成绩基本维持在 95% 左右,真正的差异化在于对垂直领域的定制化开发。类似百度、科大讯飞这样的上市公司凭借着深厚的技术、数据积累占据在市场前列的位置,并且通过软硬件服务的开发不断进化着自身的服务能力;此外,在科大讯飞之后国内第二家语音识别公有云的云知声在各项通用语音服务技术的提供上也占据着不小的市场空间。值得注意的是,不少机器人和通用硬件制造商在语音、语义的识别上也取得了不错的进展,例如智臻智能推出的小 i 机器人的语义识别、图灵机器人的个性化语音助手机器人和服务、被 Google 投资的出门问问的软硬件服务。

(3)智能机器人

由于工业发展和智能化生活的需要,目前国内智能机器人行业的研发主要集中于家庭机器人、工业企业服务和智能助手三个方面其中,工业及企业服务类的机器人研发企业依托政策背景和市场需要处于较为发达的发展阶段,代表性企业包括依托中科院沈阳自动化研究所的新松机器人、聚焦智能医疗领域的博实股份,以及大疆、优爱宝机器人、Slamtec 这类专注工业生产和企业服务的智能机器人公司。在以上三个分类中,从事家庭机器人和智能助手的企业占据着绝大多数比例,涉及到的国内企业近 300 家。

(4)智能家居

与家庭机器人不同,智能家居和物联企业的主要着力点在于智能设备和智能中控两个方面。在这其中,以海尔和美的为代表的传统家电企业依托自身渠道、技术和配套产品优势建立起了实体化智能家居产品生态. 而以阿里、腾讯、京东、小米和乐视等互联网企业为代表的公司则通过各自平台内的数据和终端资源提供不同的软硬件服务。

值得关注的是,科沃斯、broadlink、感居物联、风向标科技、欧瑞博、物联传感和华为等技术解决方案商在通用硬件和技术、系统级解决方案上已成为诸多智能家居和物联企业的合作伙伴。综合来看,智能家居和物联企业由于市场分类、技术种类和数据积累的不同各自提供着差异化的解决方案。在既定市场中,没有绝对意义上的排斥竞争,各企业之间的合作融合度较强。

(5)智能医疗

目前国内智能医疗领域的研究主要集中于医疗机器人、医疗解决方案和生命科学领域。由于起步较晚和技术门槛的限制,目前国内医用机器人的研发水平和普及率相较于国际一线水平仍存在一定的差距,从事企业主要集中与手术机器人和康复机器人两大领域,以新松机器人、博实股份、妙手机器人、和技创等企业为代表。

在医疗解决方案方面,以腾讯、阿里巴巴、百度和科大讯飞为代表的公司通过和政府、医疗机构的合作,为脑科学、疾病防治与医疗信息数据等领域提供智能解决方案。而在生命科学领域,研究的着眼点在以基因和细胞检测为代表的前沿研究领域。

综合来看,国内人工智能产业链的基础技术链条已经构建成熟,人工智能技术和应用则集中在人脸和图像识别、语音助手、智能生活等专用领域的场景化解决方案上。就趋势来看,未来国内人工智能领域的差异化竞争和突破将主要集中在人工智能相关技术的突破和应用场景升级两个层面。

未来国内人工智能行业发展的五大趋势

(1)机器学习与场景应用将迎来下一轮爆发

根据 Venture Scanner 的统计,截至 2015 年 9 月,全球人工智能领域获得投资的公司中,按照平均融资额度排名的五大业务依次是:机器学习(应用类)、智能机器人、计算机视觉(研发类)、机器学习(研发类)和视频内容识别等。

自 2009 年以来,人工智能已经吸引了超过 170 亿美元的投资。过去四年间,人工智能领域的民间投资以平均每年 62% 的增长速率增加,这一速率预计还会持续下去。而在 2015 年,全球人工智能领域的投资占到了年度总投资的 5%,尽管高于 2013 年的2% ,但相比其他竞争领域仍处于落后位置。

目前中国地区人工智能领域获得投资最多的五大细分领域是计算机视觉(研发类)、自然语言处理、私人虚拟助理、智能机器人和语音识别。从投资领域和趋势来看,未来国内人工智能行业的资本将主要涌向机器学习与场景应用两大方向。

(2)专用领域的智能化仍是发展核心

基于 GPU(图形处理器)计算速度(每半年性能增加一倍)和基础技术平台的飞速发展,企业对于人工智能神经网络的构建取得了前所未有的突破。但是,由于人工智能各领域技术和算法的复杂性,未来 20 年内人工智能的应用仍将集中于人脸和图像识别、语音助手和智能家居等专用领域。

通过上述产业链环节构成和投资分类可以看出,优势企业的核心竞争力主要集中于特定领域的专用技术研发;其中,计算机视觉和语音识别领域的研发和应用已处于国际一流水平,专业应用机器人的研发也有望近 10 年内迎来突破性发展。可以预见的是,在由专业领域向通用领域过渡的过程中,自然语言处理与计算机视觉两个方向将会成为人工智能通用应用最大的两个突破口。

(3)产业分工日渐明晰,企业合作大于竞争

随着专用领域应用开发的成熟和差异化技术门槛的存在,国内人工智能产业将逐渐分化为底层基础构建、通用场景应用和专用应用研发三个方向。

在底层基础构建方面,腾讯、阿里巴巴、百度、华为等企业依托自身数据、算法、技术和服务器优势为行业链条的各公司提供基础资源支持的同时,也会将自身优势转化为通用和专业应用领域的研究,从而形成自身生态内的人工智能产业链闭环。

在通用场景应用方面,以科大讯飞、格灵深瞳和旷视科技为代表的企业将主要以计算机视觉和语音识别为方向,为安防、教育和金融等领域提供通用解决方案。而在专用应用研发方面则集中了大部分硬件和创业企业,这其中既包括以小米和 broadlink 为代表的智能家居解决方案商,也包含了出门问问、linkface 和优必选这类的差异化应用提供商。

总的来说,由通用领域向专业领域的进化离不开产业链条各核心环节企业的相互配合,专用领域的竞争尽管存在,但各分工层级间的协作互通已成为多数企业的共识。

(4)系统级开源将成为常态

任何一个人工智能研究分支都涉及到异常庞大的代码计算,加上漏洞排查与跨领域交叉,任何一家企业都无法做到在封闭环境内取得阶段性突破的可能。可以看到的趋势是,Google、微软、Facebook 和雅虎等视人工智能为未来核心竞争力的顶级企业都先后开放了自身的人工智能系统。

需要明确的一点是,开源并不代表核心技术和算法的完全出让,底层系统的开源将会让更多企业从不同维度参与到人工智能相关领域的研发,这为行业层面新产品的快速迭代和共同试错提供了一个良性且规范化的共生平台。于开放企业而言,这也确保了它们与行业最新前沿技术的同步。

(5)算法突破将拉开竞争差距

作为人工智能实现的核心,算法将成为未来国内人工智能行业最大的竞争门槛。以 Google 为例,Google 旗下的搜索算法实验室每天都要进行超过 200 次的改进,以完成由关键字匹配到知识图谱、语义搜索的算法创新。

在未来竞争的重点机器学习领域,监督学习、非监督学习和增强学习三个方面算法的竞争将进入白热化阶段。而正是算法层面的突破造就了腾讯优图、科大讯飞和格灵深瞳等企业在图像识别和计算机视觉领域取得了突破性进展和国际一线的技术水平。

但就目前国内人工智能算法的总体发展而言,工程学算法虽已取得阶段性突破,但基于认知层面的算法水平还亟待提高,这也是未来竞争的核心领域。

总的来看,虽然基础技术的成熟带来了存储容量和机器学习等人工智能技术的提升,但由于现阶段运算能力以及大规模 CPU 和GPU 并行解决方案的局限,目前国内人工智能的发展主要集中于计算机视觉、语音识别、智能生活等方向上。

虽然专用化领域的场景应用仍是目前研发和投资的核心,但随着技术、数据的积累演化以及超算平台的应用,由专用化领域的场景应用向语音、视觉等领域的通用化解决方案应该在未来 20 年内成为发展的主流。

第4篇:计算机视觉的研究方向范文

关键词:增强现实;视线追踪;应用

增强现实(Augmented Reality简称AR)技术是近年来的一个研究热点,有着广泛的应用前景。它是对现实世界的补充,使得虚拟物体从感官上成为周围真实环境的组成部分。与传统的虚拟现实(Virtual Reality简称VR)不同,增强现实只是实现对现实环境的增强,加深了对现实环境的感受。在实际的AR体验中,因为人的观察视线会不断地变化,AR系统需要实时的根据用户的视场重新建立位置坐标系,进行追踪。而视线追踪技术就是实时地跟踪用户头部的位置和视线方向,根据这些信息来确定虚拟物体在真实空间坐标中的位置,并将它实时地显示在显示器中的正确位置。

一、视线追踪技术及其特点

(一)视线追踪技术概述。

视线追踪也称为眼动追踪,它被认为是研究视觉信息加工的有效手段。利用专用设备来记录学习者的眼球运动(Eve-Movement,简称眼动)情况,可以作为分析学习者内部心理活动情况的依据。关于视线追踪技术的研究己有较长历史,目前它己在多个领域得到广泛应用。例如用于图片广告研究(网页评估、设计评估等)、动态分析(航空航天、体育运动、汽车、飞机驾驶等)、产品测试(可用性测试)、场景研究(商场购物、店铺装演、家居环境等)和人机交互等多个领域。此外,视线追踪在智能计算机、智能家电、虚拟现实和数字游戏等领域也有很好的应用前景。

在眼动实验研究中,当被试对视觉信息进行提取时,其注视时间、注视次数、注视点序列、眼跳距离、回视次数、瞳孔直径等通常被视为思维和心理加工的重要参数。因此,通过对被试在学习过程中的实时眼动信息进行观测,可用于分析和引导其学习的依据。眼动模式一般分为三种:注视(fixation)、眼跳(saccade)和追随运动(pursuit movement)。其中,持续一段时间、相对稳定的眼球运动称为注视;眼球快速运动时导致视觉区域的聚焦点产生变化,这种行为称为眼跳;眼睛缓慢、平滑地追踪某个缓慢运动的目标,则称为追随运动。通过分析眼动模式和相关参数,可以获得很多重要的信息。例如,眼跳速度会随着疲倦程度的增加而降低,而随着学习任务难度的增加而增加;眨眼速度和眼睛睁开程度的降低则可能意味着疲倦的加重。因此,可以据此来确定学习者的学习精神状态,或对其学习过程进行分析,从而采取相应的学习策略或干预措施。

(二)视线追踪系统的类型及其特点。

人眼的注视点主要由头的方位和眼睛视线决定。头的方位决定了人眼可能注视的范围,眼睛的视线决定了注视点的精确位置。国内外将视觉跟踪技术按照借助的媒介分为硬件和软件两种。以硬件为基础的视线跟踪的基本工作原理是利用图像处理技术,通过摄像机摄入瞳孔反射的红外线记录视线变化,达到视线追踪的目的。视线跟踪装置目前有穿戴式与非穿戴式,接触式与非接触式,如带上专用头盔、眼镜或者头部固定支架,置于头部上的摄像机,这种情形用户使用较不舒适。通过软件实现的视线跟踪方法,对用户没有干扰,首先利用摄像机获取头部、脸部或眼睛图像,再经过软件分析对视线定位与跟踪。由于不需要佩戴任何装置,用户的自由度舒适度较好。

人与计算机交互是研究人与计算机之间沟通的技术,将视线跟踪、语音识别、手势输入、感觉反馈等引入人机交互,提高了交互的自然性和高效性。视线追踪技术同样引发了人机交互系统的改革,鼠标、触控板的消失,及通过追踪人眼视线,用眼神来操作电脑、输入文字、玩游戏。

二、视线追踪技术在AR增强现实研究中的应用

(一)显示技术。

AR的简单定义就是将计算机生成的虚拟数字信息叠加到现实的生活场景中。这个“叠加”是需要通过显示设备作为中介来实现。

增强现实系统中的显示器可以分为头盔显示器(HMD)和非头盔显示设备。目前,一般的增强现实系统主要使用透视式头盔显示器。透视式头盔显示器主要由三个基本环节构成:虚拟信息显示通道、真实环境显示通道、图像融合及显示通道。其中,虚拟信息的显示原理与虚拟现实系统所用的浸没式头盔显示器基本相同;图像融合与显示通道是与用户交互的最终接口,根据其中真实环境的表现方式,可分为基于CCD摄像原理的视频透视式头盔显示器和基于光学原理的光学透视式头盔显示器两类。

光W透视技术是通过安装在设备眼前的光学透镜来呈现出真实和虚拟世界。首先计算机生成的虚拟信息经过光学系统放大后反射后进入视野,透过透镜又能直接看到现实场景,两部分的信息汇聚到人眼的视网膜上实现AR的效果。视频透视技术是借助安装在头显上的摄像头来捕捉获取外部真实环境,计算机将数字模拟信息叠加到摄像机的视频信号上,再将真实场景和虚拟场景进行融合。相比较光学透视技术,它的视角场更大,而且不受外界的强光干扰。不过一旦摄像机与用户的视点不能保持完全重合,会产生一些偏差。

(二)跟踪注册技术。

基于计算机视觉的注册技术主要是指利用计算机视觉获取真实场景的信息后,经过图像处理方面的知识来识别和跟踪定位真实场景。细分可以划为基于传统标志的注册算法和基于自然特征点无标志注册算法。基于计算机视觉的注册技术的精度较高,但是对计算量非常大,而且算法复杂,对系统的要求非常高。

为了取长补短,得到更加精确的注册结果,现在有结合两种技术的混合注册方法。通常是先由跟踪传感器大概估计位置姿态,再通过视觉法进一步精确调整定位。一般采用的复合法有视觉与电磁跟踪结合、视觉与惯导跟踪结合、视觉与GPS跟踪结合等。

三、结论

在国外,增强现实早已在医学、遥操作、制造与维修、可视化与教育培训、娱乐、军事训练等领域取得了成功应用。在国内,不少单位和个人对增强现实中的关键技术和算法进行了研究,并且以牙科医学、设备维修等许多背景得到了初步应用研究。但国内的研究目前仍多限于实验阶段,与国外的应用水平还有一定距离。

目前,随着增强现实的快速发展,出现了许多新的研究方向,如新的显示方式、照片真实感图形绘制、调节现实、基于网络的增强现实和针对户外随身增强现实系统的技术等等。其中涉及到的技术包括基于图像的绘制(IBMR)、多通道信息融合、普适计算技术、显示设备和跟踪设备的随身便携化等。随着系统性能的提高、操作过程的简化和设备成本的降低,增强现实会在越来越多的领域得到广泛应用。

参考文献:

[1]奚惠宁等.视线追踪应用技术的专利分析[J].电视技术,2013(S2)。

第5篇:计算机视觉的研究方向范文

关键词:车牌图像;预处理;灰度化;二值化;边缘增强

DOIDOI:10.11907/rjdk.151249

中图分类号:TP317.4

文献标识码:A 文章编号:16727800(2015)006018902

基金项目基金项目:江苏省大学生创新创业训练计划项目(xcx2014052)

作者简介作者简介:刘凯(1992-),男,江苏扬州人,徐州工程学院信电工程学院学生,研究方向为计算机软件;罗凯耀(1994-),男,江苏徐州人,徐州工程学院信电工程学院学生,研究方向为网络技术;姜代红(1969-),女,江苏徐州人,徐州工程学院信电工程学院教授,研究方向为数据库技术、嵌入式技术。

0 引言

汽车牌照自动识别系统[1]是以汽车牌照为特定目标的专用计算机视觉系统 ,是计算机视觉和模式识别技术在智能交通领域应用的重要研究课题之一。 车辆牌照识别[2]一般由以下环节:图像获取、图像预处理、车牌定位、字符分割、字符识别 ,每一环节对下一环节都有很大的影响。 从采集卡获得的原始图像不仅包括车牌照,而且还有汽车本身以及汽车背景图像,车牌识别的难点在于获取高质量的车牌图像。采集车牌图像时,会受到光照、障碍物、拍摄角度、摄像设备等的影响,图像中会产生较多与车牌无关的图像数据,造成噪声,从而影响车牌识别效果,所以需要对识别的图像进行预处理,去除噪声干扰。

本文车牌图像预处理[3]主要针对智能交通管理系统中的车牌识别,通过获取车牌对车辆信息进行采集,经过车牌图像灰度化、图像增强、边缘检测、车牌定位、车牌图像二值化及图像倾斜校正等,为车牌图像后续处理打下基础。

1 灰度化

一般从摄像头采集到的图像或者计算机中存储的图像通常是彩色图,彩色图像包含着大量的色彩信息,在数字图像[4]处理中 ,很多算法都是针对灰度图像 ,处理的灰度级从0~255,共 256个灰度级,这样不仅减少了存储图像所需的内存,而且加快了图像处理的速度。 因此,首先要将彩色图像转换成灰度图像。彩色图像中任一像素都有R、G、B三种不同的颜色分量,而当图像中每一像素值R=G=B时,表示一种灰度颜色。其中,灰度化的方法主要有以下3种。

2 二值化

二值图像是由黑白两种颜色构成的图像。目的是能够快速将车牌字符和背景分开,通过阈值设定将灰度值小于阈值的像素直接设为0,灰度值大于阈值的像素直接设置为255,而二值化的关键就是找到合适的阈值T来区分对象和背景。

4 实验结果

本文采用手机随机拍摄的汽车图像,测试环境为2GHz cpu,2G内存,操作系统为window 7,使用平台为vs2005,并基于opencv开发车牌预处理功能。

当对一副未进行预处理或噪声处理不当的图像分割时,即会出现如图5的车牌定位区域过大或过小的情况,而进行过预处理后的图像进行车牌定位时则如图6所示,可见预处理对降噪起了很大的作用。

5 结语

车牌图像本身较复杂,冗余信息较多,因此难以识别。本文探讨三种预处理方法简化图像、消除图像噪声。其中灰度化减少了图像存储的大小;二值化将图像转化为黑白两种颜色的图像,使车牌和背景分离;边缘增生使得车牌定位更加快速、准确。实验结果表明,三种方法均达到预期效果,提高了图像的质量,为图像后续分割和识别打下了基础。

参考文献:

[1]刘海波,沈晶 ,郭耸.Visual C++ 数字图像处理结束详解[M].北京:机械工业出版社,2010.

[2]冯伟兴,唐墨,贺波.Visual C++数字图像模式识别技术详解[M].北京:机械工业出版社,2010.

[3]周阅宇.汽车牌照识别系统研究与设计[D].长春:吉林大学论,2013.

[4]李凌.车牌图像预处理技术研究与实现[J].淮北职业技术学院学报,2007(2):98100.

第6篇:计算机视觉的研究方向范文

【关键词】课程 计算机视觉 图像检索

1.课程设置、建设与改革自述

1.1 综合基础与应用,精选教研内容

从专业学位教育的高层次应用型人才培养目标出发,我以学生专业应用能力的培养作为教研的重点,同时,考虑到“计算机视觉”是一门数学要求较高、理论性较强的专业基础课程。课程的基础理论教研十分重要,我在规划教案时,综合安排基础理论与应用实践的教研内容。

1.2 强调学生应用能力,优化教研方法

将启发式教研方法融入到整个教研过程中,将课堂讲授的重点放在问题由来、概念形成、研究思路与方法上,并通过介绍人工智能与计算机视觉学科交叉中出现的最新研究与应用。把新理念、新思路、新方法和新问题引入课堂,调动学生学习的积极性和主动性,拓宽他们视野和思路。

通过较为熟悉的分析,“计算机视觉”课程中的教研方法较为新颖,使他们从一开始就建立了所学理论与实际工程控制问题的联系。

按“计算机视觉”的基础理论和知识内容分环节来实施教研,每个环节以实际工程问题开始,以理论学习为基础,各教研环节之间既是工程问题的系统化深入,也是理论知识体系的循序推进。

按“计算机视觉”的基础理论和知识内容分环节来实施教研。每个环节,以理论学习为基础,以提出和解决实际实验案例中的识别问题为结束,各教研环节之间既是三维重建问题的系统化深入,也是理论知识体系的循序推进。

他们都十分赞同我以强调学生自主学习和应用能力为目的的启发式和交互式教研方法。尤其是以论文报告和答辩形式提交作业。强调了理论和应用的结合。每一次的作业贯穿整个教研环节,使他们对问题的发现、理解和解决成为一个逐渐明确、细化和深入的过程,因此。虽然作业要求较高、工作量较大,但做起来并不会感到压力和困难。同时,他们大多之前没有撰写科研论文和报告的经历,通过作业也可以使他们在这方面的能力得到锻炼和提高,最后考试结业。

与此同时。研究生们也畅谈了他们对课程教研中一些问题的看法.研究生们十分重视专业应用能力和实际动手能力的培养与提高。也非常看重扎实理论基础的必要性,都认为理论学习与专业应用能力培养应该没有矛盾,但在有限的2年时间内,如何实现两者的全面提高,他们大多存在疑虑。同时,他们也认为目前大多数的课程教研具有明显的理论或实践的偏向性,缺乏科学合理的平衡。

针对我在教研中所提出的案例和问题,学生们反映,尽管十分熟悉,但对问题的本质和要求仍只是停留在理性认识上。无法建立与实际对象的对应关系。另外,他们提出,案例仅从单一课程角度讲授,在有限课时内难以从多学科的角度介绍滤波,三维重建,运动恢复,图像检索案例,虽然是实际科研项目,但课堂不可能展示整体实物,学生缺乏工业现场的实际感受。使得学生对案例的整体理解难以跳出课堂的思维界域。

针对此,我计划在加强现代化教育手段方面进行一些建设与探索,努力向学生提供信息容量大、表现形式丰富的综合性辅助认识手段。考虑到“计算机视觉”通常需要运用计算机技术解决工程问题,我们将在以后教研中,增加计算机辅助教研的功能。如利用Matlab工具对所学内容及实际视觉问题进行可视化仿真演示。我们也将用虚拟仪器工具搭建案例的虚拟系统,试图通过这样的虚拟系统,向学生提供有利于启发思维的灵活的认识与实践环境。增强学生的感性认识;同时,尽管采用了多媒体教研。计划在以后的教案中增加更多的现场视频材料以及图形和图像资料,使学生更容易理解和记忆,增强抽象理论的可接受性。这些工作都需要我们在教研和科研工作之余投入大量的热情和精力。

2.教研手段(课程建设中积极营造数字化、信息化环境和外语教研环境,网络教研和网上教研资源的开发与建设情况)

2.1本课程的主要特色

体现机器视觉与机器听觉融合。①机器视觉:图像处理、图像与视频压缩、模式识别和机器学习、生物特征识别、三维视觉信息处理。②机器听觉:听觉计算模型、语音信号处理、口语信息处理。此外还在同济大学开设计算机视觉,和图像处理方面课程,该课程构成本课程基础, 及对大量应用实例介绍设计方法,系统性能,并对结果进行祥细分析和点评。学生通过听课可以跟随教师本人了解和掌握计算机视听觉。充分领略数字技术用于语音通信这一广阔的领域神奇魅力。脑、 机接口的研究有广阔的应用前景, 正成为脑科学、康复工程、神经工程及人机交互( puter interface, HCI) 领域的一个研究热点。

2.2本课程的建设总目标和成果

以后开展图像,图形,语音处理,多媒体的内容的检索,三维景物物体的重建,自然语言理解的研究方向:视觉与听觉的生理学和心理学基础,从生理与心理学的角度探索视觉与听觉的感觉和知觉机理,为视觉与听觉信息处理提供基本理论和方法,完成同济大学研究生精品课程建设。以近几年为研究生讲授“计算机视觉”课程讲义的电子教案为基础,结合开发科研项目,并参考相关文献资料和最新动态编写计算机视听觉电子教案,和教材。

机器视觉:图像处理、图像与视频压缩、模式识别和机器学习、生物特征识别、三维视觉信息处理。

机器听觉:听觉计算模型、语音信号处理、口语信息处理、自然语言处理、智能人机交互。

2.3 本课程的建设分年度目标和步骤

教材内容:针孔摄像机,辐射学术语;局部影调模型,点,线和面光源,光度学体视;颜色;线性滤波器,平滑抑制噪音,边缘检测;纹理,用滤波器输出表示统计量,纹理量,纹理合成,由纹理推断形状;基本的多视角几何,立体视觉;用聚类实现分割;拟合直线与曲线,用最大似然率进行拟合,鲁棒性;隐变量与EM;用卡尔曼滤波来跟踪,数据相关;摄象机标定;使用特征对应和摄像机标定的基于模型的视觉;使用分类器的模版匹配;基于关系的匹配;在数字图书馆中检索图像,基于图像的绘制。

准备离散时间语音信号处理的原理,介绍语音信号处理研究及其应用方面的最新动态,其中包括语音处理,语音时频分析以及非线性声学语音产生模型,而这些讲授内容在以往任何一本语音信号处理教科书都不曾提及,深入介绍以下内容:语音编码,语音增强,语音综合,说话人识别,语音信号恢本复,动态范围压缩语音信号处理基础,语音的时域的分析语音信号频域分析,语音信号线性预测分析,矢量量化,语音编码,语音合成,语音增强,说话人识别。

3.构建研究实践型模式,探究研究生指导

通过研究生指导模式的学习,两种指导方式之一是对传统面对面的与基于网络两种指导方式的混合。师生之间定期与不定期面对面的交流对于保证研究生指导质量提高有着重要关系。互联网突破时空限制为高校师生提供一个开放的、共享、个性化、多维交互的教与学的平台。我提供优秀研究资源,学生也可以通过网络共享研究资源。师生都可以Web对于优化研究资源的共享、促进师生之间的社会互有着重要作用使得研究生指导模式充分发挥面对面指导。研究生指导主要注重科研素养培养。研究生培养根本目标发展能力。课程学习对于系统提高研究生对专业关心课程学习状况必要,要为学生提供学习方法指导与建议,要鼓励学生结合课程学习进行相关讨论。

基于自主与协作的探究性学习是研究生学习的主体地位,发挥作用。我在教研中培养研究生发现问题、分析问题、解决问题的能力正是为了支持研究目标在于获得亲身参与研究探究体验:培养“教研模式中”包括个人理解专业研究领域相关问题的内涵与特征。旨在使学生能够切实掌握专业与研究领域所涉及基本原理与能够利用这些原理与方法分析确定方案实施、“know“know 是相互交织相互作用的层面,主要是为了增强指导以便根据不同层包括若干个问题常常需投人较多的精力与时间。应该安排较长时间且要充分利用网络技术平台支持。提升研究质量有效地避免传统指导误区。在指导时过于强调研究生所获取学术成果而忽视指导过程体现在两方面:一目标评价标准单一往往给研究生层面:①面向研究生个体的“个别指导”;②面向小组集中:③自主调控评价,必须与教师、同伴、专家进行交流、协作才有可能真正地提高效率,实现学习目标,培养学团队意识,其次要帮助研略,在各层面都有明确的目标相应指导内容,并要注意这三个层面整合。使之过程得到全面发展。养成科学态度和科学道德。“科研能力发展、轻综合素质培养”,研究生导师不但应该是研究生的指导者。指导教师可以按“科研项目一要问题一具体任务”的层次。以教师的、助学促学”尽可使每个研究生都能达到预期培养目标。评价要更关注总结性评价”与“过程性评价”工具以丰富研究生指导过程中教研交互的教育学中社会互。传统环境下的社会互往往是面对面的交互。网络平台可以利用构建社会网络支持社会交互。强调的研究科研成果而深层次交流方式不同指导目标、不同指导层次整合,指导教师角色转变,变革评价方式,丰富指导教师来促进“自主一协作”探究学习,对研究生“混、他评”与“自混评关注教研评价的。”教研模式下网络技术与内涵表现在:①利用技术促进教研资源的整合,优化教研资源管理,教研资源共享,促进师生与教研内容的交互;②利用Web工具,有效地整合现实交互空间虚拟交互空间另外还地加速或加强人际联系,帮助师生了解探究式应用实践探索。

研究生是否发表了高水平的科研成果,研究生入学初期,以Web的应用为核心的互联网络不但为高校师生的交流提供了新的沟通与互动方式。以独特高校师生的思维方式生存方式发生了系列改变。也成为高校师生教研与生活中的重要信息工具为研究生指导提供了丰富的资源与多维立体环源。网络平台也用于共享、深化面对面交流中所总结形成相关观点与资料。要求其他每位学生都至少要提一个问题所提出问题进行进一步的讨论。了解专业研究领域的基本问题、核心问题与前沿问题研究生自己在调研基础上提出研究进行独立自主的探究。所以除了关注在专业领域内研究能力的发展之外还要注意教育科研能力的培养引导学关注“专业发展”。 用于规划了解学生的已有基础,以帮助后期制定更为合理个别指导计划:第二,通过召开定期的讨论会、师生个别交流,包括两种类型:①旨在提高新生适应研究生学习与生活的适应性:②面向科研任务的研究小组。面向任务方式冲击着高校师思维方式与文化理念,非常重视网络平台研究指导中的应用,建立了向团队公用资源平台教研主要采用研究式教研方法, 要求研究生自学其基本原理, 然后利用实际数据,由导师提供或从期刊文献中获取,完成数据预处理、计算、结果表达、解释的全过程, 并以论文形式提交给教师, 同时在课堂上向大家介绍自己的研究成果。这样做一方面提高了学生应用知识的能力以及研究成果的文字组织和语言表述能力。 另一方面, 研究生的每篇习作就是一个很好的实例, 教师可以从中发现学生对知识理解的偏差, 及时予以纠正, 使学生对方法的掌握更加准确和牢固。将网络共享平台中上传所有研讨记录训练,将研究分个层面:①选择专业研究内的基本问题或重要问题或热点问题对之进行深入探究。掌握本专业领域基本研究方法;②以自己课体依托,在课题下设置子课根据研究与研究兴趣跨年级构建小组,每个小组负责不同的子课题与任务③鼓励研究途径。一年级开始参与课题研究,二年级学期要求开始提出自己一些问题或鼓励结合确定毕业论文选题使他们在更大程度职业能力发展;推荐专业相关资料;对(共8人)进行指导,效果较明显。在学习方面,24名本科生通过毕业答辩。研究生八人以学生身份公开发表学术科研论文。 他们在这方面的能力得到锻炼和提高。

通过"混合型-探究式"研究生指导模式的学习实践三个维度的"混合":对传统面对面的与基于网络的两种指导方式的整合,对提升研究生课程学习绩效、促进研究生科研能力发展、促进研究生职业能力发展三个指导目标的整合,对个别指导、小组集中指导、团队集中指导三个指导层面的整合;说明了该模式中三个层面的"探究":对专业问题的探究,对专业与研究领域内基本原理的探究,对综合科研任务的探究;同时介绍了在实践层面应用"混合型-探究式"研究生指导模式的实际效果。以重点学科为依托,吸取国内外大学研究生培养经验,对创新型研究生培养模式方法进行探索,在研究生培养模式改革中,提出“四个转变”的指导思想,即变“单人指导”为“团队指导”,变“单一培养模式”为“多元培养模式”,变“以教师为中心”为“以学生为中心”,变“面向培养结果”为“面向培养过程”。形成以研究生为中心的培养模式,突出研究生探索精神、科学思维、创新意识的培养。切实 行的措施 引导 究生遵守科学 道德,保持科学冲动,增强创新意识,提高科学能力。

考虑到“计算机视觉教研探究研究生指导”通常需要运用计算机技术解决工程问题,我将在以后教研中,增加计算机辅助教研的功能。如利用Matlab工具对所学内容及实际视觉问题进行可视化仿真演示。我也将用虚拟仪器工具搭建案例的虚拟系统,试图通过这样的虚拟系统,向学生提供有利于启发思维的灵活的认识与实践环境。增强学生的感性认识;同时,尽管我采用了多媒体教研。我计划在教案中增加更多的现场视频材料以及图形和图像资料,使学生更容易理解和记忆,增强抽象理论的可接受性。

参考文献:

[1]David A.Forsyth and Jean Ponce , Computer Vision-A modern Approach

[2]贾云得.机器视觉.电子工业出版社,1999

[3]Thomas F.Quatieri离散时间语音信号-原理与应用,电子工业出版社,2004

[4]Shapiro.L.G and stockmen,G.C,计算机视觉.北京-机槛工业部,2001

[5]Haralick,R.,1992/1993 Computer and Robot vision ,volume I and II

[6]张雄伟,陈亮等.现代语音处理技术及应用.机械工业出版社,2003

[7]Thomas F.Quatieri离散时间语音信号-原理与应用,电子工业出版社,2004

[8]郑燕林等“混合型-探究式”研究生指导模式的构建与实践,学位与研究生教育,2010

第7篇:计算机视觉的研究方向范文

关键词:嵌入式;GUI;QT;OpenCV

中图分类号:TP368.1

1 目前主流的嵌入式GUI

GUI技术是嵌入式的关键技术之一,其直接关系到产品的界面友好性程度,最终影响到产品的竞争力。

目前主流的嵌入式GUI主要有以下几种:

Microwindows的体系结构由上至下,分别为API层、图形引擎层、驱动层、硬件层,用户可以根据具体的应用需求来实现每一个层。

MiniGUI的实现主要依赖于标准C的库函数,它可以任意在支持标准C的环境上运行,MiniGUI很小巧但也很高效。MiniGUI主要应用在一些中低端设备中。

2 QT的搭建

由于QT具有跨平台的特性,所以一般开发可以在windows下开发,再移植到Linux中,本文重点介绍QT在Windows下的使用。

QT的开发环境包括以下几部分:QT的GUI库,QT creator,windows版本还包含编译器,可以是Microsoft visual stdio c++,还可以是MinGW,本文中使用的是MinGW。

搭建QT开发环境包括以下几部分:(1)下载安装MinGW编译器,该编译器支持Gcc和G++。(2)下载安装qt-creator-win-opensource。(3)为QT、MinGW、qmake添加环境变量。

3 OpenCV的安装配置

3.1 OpenCV简介。QT中本身也支持视频处理,但功能十分有限,如果需要更强大的视频处理功能,需要引入OpenCV(open source computer vision library),即开源计算机视觉库。

3.2 OpenCV的优点:(1)开源。OpenCV完全遵循BSD协议(五大开源许可协议之一),具有极高的开放性。(2)跨平台。OpenCV支持Windows、Linux,Mac,可以轻松实现平台之间的移植。(3)效率高,速度快。由于OpenCV采用C++实现,并且算法经过优化,效率有较大程度的提高,执行的速度也比较快。(4)涵盖面广、功能强大。OpenCV主要有13个模块构成,涵盖了计算机视觉的各个方面,在相关方面基本都应用。

3.3 OpenCV的安装配置:(1)前提是QT已经安装配置成功。(2)下载OpenCV。下载OpenCV后,解压即可,实际上并不需要安装,注意解压路径不能有空格,否则会出错。(3)下载安装CMake。OpenCV只是一个库,并不能直接拿来使用,需要借助CMake将其编译后才可以使用。(4)配置CMake参数,进行编译。使用CMake,主要是设定OpenCV的输入路径、输出路径、MinGW的位置等相关信息。运行CMake之后,需要在命令提示符下进入输出路径,然后执行mingw32-make命令,由MinGW对OpenCV进行编译,其间会耗费一定的时间。此步骤成功后,再执行mingw32-make install命令,会把编译好的所有文放到这个文件夹下,这个就是将来开发要用到的OpenCV全部文件。(5)将上一步骤得到的install目录bin文件夹,添加到系统的环境变量中,重新启动电脑。(6)在QT工程中,打开.pro工程属性文件,将OpenCV添加到INCLUDEPATH和LIBS中后,就可以在QT开发中使用OpenCV计算机视觉库了。

4 在QT中通过OpenCV实现视频处理

4.1 实现的基本原理。在视频处理中主要用到OpenCV的highgui模块,该模块,前面已说过,主要完成视频捕捉、编码,图片处理等相关功能。

highgui模块中已经封装了视频、图像、窗口的所有操作。

首先,利用OpenCV建立窗口,然后打开摄像头,获取摄像头中的帧,然后申请IplImage类型的指针,将帧放入指针指向的内存空间,此时的只是静止的图像而已,为了符合我们人眼的观看习惯,再通过循环,达到每秒钟显示30次左右的效果,与放电影的原理基本一样,最终显示到窗口,看到就是动态的视频效果,使用完之后释放内存,释放窗口即可。

5 总结

嵌入式技术在当前的大环境下得到了快速发展,随着硬件设备性能的不断提高,高性能的嵌入式程序会越来越广泛地被使用,而QT恰好与这个大环境相吻合,同时OpenCV的出现对QT也是一个促进,QT+OpenCV模式在未来嵌入式视频处理中会广泛地被使用。

参考文献:

[1]彭均键,史步海,刘洋.基于Qt的嵌入式GUI开发平台的搭建[J].微型电脑应用,2010,2.

[2]郭晖,陈光.基于OpenCV的视频图像处理应用研究[J].微型机与应用,2010,21.

[3]秦小文,温志芳,乔维维.基于OpenCV的图像处理[J].电子测试,2011-7.

[4]许生模,余敏.嵌入式QT的内核分析与优化[J].微计算机信息,2007-10.

[5]陈峰,郭爽,赵欣.基于QT和嵌入式的视频监控系统[J].通信技术,2011,10.

第8篇:计算机视觉的研究方向范文

关键词:OpenCV;图像处理;C++

中图分类号:TP391.41

1 图像的加载

图像的加载过程为:调用摄像头;逐帧加载图像;图像的显示。

调用摄像头的过程,我们用下面这段程序来实现:

摄像头启动后,自动采集图像,不同类型的图像内部结构不同,需要根据图像的结构采用不同的方法将图像文件中的数据读入内存。在窗口中显示出加载的图像,主要由函数cvNamedWindow()来实现,这个函数也是一个高层调用接口,由HighGUI库提供,它用于在屏幕上创建一个窗口,将被显示的图像包含于该窗口中。我们用下面这段程序来实现加载和显示图像的过程:

2 图像的预处理

2.1 光线补偿。在摄像头的捕捉过程中,可能会存在光线不平衡,这影响了对特征的提取。

考虑到背景模型对光线变化比较敏感。在有室外光照、光洁地板和金属设备的室内场景中,需要对摄像头捕捉的图像序列进行光线补偿。

2.2 平滑处理。图像在采集、传输、处理和保存的过程中,必然会受到随机扰动和各种限制的影响,由此将产生各种噪声和失真,因此需要对图像进行平滑处理。

OpenCV中提供了图像滤波函数:

2.3 灰度化。彩色图像由于其信息容量比灰度图像大,因此处理难度大、速度慢,而且在识别一般图像的过程中,灰度图像所含的信息量已经足够,因此先将彩色图像转换为灰度图像。灰度图像与黑白单色图像的区别是灰度图像加上了颜色深度的概念,单纯的看,灰度图也是黑白的,就像黑白电视显示的图像一样,但是点与点之间黑的程度是不一样的,这就是深度即灰度,一般灰度图像分为256 级。设彩色图像某像素点颜色值为,根据

光学原理分解为红色(r),绿色(g),蓝色(b)三个分量,则灰度值为:

将彩色图像中的所有的点经过上式转变后,该图像转变成灰度图像,各像素点的灰度值在(0-255)范围内,其中0为黑色,255 为白色。

这个转换过程可以用OpenCV中的函数来实现,这个函数的原型为:

2.4 二值化(阈值化)。图像阈值化分割是一种最常用,同时也是最简单的图像分割方法,它特别适用于目标和背景占据不同灰度级范围的图像。它不仅可以极大地压缩数据量, 而且也大大简化了分析和处理步骤。因此,在很多情况下,它是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。图像阈值化的目的是按照灰度级,对像素集合进行一个划分,得到的每个子集形成一个与现实景物相对应的区域,各个区域内部具有一致的属性,而相邻区域布局有这种一致属性。这样的划分可以通过从灰度级出发选取一个或多个阈值来实现。

最常见的阈值分割方法是固定阈值分割,OpenCV提供了这方面的函数,如下所示:

3 结束语

本文介绍了基于OpenCV的图像处理并给出了实例,利用OpenCV中的函数使图像处理问题变得很简单,具有很强的实用价值。而且OpenCV免费,源代码公开,其必将成为图像视频处理领域的强有力的工具。

参考文献:

[1]于仕琪,刘瑞祯.学习OpenCV(中文版)[M].北京:清华大学出版社,2009.

[2]朱虹.数字图像处理基础[M].北京:北京科学出版社,2005.

[3]刘洁,冯贵玉,张汗灵.一种图形处理和计算机视觉的开发工具[J].计算机仿真,2006(11):305-307.

[4]阮秋琦.数字图像处理学[M].北京:电子工业出版社,2007.

第9篇:计算机视觉的研究方向范文

关键词:三维点云;配准;迭代最近点

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)31-7568-03

在计算机应用领域,三维点云数据的配准对解决曲线曲面匹配、图像拼接、三维重建、计算机辅助文物复原等问题至关重要。以计算机辅助文物碎片拼接为例,在过去十年间有很多研究项目需要获取文物详细的三维表示,但是通过三维扫描设备获取的多个扫描需要采取一定的技术恢复每个扫描的相对视点,然后将多个扫描融合到一个最终的模型。这一过程就是三维点云数据的配准,它是获取文物准确的三维表示的关键步骤。1992年,Besl和Mckay提出了一种基于几何模型的三维物体配准算法——迭代最近点算法[1]。近年来,伴随着三维扫描技术的不断进步,该算法得到了广泛应用,也吸引了众多研究者的目光。许多研究者对该算法进行了系统的研究,分析了该算法的特点与不足,提出了各种改进算法。国外学者Michael Wild[2]回顾了2002年到2007年ICP算法的发展;介绍了ICP算法的流程并对几种改进算法做了详细的分析和比较;最后介绍了该算法在放射疗法中的应用。近几年,ICP算法的研究改进以及应用仍然是国内外众多学者热衷的一个研究方向,这从发表在IEEE上的论文数量即可看出。本文详细总结了ICP算法的基本原理,然后从数据采样、特征点选取与点对权重、非重叠区域检测、兼容性约束四个方面对几种改进算法进行了系统而详细的分析与研究。总结了这些算法的基本思想和特点,这些工作对后期的研究将会起到重要的作用。

1 ICP算法的基本原理