公务员期刊网 精选范文 如何学习计算机视觉范文

如何学习计算机视觉精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的如何学习计算机视觉主题范文,仅供参考,欢迎阅读并收藏。

如何学习计算机视觉

第1篇:如何学习计算机视觉范文

关键词:计算机视觉;研讨式教学;小组探讨;课前回顾

作者简介:陈芳林(1983-),男,湖南株洲人,国防科学技术大学机电工程与自动化学院,讲师;周宗潭(1969-),男,河南洛阳人,国防科学技术大学机电工程与自动化学院,教授。(湖南 长沙 410073)

中图分类号:G643.2 文献标识码:A 文章编号:1007-0079(2013)26-0065-02

进入21世纪,创新型人才的培养成为各国政府和高等教育界关注的一个焦点。世界各国研究型大学的共同特点是在研究生教育阶段致力于培养富有创新意识和创新能力的高级人才。[1]研讨式教学是培养研究生创新精神、科研能力的有效途径,教师讲解与学生探讨两部分相结合是研讨式教学采用的主要模式。[2]将课程分成两部分之后,教师讲解的时间就必须压缩,教师一方面需要思考如何在较短的时间内完成课程的讲解,同时还需要考虑课程讲解要与学生探讨部分紧密结合。因此,如何上好研讨式教学教师讲解这部分课,越来越受高等院校的重视。本文针对笔者教授工科研究生课程“计算机视觉”的实践与经验,阐述了笔者对于如何上好研讨式教学教师讲解这部分课的个人体会。总结为两点:第一,首先要充分做好课程准备;第二,上课环节采取回顾—案例—小结的讲解方式。下面从课程准备、课前回顾、课程讲解、课后小结四个方面分别阐述(如图1所示)。

一、“计算机视觉”课程准备

要上好一门研讨式教学的课程,一定要结合该门课程的特点,量身定制课程内容,进行精心准备。本节先介绍“计算机视觉”课程的特点,然后结合该门课程的特点,介绍笔者对于“计算机视觉”的课程准备。

1.“计算机视觉”课程特点

“计算机视觉”是“数字图像处理”和“模式识别”等课程的后续课程。该课程重点在于图像或者图像序列的分析理解。课程知识在机器人导航、侦查、测绘、测量、精密加工和目标跟踪等多个领域都有广泛的应用。[3]近年来基于视觉信息的控制反馈也开始受到广泛关注。国内高校一般都为研究生开设了此门课程。

计算机视觉技术应用广泛、算法原理涉及面广:涉及到概率与数理统计、信号与系统、图像等基础知识。“计算机视觉”是一门重要的控制类、电子类及计算机类专业研究生的选修课程,它内容广泛、综合性强,研讨能力的培养显得非常关键。

2.课程准备

首先,结合“计算机视觉”课程内容广泛、技术日益更新和丰富的特点,将课程36学时分为12次课,每次课为3小时,每堂课教师讲解一个专题。这种设计,一方面可以更广地涉及计算机视觉的各个领域;另一方面以专题的形式来讲解,可以将学生带入到该专题,介绍基本背景、理论、知识和方法,让学生有一个初步的了解,方便课后学生对感兴趣的专题进一步深入挖掘与研究。

其次,在课程开始之前,教师仔细统筹,安排好每次课的专题,这样既方便学生一开始对整个课程有一个整体的了解,也方便学生选择课堂研讨的题目与内容。根据12个专题,将各个专题讲解的内容与课件在开课之前准备好,这样有利于把握各个专题之间的前后承接关系。例如,“区域”与“分割”是既有区分又有联系的两个专题,在课程开始之前,将课件准备好,就有利于宏观把握,在“区域”专题提到的分割算法,就不需要在“分割”专题再次重复,而在“分割”专题可以结合前面“区域”专题进行互相补充,以帮助学生融会贯通。

最后,在每个专题上课之前,再对课件进行精雕细琢,主要是对内容分好层次,对方法进行分类,力图在较短的时间内,让学生对该专题有较全面的认识。例如,在讲解图像分割时,由于图像分割方法非常多,可以将分割方法分为若干个大类,每个大类只讲1~2个方法。这样既可以尽可能涉及更广的领域,又可以提高讲解的效率。

二、“计算机视觉”课前回顾

课前回顾是指每堂课的前面一小段时间用来回顾上一堂课的内容。虽然课前回顾时间非常短,一般为3~8分钟,但是课前回顾是课堂教学中的一个重要环节。课前回顾可以帮助学生加强将要学习的内容与已学过内容之间的联系。通过课前回顾,学生可以回忆前续课程所讲解的概念、理论、算法的步骤等内容,有助于解决新问题或者理解新知识。

课前回顾最重要的是既要复习前续课程的内容,又要注意将前续内容与当前内容联系起来。由于讲解时间有限,要使研讨式教学的教师讲解部分效率高,教师帮助学生回忆上堂课的概念、模型、算法等内容,就变得非常重要。如果不做课前回顾,那么当讲到某处新知识时,往往需要停下来,将前续课程再讲一遍,否则学生无法理解新的知识,这样就降低了教学的效率。

课前回顾的时间,一般以3~8分钟为宜。课前回顾的形式可以多样化,如讲解课后作业、回顾概念、提问等。笔者认为应根据当天课程与前续课程的关系,采取合适的方式。各种方式结合使用,提高课前回顾的效率。

三、“计算机视觉”课程讲解——案例教学

案例教学已经成功地应用于数学、计算机科学等领域的教学。通过案例,学生可以很快地掌握相应的概念、算法的步骤等,从而提高教师讲解部分的效率。[4]例如,在讲解马尔科夫随机场时,笔者通过案例式教学,将马尔科夫随机场用一个生活中的例子来向学生解释。首先,将马尔科夫随机场分解成两个重要的概念,分别是随机场与马尔科夫性,然后将它们对应到例子中,帮助学生理解。

随机场包含两个要素:位置(site)和相空间(phase space)。当给每一个“位置”中按照某种分布随机赋予“相空间”的一个值之后,其全体就叫做随机场(如图2(a))。[5]这个概念非常抽象,难以理解。笔者应用案例式教学,拿庄稼地来打比方。“位置”好比是一亩亩农田,“相空间”好比是种的各种庄稼。给不同的地种上不同的庄稼,就好比给随机场的每个“位置”,赋予“相空间”里不同的值。所以,可以形象地理解随机场就是在哪块地里种什么庄稼的布局(如图2(b))。

马尔科夫性指的是一个随机变量序列按时间先后顺序依次排开时,第N+1时刻的分布特性,与N时刻以前的随机变量的取值无关。为了更直观地理解马尔科夫性,笔者仍然拿庄稼地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其他地方的庄稼的种类无关,这种性质就是马尔科夫性。

符合上述两个特征,那么这些地里种的庄稼的集合,就是一个马尔科夫随机场。通过案例式教学,笔者发现可以加深加快学生对课程内容的理解,提高教师讲解环节的效率。

四、课后小结

课后小结指的是一堂课将要结束时,教师对本堂课进行一个简短的总结。许多成功的教师都会在其教学中坚持课后小结这个环节,给学生一个总体的印象,以帮助学生消化本次课程的内容。

研讨式教学教师讲解部分的课后小结与普通教学方式应有所区别。笔者认为这主要是因为通过课后小结可以将本次课程所讲内容与学生的研讨环节结合起来,而不仅仅是对内容进行简单的总结。

为了达到课后小结使本次课程内容与学生探讨环节建立联系的目的,笔者在教学中常采用如下方式:首先,像普通教学方式一样,总结本次课程内容;然后,在此基础上,抛出若干问题,这些问题,不需要学生马上解答,而是留给学生课后思考,提供他们选择研讨主题的素材;最后,介绍其他在本次课程中没有涉及到的前沿知识、方法与理论,拓宽学生的视野,从而增加学生选择探讨主题的覆盖面。

通过应用这种方式,笔者发现学生的思维更开阔,在探讨环节,学生往往可以选择一些比较新颖的主题(例如视频中不动点的检测等),而不仅仅局限于教师所讲内容,从而提高了研讨式教学的效果。

五、结论

在“计算机视觉”课程中引入研讨式教学,通过总体设计规划好整门课程内容,课堂讲解注意采用回顾—案例—小结的方式,笔者对如何上好研讨式教学教师讲解这部分课进行了个人经验的总结。通过本次教学改革,笔者体会到如果要提高教学效果,一定要注意教师讲解与学生探讨两个环节的紧密结合。

参考文献:

[1]侯婉莹.我国研究型大学本科生科研研究[D].济南:山东大学,

2009.

[2]张晴,李腾,韦艳,等.研讨式教学模式的理论研究[J].中国科技纵横,2011,(10).

[3]D.H .巴拉德.计算机视觉[M].北京:科学出版社,1987.

第2篇:如何学习计算机视觉范文

【关键词】计算机视觉;数字色彩;感性认知

一、色彩的视觉生理机制与计算机色彩设置的关系

眼睛是人类的视觉器官,视觉系统就像一架摄相机,具有较完善的光学系统及各种使眼球转动并调节光学装置的肌肉组织。光线透过眼的折光系统到达视网膜,并在视网膜中形成物像,同时兴奋视网膜的感光细胞,然后,信息沿视神经传导到大脑皮质的视觉中枢产生视觉。实现阅读的第一反应区域处于大脑后方的枕叶皮层(视觉皮层),人类的视觉系统自动对视觉输入构建结构,并在神经系统层面上感知形状、图形、物体。

视觉能够感受到物体细节,通常称为视觉视敏度,也就是对所观察的实物细节或图像细节的辨别能力,具体量化起来就是能分辨出平面上的两个点的能力。人眼的分辨能力是有限的,在一定距离、一定对比度和一定亮度的条件下,人眼只能区分出小到一定程度的点,如果点更小,就无法看清。以光学色彩为基础的计算机显示器,荧屏上的数字色彩是由许多红、绿、蓝紫三原光小色点构成,以不同比例的混合得出自然界的各种颜色。在各种颜色的反射光快速地先后刺激或同时刺激人眼过程中,显示器色光点过于细小,超出人眼能够分辨的视敏度,待传到人眼中识别时,视觉不能识别全部微妙变化的色彩波段,视觉对相似的色彩归纳在一起,光在人眼中留下的印象在视觉中混合,将信息传入大脑皮层,印象由人的视觉器官完成视觉混合。色彩混合后明度是被混合色的平均明度,混合效果近看色彩丰富,远看色调统一。

电脑显示器工作时的正常显示状态是根据人的视觉明视而设计的,开机工作状态下,感知显示图像的始终是视锥细胞。视觉明视中感受相当光照水平和颜色刺激的视锥细胞中含有感红色素、感绿色素和感蓝色素,三类视椎细胞分别对红绿蓝色(RGB)光敏感。这意味着,人类的色觉与计算机显示器类似,人们感知世界的视觉状态基本处于视觉明视,通过红绿蓝色像素探测形成多种颜色,使人在视觉明视中感知到真实的色彩。

二、计算机视觉色彩感知中的敏感源

在适当的条件下,视觉对光的强度具有敏感性。眼睛对暗适应越久,对光的反应越敏感。视觉对光强度(明度)感受存在一段适合阈值。强度阈值内可以读取色彩,而在强度的阈值以外,人眼只能看出光亮却看不出颜色,明度过高分辨不出颜色。计算机显示亮度的设置是参考视觉感受亮度的共性阈值而设计的,适合阈值范围内,视觉可以读取计算机显示器中色彩。

视觉对光波长的敏感性不同于对光强度的敏感性。视网膜的不同部位对色调的敏感性是不同的。视网膜中央凹能分辨各种颜色,从中央凹到边缘部分,对颜色的辨别能力逐渐减弱,先丧失红、绿色的感受性,最后黄、蓝色的感受性也丧失,成了全色盲。在整个光谱上,人眼能分辨出大约150种不同的颜色(光波),但人对光波(颜色)的辨别感受能力因不同波长而不一样。

在视觉感知计算机色彩过程中色彩认知心理的共性经验可以产生敏感源。色彩认知心理来源于生活共性经验的理性“归纳”。视觉生理机制的共同特征使色彩视觉感知存在基本相同的生理基础。色彩的直接心理效应来自色彩的物理光刺激对人的生理发生的直接影响,视觉生理及视觉心理等方面的共性特征使人们在色彩视觉意象存在相似的感受。视觉感知过程中,以往的认知结构对现有的认知过程的影响,生活经验影响人的认知心理变化过程,心理之间的相互联系、相互制约,使人类认知过程相近的模式。著名的认知心理学家布鲁纳认为,在人们认知的过程中,必须考虑到通过视觉感官对客观联系的色彩信息进行组织,结合视觉经验感知新的客观事物,用归纳方法能找出事物的共性,“感知”出相互联系的客观事物中相近的东西。

色彩心理共性源于“经验色”。人类可以通过本能的眼睛或是肢体触探物质本身的微妙变化感知生活,不断产生认知“经验”。在历史和风俗的影响下,色彩所蕴藏的深层意义来至生活经历的联想,视觉色彩通过联想链来理解传播信息。在生活实践中,不同的色彩刺激结合识别色彩的习惯与经验,形成明显的情绪感,产生不同的情绪反射,使人既能感觉积极兴奋,也能使人消沉或感伤,其影响最明显的是色相。纯度的关系也很大,高纯度色有兴奋感,低纯度色有沉静感。明度也可以表现情绪,暖色系中高明度、高纯度的色彩呈兴奋感,低明度、低纯度的色彩呈沉静感。利用色彩视觉心理经验有利于完成认知任务,对于实际生活具有很强的指导性,这些“经验”向我们明确地肯定了色彩对人心理的影响具有共性。

色彩心理共性源于人们学习和推理。在认知过程中人类情感普遍交流的同时产生相互认同,不断找到与周围的环境现象结合的个人经验。知识学习积累物质的色彩、材料、形状、物理的空间、运动与时间等认知共性,这些共通的经验,可以在大量事实研究中归纳出一些自然规律,诠释事物,形成可以指导和影响社会发展的观点。

三、计算机数字色彩设计

人们在各自分隔的世界里共同生活,色彩视觉感知受人的经历、记忆力、看法和视觉灵敏度等各种因素的影响,但相近的生活习性,相似的生活经验,使人们会采用相近的方式理解色彩。感性色彩的科学设计可以满足计算机视觉的准确性,提高网络平台交互速度,促进经济,满足视觉风尚,帮助高效实现计算机交互。人类共通的视觉经验,产生感知色彩的一般规律,可以归纳出以下计算机数字色彩设计法则。

(1)经验影响感知,应用色彩隐藏的寓意引导,尽可能与图像结合表达。例如,每人看云和水滴会联想熟知的图形,看火会联想到红橙色的激动与热辣。人们能快速识别图像,而且触发相关信息回忆。使用经验图标,一般人们不需要学习,就能识别所提示的意思。

(2)看到和选择比回忆和输入要容易。为用户提供色彩鲜明的选项,在颜色之外使用其它提示,让它们从中选择,而不是强迫用户回忆选项再告诉电脑。

(3)使用缩略图紧凑地描绘全尺寸的图像。缩略图能让人一次性看很多选项,熟悉的图形内容会引起注意,方便选择。使用独特的色彩,用饱和度、亮度及色相区分内容。

(4)避免使用色盲人无法区分的颜色(例如,色盲人可以识别白色和不同深浅的绿色地图)。

(5)将强烈的对抗色分开(强烈的对抗色使人产生难受的闪烁感)。

(6)利用色彩引导边界视力,提供低分辨的线索,引导眼球运动。对视觉选择性感知,边界视野中的暗色和静止物体经常不被注意到,边界视线中物体的运动通常会被察觉。例如,出错提示在点击电脑按键位置1-2厘米边界视力以外,出错提示将不被看到。

(7)物体之间的相对距离会影响人们感知它们是否及如何组织在一起。(互相靠近物体看起来为一组)。例如,计算机图形设计,拉近距离或分组框和分割线隔开,减少用户视觉凌乱。相似物体视觉归属于一组,色彩中的类似色可以归属成一组。

(8)视觉倾向于感知连续的形式而不是离散的碎片。例如,形间断,但色彩相同,视觉自动连续成完整图形。例如,计算机音量滑动条范围的色彩连续,滑动条手柄连续整体感知(灰色地、红色条)。

(9)人们倾向于分解复杂的场景来降低复杂度,视觉自动组织并解析数据,简化数据。例如,图计算机图形中应用此原理,平面色彩显示三维物体和复杂的二维图形解析为三维场景(假空间错视)。

第3篇:如何学习计算机视觉范文

近年来,计算机视觉在安防领域的应用正备受关注,身份识别是核心问题。人脸识别是一种基于脸部特征信息进行身份识别的技术,人脸检测是其中的基础和关键部分。介绍了四种不同的人脸检测技术,分析了相关的算法和理论,概述了各自的优缺点。最后,讨论了人脸检测技术今后的研究方向及发展趋势。

【关键词】计算机视觉 身份识别 人脸检测

1 人脸检测问题综述

在国土安全和社会安全问题日益突显的背景下,世界各国家都对安防领域进行不遗余力地投入。随着计算机视觉技术的不断发展,基于生物特征识别的身份识别技术受到人们的广泛关注,在未来一段时间内生物识别技术将成为信息产业的一次革命。其中人脸识别技术作为一种极具潜力的生物识别方式,以其识别速度快,主动性强,性价比高等显著的技术优势,在各个领域都体现出了巨大的商业价值和社会价值。

人脸检测是人脸识别的前提和关键,一般采用相机实时采集含有人脸的图像或视频流,并自动在图像中对人脸进行检测和跟踪。人脸的自动检测是一项颇有难度的工作,主要体现在:(1)不同族群年龄等问题导致人脸的差异性。(2)人脸上的胡须等附属物对检测造成的干扰。(3)人体姿态变化和遮挡物存在对检测的影响。(4)环境和硬件条件对图像采集效果的影响。针对这些问题,国内外著名高校和科研机构进行了很多相关的研究,致力于解决在复杂背景下如何准确高效地进行人脸检测的问题。

2 实现人脸检测的相关技术

根据近年来计算机视觉领域人脸检测问题的研究进展,本文在这里进行总结性综述,目前人脸检测的方法可以分为基于知识和统计两类,有以下四种常用的检测算法。

2.1 模板匹配

模板匹配可以分成固定模板和变形模板。固定模板指的是根据先验数据归纳出一个统一的模板,然后根据一个能量函数确定被检测区域中和模板相关程度较高的位置,即人脸位置。由于不同人物之间脸部的差异性很大,加上环境等因素的影响,此方法并不具有很强的实用性。变形模板原理上和固定模板的操作方式相同,不过变形模板自身的参数模型在一定范围内具有可变性,因此检测的动态范围更大,检测效果相对较好一些。

2.2 样本学习

由于人脸的复杂性,显式描述十分困难,因此基于统计模式的检测方法受到了人们的广泛关注。此方法将人脸看做一种模式,通过对大量样本图像的机器学习完成分类器的构造,利用分类器实现对人脸的检测判别,在这里问题被转化为模式识别中的二分类的形式。

首先,需要建立一个样本空间,其中包括“人脸”和“非人脸”的正负两种样本,对样本图片归一化处理后,顺序展开后进行主分量分解,在大量样本形成的高维矩阵中计算其特征值和特征向量,然后采用一定的学习机制在特征空间中建立分类,以此可得到用来检测样本图片是否为人脸的正负判别规则式,二者为互斥关系。此检测方法具有较高的准确度,但是需要大量的正负样本图片,MIT等一些高校和研究机构建立了开放的人脸库。

2.3 人工神经网络

人工神经网络(ANN )是将模式的统计特性包含在ANN的结构和参数中,对于人脸这类复杂的、难以显式描述的抽象型模式,这一检测方法具有其自身特别的优势。

神经网络方法本质上也是基于样本学习,首先使用经过预处理的“人脸”样本以及采用“自举”方法收集分类器错分的样本作为正负样本训练各个ANN,然后根据结果进一步对分类器进行修正,构造多层感知器(MLP)网络作为分类器对人脸进行检测。人工神经网络是并行分布式系统,采用了与传统人工智能和信息处理技术不同的原理,模拟大脑神经网络处理、记忆信息的方式进行目标检测。神经网络模型克服了传统的基于算数逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷,具有自适应、自组织和实时学习的特点,应用在人脸检测问题中性能表现突出。

2.4 基于隐马尔可夫模型

隐马尔可夫模型(HMM)是一种双重随机过程,一种是有限状态的马尔可夫链,另一种是序列的观察值。由于只能通过观察值得到马尔可夫链的状态,因此称之为隐马尔可夫模型。对于人脸而言,可以把它分为前额、眼睛、鼻子、嘴巴、下巴五个部分来检测。根据这五个区域位置顺序不变性,可以分别用相应的观察向量序列检测每一个部分,使用一个包含五个状态的一维连续HMM来表示人脸。接着对各块进行KL变换,提取每块一些最大的特征向量作为观察值对HMM进行训练。此后,还提出了一种嵌入式隐马尔可夫模型,该方法除了将人脸划分为五块外,还在每块中从左至右嵌入了一个HMM。接着进行二维DCT变换,把变换后得到的系数作为训练值。

3 结束语

人脸检测是个发展很快的研究方向,人脸检测技术的发展趋势是利用多特征,多种分类方式进行启发式知识与统计学习方法的结合,未来对人脸检测的研究将会更注重其实时的应用,这就对检测算法的效率提出了更高的要求。另外,可以消除光照对人脸成像影响的红外人脸识别技术,加入相互对比机制的包含正脸、侧脸三维信息的人脸三维模型重建检测技术也正在研究当中。随着技术的不断进步和市场逐渐的规范化,人脸检测识别技术会越来越多地应用于社会的各个领域,在促进社会发展的同时方便人们的生活。

参考文献

[1]许燕,王维兰.基于视觉运动人脸检测技术的研究[J].计算机仿真, 2014(1):434-437.

[2]孙宁,邹采荣,赵力.人脸检测综述[J].电路与系统学报,2006,11(6):101-108.

作者简介

姚坤(1990-),男,现为聊城大学物理科学与信息工程学院硕士研究生,主要研究方向为机器视觉。

第4篇:如何学习计算机视觉范文

(大连东软信息学院电子工程系,辽宁大连116023)

摘要:智能科学与技术概论课程是智能科学与技术专业重要的必修基础课,对整个专业课程体系有概括性的引导作用,对学生深入学习后续课程有很大帮助。文章从智能科学与技术概论课程的教学实际出发,提出该课程的整体课程规划,并根据学生的学习情况验证其适用性。

关键词 :智能科学;专业基础必修课;课程规划

基金项目:2012年辽宁省普通高等学校本科工程人才培养模式改革试点项目(G2201249)。

第一作者简介:林宝尉,男,讲师,研究方向为计算机视觉、模式识别,linbaowei@neusoft.edu.cn。

0 引言

智能科学与技术概论课程是智能科学与技术专业的必修基础课。学生通过学习基础课,能够了解整个专业的知识构成、体系结构以及发展方向,便于将来学习必修专业课,包括模式识别、人工智能、智能机器人等课程。在这个过程中,如何让学生顺利地过渡到更高层次的专业课学习中,如何提高其学习兴趣,如何帮助学生深入了解各门专业课之间的层次关系,都是该专业设置过程中需要考虑的问题。智能科学与技术概论的规划起到了承上启下的作用。虽然专业导引课也从全局对该专业的情况进行了介绍,但其内容以学生职业引导、兴趣培养为主,对专业课程的设置并无过多展开。因此,智能科学与技术概论课程的设置十分必要。

1 课程规划设置

1.1 能力指标

课程将学生的能力体系分为5个部分:技术知识与推理能力、开发式思维与创新、个人职业能力、态度与习惯、时间构思设计实现和社会贡献,与其对应的二级、三级及详细指标见表1。每个能力指标平均对应4个学时,共32个学时。

1.2 讲授方式

(1)精讲多练。通过讲解智能科学的相关内容并结合相关实验,让学生掌握智能科学的基础知识,提高其学习兴趣,为后续课程的学习打下良好基础。

(2)以项目为导向组织教学,通过案例教学,将构思、设计、实施和运行引入教学过程中。

(3)鼓励学生自主学习,加强基本职业能力的训练。教学过程中注意互动和引导,运用讲授教学、练习教学、实验教学、案例教学等多种教学方法完成教学任务。

(4)教学实施过程中,提供丰富的教学资源,如多媒体课件、案例、网络资源、优秀学生作品和外文技术资料等。

(5)对学生进行多方面考核与评价。结合课程实施过程,从知识掌握、能力水平、态度表现等方面,对学生进行全方位的考核。

1.3 讲授内容

该课程讲授内容分为3个单元,具体内容如下。

单元一:智能科学导论,主要涉及智能科学与技术的目标界定、学科分类、涉及范围、学科定位、人类认知以及学科简史等知识点。该单元将在2个学时中完成,并要求学生课外学习2个学时。

单元二:学科基础理论知识,主要涉及机器系统、视觉感知、高级语言编程等知识点。该单元主要介绍支撑学科的相关课程,并在实践课中使用高级语言编写简单系统。该单元共10个课时,其中包括4个实践课时。

单元三:专业课介绍,主要涉及数字图像处理介绍、模式识别介绍、计算机视觉介绍、智能机器人介绍等相关必修专业课的入门介绍,并在每次课程结束后配合实践编程、工具使用、机器人搭建等实践环节提高学生的学习兴趣,使其全面认识后续专业学习。该单元共20个学时,其中包括12个实践课时。

1.4 实验设置

实验课程共16个学时,包括4次实验,详细内容如下。

实验一:数字图像处理实验。使用课程中讲授的Matlab语言,实现数字图像的傅里叶变换、边缘检测功能。该实验共4个课时,配合单元一以及单元二的部分知识点,使学生基本掌握Matlab编程语言,并理解数字图像处理的基本知识。

实验二:模式识别机器学习实验。该实验利用高级程序语言,实现数据的SVM算法以及KMeans算法,让学生理解模式识别以及机器学习等知识。该实验共4个学时。

实验三:计算机视觉实验。使用图像拼接、3D场景重建等相关专业工具,实现二维图片的3D重现。该实验共4个学时。

实验四:机器人实验。学生在机器人实验室,实际动手组装博创模块化机器人,并编程实现机器人运动调试。该实验共4个学时,实验地点为模块化机器人实验室。

1.5 结课考试

在教学的各个环节,教师从出勤情况、日常表现、作业、实验、结课项目及结课报告的完成情况对学生进行全方位的考核,其中结课项目、调查报告及实验作业占最终成绩的90%。结课项目为小组项目,4个学生为一个小组完成系统的设计、编写、调试等步骤,并组织5名教师对每个小组进行答辩考核。

2 问题及改进

学校于2012年申请创办智能科学与技术专业。该专业培养学生掌握计算机基础、电子电路、控制方法、智能信息处理与识别等基本知识,使其具备信息处理、自动控制、人工智能系统开发等基本能力。智能科学与技术概论课程在大二下学期开设,共32学时,其中理论教学16学时,实践教学16学时。通过理论教学和实践教学,学生了解了智能科学的基础理论知识,掌握该专业核心专业课的关系,认识相关后续课程,并能够使用简单的算法和工具,为日后深入学习专业课打下良好基础。

2.1 教材选择

由于本专业办学时间较短,没有足够的针对智能科学与技术概论的教材可供选择。现阶段使用较多的教材为《智能科学与技术导论》以及《智能科学》。《智能科学与技术导论》是钟义信主编、北京邮电大学出版社出版的、适合智能专业大一新生使用的专业教材,对整个专业有详细的介绍,适合作为新生的专业导引课程,安排16个学时较为合适,并不适于我校智能科学与技术概论课程的要求。《智能科学》是史忠植主编、清华大学出版社出版的专业教材,该教材对整个智能专业的重要内容都有涉及,系统地介绍了智能科学的概念和方法,吸收了脑科学、认知科学、人工智能、数理逻辑、社会思维学、系统理论、科学方法论和哲学等方面的研究成果,适合高年级学生使用,安排64个学时较为合适,也不适于我校情况。

鉴于上述原因,我们设计该课程时,前半部分理论知识介绍使用了《智能科学与技术导论》,后半部分专业课程介绍使用自制课件。经过2轮的教学实践以后,我们将根据教材使用情况编写自用的讲义教材。

2.2 内容设计

该课程内容会介绍智能专业的重要专业课,但要在32学时内完成所有专业课程的介绍,并保证该课程内容不与专业导引课以及智能信息处理导引课冲突,难度很大,因此选择最合适的讲授内容,对于该课程的授课效果非常重要。

在授课过程中我们发现,学生对简单的数字图像处理、计算机视觉的流行应用以及动手要求强的机器人课程兴趣较大,但对数学推导要求较高的模式识别、机器学习等课程接受程度较低。该课程的教学目的是让学生了解相关课程的意义、历史、发展等知识,所以,建议加大实验动手课程的课时比例,让学生多使用相关知识、算法和应用,尽量避开复杂的数学推导。

2.3 资源配置

学校的智能科学与技术专业创建于电子工程系,依托电子系的软硬件实验室,培养学生的软硬件知识储备,提高学生的实际动手能力。其中,软件算法将配合嵌入式设备进行硬件集成,并指导学生设计具有智能算法应用的硬件设备。教学过程中将使用校实验室中的模式识别嵌入式开发板、博创模块化机器人平台以及Turtlebot智能机器人平台。该课程在实际讲授时,理论课以及算法相关实验在大班进行,硬件实践课程在小班进行,能取得较好的授课效果。

3 实施效果

在该课程设计内容的指导下,智能科学与技术概论已经完成了2轮的课程教学,并在课程结束后组织学生填写调查问卷。题目分两类,第一类包括课程目标是否清晰、该课程能否提起学生对该专业课的学习兴趣、该课程的实验设计能否有效提高学生的动手能力,以及该课程的内容相关设计是否优秀。统计结果如图1所示。除极个别学生外,大多数学生都选择了符合以及完全符合,说明该课程设计可以满足教学要求。第二类问题总结学生在课程中获取的知识能力,包括编程调试、理论知识应用、信息获取、技术文档写作、自主学习、分析问题、解决问题等,为多选题。从图2可以看出,学生对各项能力的认可率均超过50%,其中信息获取、分析问题等能力的认可率接近80%,说明该课程设计基本满足教学目标。

4 结语

智能科学与技术概论对智能专业学生的深入学习起到了重要的引导作用。我们根据自身的实际情况出发,设计出适合该专业学生的课程设计安排。经过两轮的实施效果证明,该课程的设计方式比较适合学生。随着课程的持续,我们将不断解决存在的问题,并编写适合我校学生使用的教材。

参考文献:

[1]钟义信,智能科学技术导论[M].北京:北京邮电大学出版社,2007.

[2] Edward FC,Johan M,Soren O.重新认识工程教育:国际CDIO培养模式与方法[M].顾佩华,沈民奋,陆小华,译.北京:高等教育出版社,2009.

第5篇:如何学习计算机视觉范文

微软的游戏操控设备 Kinect 有一句广告语:You are the controller(你就是遥控器)。通过 Kinect,普通人不需要使用任何手柄、摇杆、鼠标或者其他遥控器就能操控游戏,这让 Kinect 远远超越了普通家用游戏机的段位。事实是,人们也没有把它仅仅当成游戏机,无数黑客对其进行破解,开发出一系列创新发明,有模拟光剑道具,也有自动跟着垃圾跑的垃圾桶,甚至英国一所大学正在基于它研发一种技术帮助中风患者恢复健康。

新的人机交互方式让计算机能读懂人所传递的命令。现在,眼睛是人们开发的下一个目标。去年底丹麦公司 Senseye 了一个视频,视频里,一个人捧着平板电脑在玩“切水果”的游戏——不过,他没有动一根手指,而是完全用眼神控制。后来,这家由四个丹麦博士生创立的公司改名为“The Eye Tribe”,他们开发的眼控技术能通过智能手机或者平板电脑的前置摄像头获取图像,利用计算机视觉算法进行分析。软件能定位眼睛的位置,估计你正在看屏幕的什么地方,甚至精确到非常小的图标。这项眼控技术能够取代手指,控制平板电脑或手机。据国外媒体报道,他们已经开始与手机制造商和运营商进行合作,希望明年能将正式产品推向市场。

除了用眼神控制手机,用眼睛操控的概念笔记本、眼控相机等产品也已面世。以眼神的移动轨迹为基础进行的人机交互方式,是继 Kinect 之后人机交互界面的又一次革命。

眼睛上的实验

17 世纪初,人们就开始研究眼睛的运动。1879 年,法国人路易斯·艾米·贾维尔观察到,人们的眼睛在阅读文字时,并非像之前猜想的是平滑地一行行扫射,而是每隔几个字就会有短暂的视觉停留。

于是人们很好奇:阅读时,眼睛会停留在哪些字上?停留多长时间?

为了研究这个问题,埃德蒙·休伊做出世界上第一个眼睛追踪器:一个有洞的隐形眼镜,和一个会根据眼睛活动摆动指针的铝制指示器相连。但这个追踪器因为要和眼球接触,对眼睛的干扰比较大。另一个芝加哥的家伙托马斯·巴斯维尔转换了思路,做出了一个非接触式的追踪器,他利用光束照射眼睛,通过在电影胶片上记录眼睛反射的光记录眼睛的活动轨迹。他用这个装置研究人们阅读和观看图片的行为习惯。

到了 1980 年,眼睛追踪器被用来研究和人机交互有关的问题;比如,研究人员很好奇用户如何在电脑菜单中搜索命令。最近几年,人们越来越多运用眼部追踪器研究用户如何和不同的计算机界面互动,结果往往能改变界面的设计。其他的研究包括用户如何对待下拉菜单,他们通常将注意力集中在网站的什么位置,开发人员就会知道该在哪里设计广告位。

随着眼控技术的发展,和人类对视觉生理及心理的了解,基于人类视觉系统(Human Vision System, 简称“HVS”)的凝视绘制技术也逐渐成为图形学的研究热点。这种技术通过略去不为用户感知的画面区域的图像细节来提高图像的绘制和显示效率。

在研究中,人们普遍达成的共识是,“注意力”和眼睛看在哪并不统一,前者总是比眼睛要领先大约 100-250 微秒;也就是说,人的注意力转移到新的位置 100-250 微秒后,眼睛才会跟随其后。

在技术上,眼控技术已经相当成熟,在工业控制、机器人学和临床医学领域都有应用,只是还没有应用到消费领域。它是基于角膜反射原理,通过光在用户眼睛角膜上形成高亮度反射点作为参考点,当眼球转动注视屏幕上不同位置时,由于眼球近似为球体,光斑不动,瞳孔相对光斑发生偏移,利用瞳孔中心和光斑的位置关系就能确定视线方向。目前运用最广泛的设计是以视频为基础的眼睛追踪器。一个设想镜头聚焦在一只或一双眼睛上,在观众受到某种刺激时记录它们的变动。眼控技术的核心是算法,如何让系统迅速准确地“学习”人眼睛的各种行为,这是个挑战。

EyePhone 应该翻译成“眼机”或者“目机”?似乎都不太好听。在大触屏手机广泛流行之前,有人就开始研究如何用眼睛控制手机了。

美国达特茅斯学院(Dartmouth College)就有一支眼控手机的研发团队,他们试图创造一套眼睛追踪系统,开发以眼睛来控制手机的操作方法。

让眼睛追踪系统运用到操作系统里,重要的是设计一套能够实现的软件。首先,你需要校准这个系统,在室内室外不同光线下盯着同一张图片看,让软件学习、识别你的眼睛在不同光照条件下的运动。他们在诺基亚 N810 上做了试验,设计出一个初始“眼菜单”,屏幕被分为9格,分别对应邮件、接电话、拍照片、日历、短信等不同功能。当一个人盯着某一块区域看时,某一个功能区域就被激活高亮显示,一眨眼,这个功能就被激活。

根据《麻省理工科技评论》杂志 2010 年的报道,眼控式手机的技术研发已经数年。进行这项技术开发的主要目的,是希望能让手部残疾的人克服无法使用电话的障碍。

在这项研究中,整个系统技术含量最高的部分就是自动校正系统,它需要算法优化,提高光学采集精度,实现视线跟踪,适应外部环境光强度变化,判别眼睛睁、闭状态等。带领“EyePhone”研发团队的安德鲁·坎贝尔(Andrew Campbel)教授认为,眼控式手机解放了双手,不仅仅是残疾人,每个人都能享受到它带来的极大便利。但靠眼神操作手机,比在桌上的电脑执行眼控指令更困难,因为使用者和手机都是行动中的物体,而周围环境也是变幻莫测,如何演算和辨识使用者在不同的状态下所传达的眼神收发讯号,是最难解决的问题。

在 2011 年的 Cebit 展上,联想和瑞典眼控技术公司 Tobbi 联合了一款概念笔记本,特制的长方形感应器能够追逐眼球的移动轨迹,记录数据,电脑处理器把这些数据转化为鼠标控制,整个系统并不会让眼控的过程感觉十分刻意,也不会像传统的眼控系统一样过于敏感或是过于驽钝。

Tobii 公司成立于 2001 年,是一家专门研发眼动追踪和眼动控制技术的公司。除了桌面眼动电脑,他们也在研发一款具备眼控界面的 windows 平板电脑 C12,用户可以转动眼珠来移动 C12 上的鼠标指针,而眨眼则代表点击。机器里设置了一个校准界面,允许多个用户定义眼控指令。

第6篇:如何学习计算机视觉范文

1研究方向

到2007年底,每秒钟能进行1000万亿次浮点运算的超级计算机将要问世,这是计算机科学家的最新杰作!但是,即便是如此强大的超级计算机,目前还无法实现人脑能够轻而易举完成的许多感知信息处理任务。例如,在混杂的车站里辨认熟人面孔、在热闹的晚宴里同朋友自由交谈、在国际会议上娴熟地用外语与各国同行讨论研究成果,等。因此,为了建立计算机与人更加友好、自然的用户界面,我们必须创建新的智能计算理论与方法。我们认为将计算机科学与脑科学相结合,研究仿脑计算理论与模型将是通向这一终极目标的一条理想之路。“上海交通大学-微软智能计算及智能系统实验室”的主要研究目标就是为了突破传统数字计算机在智能信息处理的瓶颈,联合实验室汇集了上海交通大学计算机科学与工程系、自动化系和电子工程系的相关领域的10余名教授、副教授,拟在下列方向开展合作研究:

仿脑计算理论与模型

超并列机器学习理论与算法

基于人类视觉信息处理的计算机视觉理论与方法

脑-计算机接口技术

机器人技术

多媒体信息获取技术

无缝媒体通讯技术

这里需要强调的是,微软亚洲研究院汤晓鸥博士为联合实验室研究方向的确定和研究课题的筛选作出了重要贡献。汤晓鸥博士在联合实验室成立之初,就来上海交通大学为我们作了一场精彩的学术报告,不仅介绍了微软亚洲研究院在计算机视觉领域最新的研究成果,而且为我们的学生详细介绍了如何脚踏实地、一步一步地开展高水平的科学研究,使同学们受益匪浅。自联合实验室成立以来,微软亚洲研究院的多名国际知名专家来上海交通大学讲学,他们是“深蓝项目”之父许峰雄博士、系统结构专家张峥博士和自然语言处理专家周明博士。

2006年度微软亚洲研究院资助了联合实验室在机器学习、机器人和多媒体通信三个方向的研究课题,具体内容如表1所示。

2研究成果

联合实验室成立一年多来,取得了多项创新性的研究成果,已在国内外学术刊物和会议上30余篇。由于篇幅限制,下面仅对部分成果作简要介绍。

(1) 超并列机器学习理论与算法

上海交通大学计算机科学与工程系吕宝粮教授在仿脑计算、机器学习和脑-计算机接口等方向与微软亚洲研究院系统结构组、文本组和图像组有着密切的合作与交流,他们共同致力于研究大规模分布式超并列机器学习理论与算法,并将其研究成果应用于人脸识别、自然语言处理、生物信息学和脑-计算机接口等领域。在此期间共同进行博士和硕士研究生以及本科生的培养,联合发表学术论文。与微软研究院的文本组、图像组和机器学习组定期交流和选派学生实习。通过双方真诚的合作,智能信息处理方向已有2名博士生和5名硕士顺利通过答辩。目前上海交通大学有1名博士后、3名博士生、5名硕士生和4名ACM班的本科三年级学生投入到合作研究课题中,来自微软亚洲研究院的1名优秀青年员工在机器学习方向作为博士生进行联合培养。

(2) 无缝媒体通讯技术

上海交通大学电子工程系熊红凯副教授在无缝媒体通信方向,与微软亚洲研究院网络多媒体IM组已经进行了多年的合作研究,他们共同致力于无缝媒体通信的良好远景,主要研究视频信号多元化智能处理与传输,工作包括可伸缩视频编码、分布式视频编码、网络编码,等。微软研究院IM组吴枫等研究人员与他们在此期间共同进行博士和硕士研究生的培养,支持他们参与国际技术标准MPEG-21和JVT的制订,联合提交技术提案和发表学术论文。

通过合作研究,媒体通信方向已有2名博士生、3名硕士生顺利毕业;目前上海交通大学在此方向有2名博士生、4名硕士生投入到合作课题中;微软亚洲研究院有2名优秀员工在媒体通信方向作为博士生进行联合培养,实现一体化技术合作。合作研究的积累,使得该团队获得了2005年和2006年度国家自然科学基金面上和重点项目的相关课题资助。另外,2007年获得了国家“十一五”863计划专题。

(3) 移动机器人的视觉定位技术

服务机器人是一个新兴的快速发展的研究领域。服务机器人的首要问题是其必须在执行任务中应付复杂的环境。复杂环境中的目标定位技术成为其中一项挑战性课题。

项目组提出了一种新的单目摄像头实时定位算法,可以实时计算摄像头的三维运动轨迹。该算法基于视觉路标,集成了目标识别、特征跟踪和3D定位算法。其核心思想是:识别场景中的视觉路标,并主动跟踪匹配特征点,计算摄像机的3D运动轨迹。为了提高算法实时性,相对耗时的目标识别模块只在初始化时寻找和识别路标,接着跟踪算子跟踪匹配特征点,转入实时跟踪过程,同时输出3D轨迹。

实验表明,结合目标识别、跟踪和3D定位,本文算法可以主动发现和实时跟踪感兴趣目标,对于普通PC和USB摄像头,能以30帧/s跟踪运动目标。3D定位也有较好的精度,准确跟踪时,定位误差一般在5cm之内。此外由于每帧都单独计算位姿,因此不存在累积误差,目标丢失后也能快速被识别和跟踪。

3人才培养

联合实验室成立伊始,双方就将人才培养作为合作的重中之重,经过双方的共同努力和友好合作,在一年多的时间里,已经实施了下列三个具有特色人才培养项目。

(1) 博士生联合培养项目

上海交通大学与微软亚洲研究院的博士生联合培养项目是实验室在人才培养方面的合作亮点。该项目主要包含两方面的内容,一方面上海交通大学聘用微软亚洲研究院的资深研究员为上海交通大学博士生导师并与上海交通大学的教授一起联合指导博士研究生;另一方面微软亚洲研究院选派具有硕士学位的优秀员工到上海交通大学攻读博士学位。目前有六位微软研究员被聘为上海交通大学客座教授,其中沈向洋博士、洪小文博士、张峥博士、宋歌平博士和汤晓鸥博士为博士生导师。2006年4月微软亚洲研究院选送了六位优秀青年员工来上海交通大学攻读博士学位,这些博士生首先在上海交通大学完成学位课程的学习,之后他们将在上海交通大学导师的指导下在微软亚洲研究院进行博士学位论文的研究工作。这六名博士生的导师分别是上海交通大学计算机科学与工程系的张申生教授、俞勇教授和吕宝粮教授;电子工程系的张文军教授和孙军教授。博士生联合培养项目的实施,既是微软亚洲研究院对优秀青年员工继续发展的支持和鼓励,同时通过双方深入的交流,将微软亚洲研究院的研究理念和企业需求带到上海交通大学,为双方的共同发展作出了贡献。

(2) 卡内基・梅隆大学联合人才培养项目

微软亚洲研究院联手上海交通大学和美国卡内基・梅隆大学联合培养高素质人才。根据“卡内基・梅隆大学-上海交通大学-微软亚洲研究院”三方达成的协议,上海交通大学、卡内基・梅隆大学每年将互换5名优秀本科学生进行为期一学期的学习,在两校学习之后,这些学生将到微软亚洲研究院进行为期三个月的实习,其间他们将参与实际项目的研发工作。这一“产学研”跨国合作的模式,将为中国培养高素质的“IT国际人”提供一种有效的便捷渠道。到目前为止,上海交通大学电子信息与电气工程学院经过严格挑选,已选派了十多位优秀的本科生去卡内基・梅隆大学电子与计算机工程系学习,这些学生分别来自计算机科学与工程系、自动化系和电子工程系。卡内基・梅隆大学也已选派了多名交换生来上海交通大学和微软亚洲研究院学习和实习。经过三方的联合培养,不仅拓宽了学生的视野,而且进一步提升了学生的综合素质。在参加该项目的学生中,有的同学已在本领域高水平的国际杂志和会议上发表了多篇学术论文。此外随着三方合作的进一步深入和上海交通大学国际化办学的进一步深化,将会使上海交通大学更多的本科生同学有机会亲密接触世界知名学府和研究院。

第7篇:如何学习计算机视觉范文

随着移动终端的兴起,数据的产生已经成了一种非常廉价并且随时随地都可完成的技术。而移动互联网的发展又促进了数据的产生、流动和集中。现实生活中我们可以非常轻松地刷新微博感受周围世界的变化,也可以通过手机的拍照功能在网上分享我们生活中的精彩时刻。我们发现,与我们现实世界相对应的数字化世界正在急剧地膨胀,新的信息随时随地都在产生,在这种背景下很多科学家们认为我们正在迎来一个新的时代,“大数据”时代。在“大数据”时代,如何为每个人快速找到他们需要的信息是计算机科学家们所面临的严峻挑战。他们必须利用机器学习技术,让计算机程序自动为人们搜寻具备潜在价值的信息。然而在过去几十年里,庞大的数据量成了机器学习技术面临的又一重大问题。目前这一领域面临着一个巨大的挑战,那就是机器学习的可扩展性问题,即如何面对海量的数据提出高效的学习算法。本书是关于这一主题的第一本专著。

本书围绕并行计算和分布式计算介绍了机器学习算法的扩展问题。全书共21章。在第1章引言介绍之后,又分4个部分,其中第1部分讨论了扩展机器学习的相关架构,含第2-5章:2.MapReduce及其在组合决策树学习中大规模并行的应用;3.介绍了利用DryadLINQ进行大规模机器学习;4.介绍了IBM并行学习工具库;5.介绍了机器学习算法中的均匀细粒度数据并行计算。第2部分介绍了监督和非监督学习,含第6-13章:6.基于不完全Cholesky分解的并行支持向量机PSVM;7.利用硬件加速的大规模并行支持向量机;8.利用自举决策树进行大规模排序学习;9.变换回归算法;10.因子图中的并行信任扩散方法;11.在潜在变量模型中的并行吉布斯采样;12.使用MapReduce和MPI进行大规模谱聚类;13.基于信息论的并行聚类方法。第3部分其他的学习模式,含第14-17章:14.并行在线学习;15.介绍了基于图的并行半监督学习;16.介绍了基于关联矩阵分解的分布式转移学习;17.大规模并行特征选择。第4部分相关应用,含第18-21章:18.利用GPU在计算机视觉中进行大规模学习;19.基于大规模FPGA的卷积网络学习;20.在多核系统上对树结构数据进行挖掘;21.自动语音识别的可扩展并行化方法。

本书是可扩展机器学习领域难得的专著,本书第一编著者Ron Bekkerman目前是LinkedIn的高级研究人员,第二编著者Mikhail Bileno目前是微软机器学习研究组的成员,而第三编著者John Lanford则是雅虎公司的科学家。另外值得注意的是本书每一章的作者既有来自斯坦福、耶鲁、卡内基梅隆等著名高校的教授,也有来自雅虎、谷歌、 IBM 、惠普、微软等工业界研究院的资深研究人员。对于目前国内如火如荼的“大数据”研究来说,相信本书会为广大研究生和科研人员提供不可替代的第一线经验。

第8篇:如何学习计算机视觉范文

【关键词】视觉测量 数字图像处理 开放性实验

【中图分类号】G642 【文献标识码】A 【文章编号】1006-9682(2012)10-0001-03

一、引 言

数字图像处理作为一门学科大约形成于20世纪60年代初期,并首次在航空航天领域取得了成功应用。数字图像处理技术的发展除了与计算机技术、信息技术的快速发展密切相关以外,还得益于其在航空航天、工业、生物医学、军事、通信工程、商务、环境、林业等诸多领域的广泛应用,正是这些应用需求,促进了数字图像处理技术的深入研究和快速发展。“数字图像处理”课程是随着计算机和信息技术发展应运而生的一门新兴课程,已成为信息类专业本科生的重要专业课。通过该课程的学习,要求学生掌握数字图像处理的基本概念和原理,能够对图像进行各种处理,如图像增强、图像运算、图像编码、边缘检测等,为图像通信、模式识别、计算机视觉以及其他交叉学科等工程领域的应用奠定基础。

“数字图像处理”课程的理论教学很抽象,仅仅通过理论教学学生很难掌握数字图像处理的基本原理。如果把数字图像处理的广泛应用引入课堂理论教学,将具体知识点与其在实践中的使用相结合,同时为学生提供边学边实践的机会,不仅可以提高学生的学习兴趣,加深对抽象理论知识的理解,增强其动手实践的能力,还可以拓展学生的视野,与目前学科前沿技术相衔接。

二、视觉测量技术

在现代三维测量新技术中,视觉测量是由计算机视觉、图像处理、模式识别等多学科交叉结合而形成的科学。图1所示,视觉测量是一种非接触性测量手段,以数字图像作为信息载体,对被测目标进行成像,通过提取多个像面的二维像点信息,标定相机内、外参数,并重建、优化被测目标的三维信息,实现测量。视觉测量基于严谨的理论和现代的硬软件设施,可以达到相当高的精度和可靠性,便于对大型工件、设备的尺寸、位置、三维轮廓等进行高精度测量,而且移动方便,可快速灵活地构建适于不同测量对象的系统,进行现场测量。目前,视觉测量技术已经广泛应用于建筑工程、航空航天、汽车制造、生物医学、考古等各个领域。[1~5]因此,视觉测量技术正在深入工业生产和社会生活的各个领域,研究和应用新的基于光学、数字图像和视觉信息融合的三维测量方法,既具有重要的理论意义,又具有重大的实用价值,应用前景非常广阔。

根据视觉测量的基本原理,利用数字图像处理技术获取的二维信息是视觉测量中相机标定、三维重建等环节的基础,对于系统的测量精度、稳定性等方面具有决定性的影响,是视觉测量领域的关键技术。在长期的数字图像处理课程教学以及视觉测量研究工作中发现,可以将视觉测量中关于数字图像处理的应用内容引入课堂教学中,与具体理论知识相结合,加深学生对于课程理论的理解,使其接触到科学研究的前沿内容。此外,通过设置开放性实验等环节,引导有兴趣和能力的学生进行实践能力的培养,使学到的知识“活”起来。

三、视觉测量与数字图像处理课程的融合

为了改善数字图像处理课程的教学效果,提高教学效率,将视觉测量技术与数字图像处理课程相融合,本文主要在教学方法和教学手段改革、视觉测量需求与理论知识点结合、实践动手能力提高等方面进行了研究。

1.教学方法和教学手段改革

为了贯彻学生是教育主体的教育思路,使学生学会学习,并充分激发学生的创新能力和素质培养,促进学生个性的发展,同时有利于师生彼此促进共同进步的原则,针对数字图像处理课程的特点,采取了以下措施:

(1)重视数字图像处理课程的基础理论教学。数字图像处理内容丰富,应用灵活广泛,但学生在掌握某些具体应用技术时感到理解困难。因此,在实际教学上,首先需要注重相关的基础理论教学。[6]例如,数字图像的本质是数字信号,所以在课程前期阶段,专门有针对性地复习和讲解了信号分析与处理方面的基本理论,包括数字信号处理的常用方法、离散傅里叶变换和快速傅里叶变换、离散余弦变换等,这些理论在数字图像处理课程中有具体应用。这不仅有利于对数字图像处理内容的掌握,也可以反过来加深对相关理论的理解。另一方面注意授课内容的精选,内容不在于多,而在于少而精,突出重点,使学生在有限学时内有最大的收获。例如,在频域空间进行图像增强时,不能将频域空间的所有方法都对学生讲授,而是突出讲解了关于频域空间与时域空间处理之间的关系,针对频域图像平滑介绍一种低频滤波器,分析其原理和特点。这样不仅节省了教学时间,而且重点突出,同时也引导学生查阅其他相关方法,让他们自己去动脑思考,提高其思维能力。

(2)完善和改革课堂教学方法。在课堂教学过程中,我们始终重视启发式教学,遵循“提出问题”、“启发式思考”、“解决问题”的教学过程,使用“问题教学法”引导学生去思考、分析问题,激发学生学习的积极性,提高教学效果。课堂开始时,根据授课内容,提前向学生抛出相关问题,在讲课过程中则围绕该问题讲解课程内容,最后提出问题的解决方法。例如,在讲解“直方图均衡化图像增强技术”一节内容时,首先向学生展示了两幅曝光不足和曝光过量的图片,并且为了提高学生的学习兴趣,认识数字图像处理的实际应用,图片取自于视觉测量、航空交会对接定位等领域的实际图片,向学生提问,“如果实际应用中,由于环境光的影响,拍摄到了这样的图片,应该怎么办?”课堂讲解过程中,随着直方图、直方图增强技术的理论、直方图均衡化方法等内容的展开,使学生逐渐理解并掌握直方图均衡化方法,最后,给学生演示了直方图均衡化方法的实现,并看到了利用该方法对图片增强前后的图片效果。这种启发引导式的课堂教学方法,取得了良好的效果。

(3)传统和现代化教学手段相结合。随着计算机、通信技术应用的迅速普及,国内高校的课堂教学已普遍采用了多媒体技术,利用计算机、投影仪、幻灯机等现代化教学设备,结合计算机辅助教学(CAI)展示教学内容。这些现代化技术的确为课堂带来了很多丰富多彩的教学手段。数字图像处理是以图像为处理对象,其输出的形式主要以图像和图形为主,该课程也十分适宜将教学内容制成课件,采用多媒体计算机开展现代化教学。借助多媒体,使学生较直观地看到各种图像的处理需求、处理过程、处理效果等,这是普通教材和参考资料所无法比拟的。因此,我们针对课堂教学需求,进行了多媒体课程教学资源建设,如教学大纲、教学日历、授课教案和课件等通过多媒体平成,便于讲课,同时也便于学生课后的复习。例如,将视觉测量原理、过程等,通过多媒体课件的形式演示出来,相比较口头介绍等方法具有更加直观的效果。除了多媒体教学手段,传统的板书式教学作为补充手段也在数字图像处理课程中得到应用,主要用在课堂教学内容框架展示、理论推导等方面。

2.视觉测量与理论知识点结合

为了提高算法对于目标特征的识别效果,视觉测量通常采用圆形或方形特征点(图2),在获取的图像中对特征的成像位置进行识别和精确定位。视觉测量对于图像处理的要求主要包括图像预处理、特征粗定位、特征精定位等内容,对应数字图像处理课程中的图像增强、边缘检测、特征识别、几何运算等知识点。[7]

图2 视觉测量常用特征点

(1)图像预处理。图像预处理的主要方法包括彩色图像灰度化、图像增强等,为此,在讲解彩色图像内容时,介绍了RGB、HSI等彩色模型以及不同彩色模型之间的转换,并引出如何将彩色信息转换成灰度信息。通过分析彩色表示模型,建立了彩色到灰度图像的转换。

向学生展示常用视觉测量图像效果的基础上,为了减少图像噪声的影响、提高图像识别效果,提出改善图像质量的目标,需要进行图像增强。结合图像增强中常用的直方图增强技术、空域和频域图像增强方法在视觉测量图像处理中的实际应用,给学生展示直观的处理效果,加深对图像增强方法的理解。

(2)特征点粗定位。数字图像处理的边缘检测是该课程比较重要的一部分内容,边缘检测中包含了多种方法,便于学生对不同边缘检测算法的作用效果有直观印象,将各种算法应用于视觉测量图像征点的边缘检测,并有针对性地选择相应参数,使学生不仅学习了各种边缘检测算法的使用,也看到了算法的特点。

根据视觉成像的特点,圆形特征点成像后一般为椭圆,所以,利用边缘检测得到的边缘像点数据,讲解用边缘点进行指定特征识别的方法,如基于Hough变换的特征检测方法。为了引导学生思考,采用启发式讲课方法,讲解了Hough变换检测直线的方法,引出如何用Hough变换检测像面上的圆或椭圆,并鼓励有能力的学生实现相应算法。

(3)特征点精定位。特征点精定位的目的是在实现特征点粗定位的基础上,对圆形特征点中心在像面上的精确坐标进行定位。精确定位主要设计到数字图像处理中的点运算,但需要考虑采用的具体定位算法,如灰度重心法、加权灰度重心法、椭圆拟合法等。引导学生通过文献资料查找和实现相关定位算法,并且与国际领先的专业软件进行定位精度对比。通过比较,可以使学生发现不同算法之间的区别,并分析不同的原因。进一步,引导学生尝试对定位算法做一定的改进,这种改进,不需要从算法根本上做出很大的创新,只是从某一方面进行微小的变化,使其能够适合特定的应用需求。例如,如果对视觉测量像面上特征点定位采用加权灰度重心法时,通过调整加权系数,得到不用的效果,从而分析加权系数对于定位精度的影响,并据此得出适用于该需求的结论。

四、开放性实验

长期以来,“数字图像处理”课程教学主要采用课堂理论教学,教学内容也多为经典的内容,很难反映课程内容的时代特征。实验教学是高等教育的重要组成部分,是抽象思维与形象思维、传授知识与训练技能相结合的过程,在人才培养中具有课堂理论教学环节不可替代的作用,对培养理工科大学生的创造性是不可缺少的。虽然目前大多数课程都设置了实践环节,但也普遍存在着很多问题,[8]例如,实验课成绩占课程成绩比例小,学生对实验的重视度不够,存在着抄袭他人实验结果和报告的现象;实验模式单一,实验内容陈旧、呆板,多为验证性实验,缺乏创新性和挑战性,学生完全处于被动状态,最终导致实验不认真,敷衍了事,所学的知识和操作技术遗忘快;不能保证每个学生都有充分的时间和机会做实验,个别学生逐渐养成依赖心理,最终只有一部分学生得到了锻炼;理论课与实验课教学老师分离,造成理论和实践环节脱节等。

针对目前“数字图像处理”课程实验的现状,根据视觉测量像面特征点定位需求,开设相关开放性实验项目“视觉测量特征点提取定位实验”,实验要求学生结合数字图像处理课程知识理论,对视觉测量采集的数字图像进行处理,提取相关特征点。针对视觉测量中常用的特征点(圆形、方形)进行自动检测,并实现高精度定位,主要实验内容包括:图像预处理、特征点粗定位、特征点精定位、算法设计与实现、实验结果分析等。

教师在开放性实验项目中承担的角色主要是方案设计和实施过程中的指导、监督,对方案的具体实现方法不做限制性要求,主要由学生结合课堂教学内容以及查阅文献资料来设计并完成。为了提高项目完成的效率,教师可以通过适当的引导为学生指出主要方向。

对于单个学生来说,这样的实验项目有些困难,“团队合作”也是新时期对科技人才素质的要求,所以可以通过建立项目小组的方式开展实验。小组成员将实验内容进行分工,每人负责不同的部分,通过相互合作、帮助,完成整个实验项目。通过这种形式,也在某种程度上锻炼了学生的团队合作意识和合作方法。

五、结束语

通过将视觉测量领域研究成果引入“数字图像处理”课程,并在教学方法、教学手段、教学内容、开放性实践等方面的改革和尝试,逐步做到科学研究成果与课堂理论教学的有机结合,不仅丰富了课程的教学内容,提高了学生的学习兴趣,加深了对理论知识的理解,而且使学生接触到科学研究的前沿领域,开拓了视野,对创新能力的培养锻炼等方面也具有重要意义。

参考文献

1 E.M. Mikhail, J.S. Bethel. Introduction to Modern Photogramme

-try[M]. New York: John Wiley & Sons,2001

2 胡安文、季铮、盛庆红.基于近景数字视觉测量的飞机表面模型重建[J].地理空间信息,2004(6):23~25

3 Nicola D’Apuzzo. Overview of 3D surface digitization technologi-es in Europe[C]. Three-Dimensional Image Capture and Applications VI, Proc. of SPIE-IS&T Electronic Imaging, San Jose (CA),2006

4 刘常杰、邾继贵、叶声华.汽车白车身机器视觉检测系统[J].汽车工程,2000(6):373~376

5 彭三城、孙星明、刘国华.三维人体自动测量技术综述[J].计算机应用研究,2005(4):1~5

6 Wang Jun, Dong Mingli, Liang Bo. A fast target location method for the photogrammetry system[C].Proc. of SPIE-ISMCM, Beijing,2011

第9篇:如何学习计算机视觉范文

CBIR图像特征相似性度量相关反馈

1基于内容的图像检索的算法设计

1.1图像的预处理

图像预处理的目的是为了便于图像特征的提取及相似性度量的计算以便提高图像的检索效率。预处理是对原始图像集进行一系列处理以产生图像描述特征库的过程,主要包括:尺度统一、格式转换、灰度处理等。

1.2图像特征的提取

特征提取是库生成的核心,负责提取图像的视觉特征包括颜色、形状、纹理、空间位置关系等特征,图像特征的提取应准确而且快速,提取的特征能有效的表征该图像或者说有区分图像的能力。

1.2.1颜色特征提取

颜色特征是图像的基本特征之一,颜色特征也是图像检索中应用最广泛的视觉特征,颜色特征的提取也相对容易,通过计算每中颜色的像素的个数并建立颜色直方图来实现。颜色直方图反映图像颜色分布的统计特征,是研究图像颜色的常用手段。直方图是显示图像中每一灰度级像素个数的函数。

1.2.2纹理特征提取

根据二维傅立叶变换的分离特性:,根据上面的分离形式,可通过两次运用一维傅立叶变换来实现二维傅立叶变换。

频谱:

频谱是图像的重要特征,反映图像的灰度分布,如果图像中目标形状或排列呈现某种方向性,那么具有较高值的频谱也呈现出与图像目标方向正交的方向性分布。

1.2.3形状特征提取

通过对边界特征的描述来获取图像的形状参数,图像的边界一般是指周围图像灰度强度有反差变化的那些像素的集合。

1.2.4相似性度量

采用欧几里得距离作为图像特征向量之间的相似性度量方法,进行相似度匹配。

1.2.5相关反馈

由于计算机视觉对色彩特征的表示、相似度定义和人对色彩的感知存在着一定差距以及高层语义概念同低层特征之间的差距,基于图像内容检索的结果总不是很理想,为了把用户模型嵌入到图像检索系统,最近几年在基于内容的图像检索领域引入了相关反馈机制。

相关反馈的目的是从用户与查询系统的实际交互过程中进行学习,发现并捕捉用户的实际查询意图,并以此修正系统的查询策略,从而得到与用户实际需求尽可能相吻合的查询结果。

基于内容检索中的相关反馈技术大致分为参数调整方法、聚类分析方法、概率学习方法和神经网络方法。

2实验结果

作者用delphi实现了上面算法的特征分解、特征提取、相似形度量和相关反馈算法。从150幅图像中进行搜索,返回了20幅图象。图象数据库中包含了花、树、蝴蝶和猫。

查询对象是包含一只猫,返回实验结果如图1:

返回的20图像中有7幅含有猫。

用户从图像检索的界面选“是”和“否”对图像的结果进行反馈,系统根据用户的选择会自动调整检索的特征表示权重值,从而进行第二次的检索。第二次的检索返回的20图像中含有猫的图像增加到12幅,大大提高了检索效率。

3结束语

随着图像数据库的增加,基于内容的图像检索显的尤为重要,提取哪图像些特征,如何提取特征以进行高效、准确的检索是基于内容的图像检索技术中的核心问题。采用傅立叶变换提取图像的纹理特征、边界矩来检测图像边界,再而引入相关反馈算法,原型系统基本实现了高速、有效的图像检索,在以后的研究中还会尝试选择不同的相关反馈检索算法,更进一步提高系统的检索效率。

参考文献:

[1]董卫军,周明全,耿国华,黎晓.基于内容的图像检索技术研究[J].计算机工程,2005,(10).