前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的计算机视觉总结主题范文,仅供参考,欢迎阅读并收藏。
关键词:计算机视觉图像 精密测量 构造几何模型 信号源的接收
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)05-1211-02
新型计算机视觉图像精密测量是一种基于计算机程序设计以及图像显示的高精度的关键技术,它广泛用于测量的领域,对于测量的准确性有很好的保证。这种关键技术是几何了光学的特性,发挥了图像学的显影性,把普通的测量技术瞬间提升到了一个新的高度。在这项关键技术中包含了物理学中光的效应,图像中的传感器以及计算机中的编程软件,这还不完全,还有一些其他科学领域知识的辅助,可以说这项关键技术是一个非常有技术含量的技术,很值得学者进行研究。
1 计算机视觉图像精密测量的关键技术的具体形式
在以往的测量中,选择的测量方式还是完全采用机械的形式,但是在使用了计算机视觉图像精密测量后,完成了许多以往技术所不能达到的任务。在我们的研究中,计算机视觉图像测量的原理是通过摄像机将被处理的对象采集进行影像采集,在多个控制点的数据采集完成后,系统会自动将这些图像进行整合,得出相关的几何多变参数,再在计算机上以具体的数据显示出来,以供技术人员使用参照。
在上面所说的摄像机并不是我们通常意义上生活中使用的摄像机。它是一种可视化较强,表针比较敏感的测试仪。可以将视觉中的二维形态通过显影,记录在机械的光谱仪上,再将这种的二维图像做数学处理,有二阶矩阵转换为三阶矩阵,通过播放仪呈现出三维的影像。这时的图像变为立体化,更有层次感,效果上也有了明显的变化,这是一种显示方法。此外还有一种造价较高的仪器,我们不常使用,就是图像提取器。同样是采集控制点的数据,将数据整合在系统之内,然后对于原始的图像进行预处理,不再经过有曝光这个程序,将图像中关键点的坐标在整个内部轴面上体现出来,提取数据帧数,再运用机器的智能识别系统,对控制点的坐标进行数据分析,自动生成图形,这也可以用于精密测量。它的优点就是使用上极其的方面,基本只要架立仪器和打开开关,其他的工作机械系统都会自动的完成。使用的困难就是造价极其的高,不适合一般企业使用。在基于计算机视觉图像测量中使用上的原理如下:
1) 计算出观察控制点到计算机视觉图像测量仪器的有效距离;
2) 得出观察点到目标控制点之间的三维的运动几何参数;
3) 推断出目标控制点在整个平面上的表面特征( 大多时候要求形成立体视觉);
4) 还通过观察可以判断出目标物体的几何坐标方位。
在整个计算机视觉图像精密测量的关键技术中最关键的元件就是压力应变电阻仪,这也是传感器的一部分。压力应变电阻仪的使用方式是将应力片粘贴在控制点位上,事先在物体表面打磨平整,清理干净后,涂抹丙酮试剂,在液体完全风干后就可以黏贴应力片,通过导线的联接,形成了一小段闭合的电路,时刻让计算机视觉图像系统可以感应到并作跟踪观察。因受到来自不同方面谐波的影响后,应力片会产生一定数值的电阻,在电路中,这些电阻会转化为电流,视觉图像系统接收到了电流后就会显示在仪表盘上相应的数据,我们就可以根据仪表盘中的数据记录测量中的数据,很好的解决了原始机械在使用过程中大量的做无用功所消耗资源的现象。传感器对每个应点都进行动态的测量,将数据模转换成现实中的图像,精确的成像可以测算出控制点的位置,用计算机视觉图像精密测量结合数据方面的相关的分析,得出施工中的可行性报告分析,减低了施工中的成本,将施工的预算控制在一个合理的范围之内。
当无法观察到控制点是,计算机视觉图像精密测量可以通过接收信号或是相关的频率波段来收集数据,不会因为以往测量的环境不好,距离太远,误差太大的影响。
2 计算机视觉图像精密测量的关键技术分析
在计算机视觉图像精密测量的关键技术中解决了很多以往很难完成的任务,但是在使用过程中还是发生了很多的问题。尤其在视觉图像的选择中,无法使用高帧数的图片显示,无法将计算机视觉图像精密测量的关键技术的优点发挥出来。我们就计算机视觉图像精密测量的关键技术中常见的问题进行讨论。
2.1 降低失误的概率
在很多的数据误差中,有一部分是出现在人为的因素上面。对于机器的不熟悉和操作中的疏忽都会在一定程度上对图像的视觉感模拟带来麻烦。对于网络设备的配置上,要经常性的学习,将配置在可能的情况下设置的更加合理和使用,保证网络连接系统的安全性。为防止更多因操作带来的误差,选用系统登入的制度,用户在通过识别后进入系统,在采集数据后,确定最终数据上又相关的再次确定的标识,系统对本身有的登录服务器和路由器有相关的资料解释,记录好实用操作的时间,及时备份。
2.2 对于权限的控制
权限控制是针对测量关键所提出的一种安全保护措施,它是在使用计算机视觉图像精密测量的关键技术中对用户和用户组赋予一定的权限,可以限制用户和用户组对目录、子目录、文件、打印机和其他共享资源的浏览和更改。图像中的运行服务器在停止的情况下可以做出不应答的操作指令,立刻关闭当前不适用的界面,加快系统的运行速度,对于每天的日志文件实时监控,一旦发现问题及时解决。对于数据终端的数据可采用可三维加密的方法,定时进行安全检测等手段来进一步加强系统的安全性。如果通过了加密通道,系统可以将数据自动的保存和转换为视图模式,对于数据的审计和运行可以同时进行,这样就可以很好的保证大地测量中的图像数据安全,利用防护墙将采集中废弃的数据革除在外,避免数值之间发生紊乱的现象,进一步改善计算机视觉图像精密测量的关键技术。
2.3 开启自动建立备份系统
计算机视觉图像精密测量的关键技术的完善中会常遇到系统突然崩溃或是图像受到严重干扰导致无法转换的一系列情况,发生这种情况最大的可能性就是系统在处理多组数据后无法重新还原成进入界面。这时为保证图片转换成数字的系统数据不丢失,我们对系统进行备份。选定固定的磁盘保存数据,定期将产生的数据(转换前的图像和转换后的数值)导出,保证程序的正常运行。当系统一旦发生错误,可以尽快的恢复数据的初始状态,为测量任务的完成争取更多的时间。我们还要减少信号源周围的干扰,定期的更新系统数据库,保持数据采集的稳定性,把摄像机记录出的数据节点保存在相应的技术图纸上,用这样的方式来知道测量工作。系统备份的数据还可以用于数据的对比,重复测量后得出的数据,系统会自动也备份的数据进行比对,发现误差值在规定以外,就会做出相应的预警,这样也能在工作中降低出现误差的概率。
3 计算机视觉图像精密测量的关键技术遇到的困难和使用前景
计算机视觉图像精密测量的关键技术作为一种新兴技术在使用时间上不过十几年,其使用的程度已经无法估算。正是因为它的简单、使用、精度高以及自动化能力卓越的特点受到了测量单位的广泛青睐。在测量方面的这些可靠性和稳定性也是有目共睹的。在土木和机械测量的行业计算机视觉图像精密测量的关键技术都会有广泛和良好的使用,前景也是十分的广阔。但是不容忽视该技术也有一些弊端。这项关键技术中涵盖的学科非常的多,涉及到的知识也很全面,一旦出现了机器的故障,在维修上还是一个很大的问题,如何很好的解决计算机视觉图像技术的相关核心问题就是当下亟待解决的。
我们都知道,人的眼睛是可以受到吱声的控制,想要完成观测是十分简单的,但是在计算机视觉图像技术中,毕竟是采取摄像机取景的模式,在取得的点位有的时候不是特别的有代表性,很难将这些问题具体化、形象化。达不到我们设计时的初衷。所以在这些模型的构建中和数据的转换上必须有严格的规定和要求,切不可盲目的实施测量,每项技术操作都要按规程来实施。
上文中也谈到了,计算机视觉图像精密测量的关键技术中最主要的构建是传感器,一个合理的传感器是体统的“心脏”,我们在仪器的操作中,不能时时刻刻对传感器进行检查,甚至这种高精度的元件在检查上也并不是一件简单的事情,通过不断的研究,将传感器的等级和使用方法上进行一定的创新也是一项科研任务。
4 结束语
在测量工程发展的今天,很多的测量技术已经离不了计算机视觉图像技术的辅助,该文中详细的谈到了基于计算机视觉图像精密测量的关键技术方面的研究,对于之中可能出现的一些问题也提出了相应的解决方案。测量工程中计算机视觉图像精密测量的关键技术可以很好的解决和完善测量中遇到的一些问题,但是也暴露出了很多的问题。
将基于计算机视觉图像精密测量的关键技术引入到测量工程中来,也是加强了工程建设的信息化水平。可以预见的是,在未来使用计算机视觉图像技术建立的测量模型会得到更多、更好的应用。但作为一个长期复杂的技术工程,在这个建设过程中定会有一些困难的出现。希望通过不断的发现问题、总结经验,让计算机视觉图像精密测量的关键技术在测量中作用发挥的更好。
参考文献:
[1] 汤剑,周芳芹,杨继隆.计算机视觉图像系统的技术改造[J].机电产品开发与创新周刊,2005,14(18):33-36.
[2] 段发阶,等. 拔丝模孔形计算机视觉检测技术[J]. 光电工程时报, 1996,23(13):189-190.
关键词:计算机视觉;课堂考勤;深度学习;MCV架构
前言
随着国家标准《智慧校园总体框架》(Smartcampusoverallframework)的,智慧校园的规划与设计成为了校园建设的重点项目[1]。而课堂考勤作为学校教学管理、学生评价的重要组成部分,随着物联网技术、人工智能和移动通信技术的水平的提高与发展,更应该向着智能化、准确化的方向发展[2]。本文研究了的当前应用的课堂考勤方式,并做了进一步的分析,最终根据社会技术的革新与发展[3],提出了一种基于计算机视觉的实时课堂考勤系统的设计。我们的主要工作是搭建了整个系统框架,包括数据库系统、服务器、计算机视觉模型、网络通信、图像采集系统、客户端和网络通信系统。
1课堂考勤方式现状
目前校园中主要的课堂考勤方式存在为两种,分别是传统的考勤方式和生物识别的考勤方式。如图1所示,其中传统的考勤方式包括点名考勤和通过校园卡进行考勤,点名考勤的方式仍然是高校中最常用的考勤手段,因它不受场地的限制,可以根据点名册直接核对现场的学生信息,但这种方式存在的缺点就是花费时间,影响上课效率,为此有些教师不进行点名,因此影响了考勤的效果。校园卡考勤解决了点名占用课堂时间的问题,但这种方式具有学生代考勤的漏洞,因为学生可以拿着别人的校园卡进行考勤。生物识别的考勤方式包括指纹考勤和人脸识别考勤,这些方式有效解决了传统考勤方式代考勤的弊端,但这种方式受设备硬件的影响,识别能力太慢,尤其是在下课后学生较多,考勤签退时容易发生拥挤等现象,具有安全隐患[4]。因此,为解决当前考勤方式存在的一些弊端,本文设计了一种基于计算机视觉的实时课堂考勤系统。
2系统设计基础
2.1系统开发环境
本文设计的实时课堂考勤系统主要是使用Python开发语言,Python是目前最流行开发语言之一,主要应用于Web服务设计、大数据、人工智能等领域,它的主要优点是开发效率高、可扩展性强、跨平台和具有可移植性等,满足了本文系统的设计要求。另外,在开发过程还用到了基于Python的第三方软件开发包,包括Flask用于搭建系统的Web服务器;PyQt5用于搭建系统的客户端;OpenCV用于系统中对图像视频的处理;Tensoflow用于开发计算机视觉模型,搭建深度学习模型,完成人脸检测和识别任务;Mysqlclient用于管理、访问、查询和更新Mysql数据库。
2.2系统开发框架
本文设计的实时课堂考勤系统通信基于Web应用,因此选择一个合适的服务架构有利于提高系统的开发和部署效率。目前较流行的Web应用主要有MVC(ModelViewController)和CMS(ContentManagementSystem)两种架构。本文使用了基于Python和Flask搭建的MVC架构[5],该架构如图2所示,主要包括模型层、视图层和控制器。使用该框架的优点是可将视图层和业务逻辑层进行分离开发,提高开发效率,方便系统的部署、维护和管理。
3系统设计方式
3.1系统总结构设计
本文设计的实时课堂考勤系统的总体结构如图3所示。根据MVC构架的设计,我们将该系统分为了模型层、控制器层和视图层,另外还包括网络通信设备。
3.2模型层设计
模型层主要是关系型数据库模,MySQL是目前使用最多的关系型数据库系统,也是学校管理系统使用最多的数据系统,为了更好地与学校管理系统兼容,我们选择了MySQL数据库,数据表之间的关系如图4所示。
3.3控制器层设计
控制器层主要包括服务器应用软件和计算机视觉模型,服务器应用软件的功能包括系统通信配置、数据业务处理和系统各模块间的调度。计算机视觉模型是实时课堂考勤系统的核心模块,基于深度学习卷积神经网络实现[6],主要作用是进行人脸检测和识别两个部分,计算机视觉模型的工作流程如图5所示。在人脸检测阶段使用VGG16检测器作为主干网络,为提高模型的检测准确率,通过引入注意力模型和多尺度特征融合对网络进行了优化,有效地从输入图片中提取人脸位置信息,得到人脸图像。在人脸识别阶段首先使用FaceNe人脸识别网络提取人脸图像的特征图,然后通过决策树算法与待检测的人脸特征进行匹配,从而识别图片中的学生信息。
3.4视图层设计
本文设计的实时考勤系统的模型层主要包括图像采集系统和客户端。目前各学校教室内都安装有监控设备,因此为节约成本和安装消耗,图像采集系统使用教室内的监控设备作为图像采集系统,负责采集教室现场图片。客户端设计首先在本系统中采用应用程序接口,然后在教学管理系统中设计图形化用户界面,通过应用程序接口调用本系统的功能,从而减少资源浪费,方便维护和管理。
4实时考勤功能的实现
实时考勤功能的实现方式如图6所示,首先系统启动后,用户可以随时更新考勤信息,比如在数据库中创建新的考勤表等。接着系统会自动读取考勤表的信息,比如课程所在教室、上课时间。然后启动考勤程序,进行签到、签退操作,并将考勤数据保存到考勤数据表中。整个系统启动完成后可以自动运行,直到关闭系统,而且可以实时进行课堂考勤。
【关键词】自动控制技术;农业自动化
由于历史、观念和技术等方面的原因, 我国传统农业机械与发达国家相比有很大差距,已远远不能适应农业的科技进步。近些年来, 自动化的研究逐渐被人们所认识, 自动控制在农业上的应用越来越受到重视。例如,把计算机技术、微处理技术、传感与检测技术、信息处理技术结合起来, 应用于传统农业机械, 极大地促进了产品性能的提高。我国农业部门总结了一些地区的农业自动化先进经验(如台湾地区的农业生产自动化、渔业生产自动化、畜牧业生产自动化及农产品贸易自动化)的开发与应用情况, 同时也汲取了国外一些国家的先进经验、技术,如日本的四行半喂人联合收割机是计算机控制的自动化装置在半喂人联合收割机中的应用,英国通过对施肥机散播肥料的动力测量来控制肥料的精确使用量。这些技术和方法是我国农业机械的自动化装置得到了补充和新的发展,从而形成了一系列适合我国农业特点的自动化控制技术。
1.已有的农业机械及装置的部分自动化控制
自动化技术提高了已有农业机械及装置的作业性能和操作性能。浙江省把自动化技术应用于茶叶机械上,成功研制出6CRK-55型可编程控制加压茶叶揉捻机,它利用计算机控制电功加压机构,能根据茶叶的具体情况编制最佳揉捻程序实现揉捻过程的自动控制,是机电一体化技术在茶叶机械上的首次成功应用。
1.1应用于拖拉机
在农用拖拉机上已广泛使用了机械油压式三点联结的位调节和力调节系统装置, 现又在开发和采用性能更完善的电子油压式三点联结装置。
1.2应用于施肥播种机
根据行驶速度和检测种子粒数来确定播种量是否符合要求的装置, 以及将马铃薯种子割成瓣后播种的装置等。
1.3应用于谷物干燥机
不受外界条件干扰, 能自动维持热风温度的装置停电或干燥机过热引起火灾时,自动掐断燃料供给的装置。
2.微灌自动控制技术
我国从20世纪年50代就开始进行节水灌溉的研究与推广据统计。到1992年,全国共有节水灌溉工程面积0.133亿m2,其中喷灌面积80万m2, 农业节水工程取得了巨大的进展。灌溉管理自动化是发展高效农业的重要手段,高效农业和精细农业要求必须实现水资源的高效利用。采用遥感遥测等新技术监测土壤墒性和作物生长情况,对灌溉用水进行动态监测预报,实现灌溉用水管理的自动化和动态管理。在微灌技术领域,我国先后研制和改进了等流量滴灌设备、微喷灌设备、微灌带、孔口滴头、压力补偿式滴头、折射式和旋转式微喷头、过滤器和进排气阀等设备,总结出了一套基本适合我国国情的微灌设计参数和计算方法,建立了一批新的试验示范基地。在一些地区实现了自动化灌溉系统,可以长时间地自动启闭水泵和自动按一定的轮灌顺序进行灌溉。这种系统中应用了灌水器、土壤水分传感器、温度传感器、压力传感器、水位传感器和雨量传感器、电线等。
3.自动控制技术在精准农业中的应用
关键词:增强现实;计算机视觉;三维注册
中图分类号:TP242 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02
1 引言
随着计算机技术的迅速发展,计算机视觉、虚拟现实技术、人工智能、计算机图形学等技术被广泛地研究和应用,这些技术引导着人们进入了一个信息数字化的虚拟时代。
增强现实技术(Augmented Reality,AR)作为虚拟现实技术和计算机图形学相结合的产物,它是在通过计算机渲染生成虚拟的物体或文字信息模型的同时,对真实的场景进行标定,从而使虚拟的物体能够被准确地放置到真实的场景中,最终通过显示设备显示出来,使用户处于虚拟和现实相融合的亦真亦幻的新环境中,无法清楚地分辨出真实和虚拟。增强现实技术增强了用户的观感及其与真实场景之间的交互。
增强现实技术作为虚拟现实的一个重要分支,是虚拟现实技术发展过程中的产物。如图1.1所示,该图为Milgram提出的增强现实和虚拟现实关系的一种分类学表示方法。由图我们可以看出,虚拟现实所创建出来的是一种完全虚拟的三维世界,它与真实的世界相隔离。而增强现实是以现实场景为基础,场景中的虚拟物体随着真实物体的变化而变化,提供给用户的是一种复合的视觉效果,就好像这些虚拟物体真实的存在于场景中。
2 增强现实技术的应用
增强现实技术在20世纪90年代真正兴起,其发展与20世纪60年代计算机图形学的迅速发展密不可分。增强现实技术不仅拥有虚拟现实的各种优点,同时又有其独特的视觉增强功能,因此成为了国内外研究机构和知名大学的研究热点,并广泛的被应用于教育、医疗、工业、娱乐、军事等多个领域。
2.1 教育
增强现实丰富了教育学习生活。传统的书籍中只存在文字信息,通过增强现实技术,我们可以透过书籍看见文字相关的动态画面或是影像,图文并茂,极大的增强了学生的学习兴趣。目前的魔法书系统就是这一技术的很好运用,用户通过头盔显示器可以看到书中描述的场景,使读者可以完全沉浸在虚实结合的环境中,提高学习兴趣和效率。
2.2 医疗
增强现实技术可以帮助医生实现可视化手术或手术培训。准确地定位真实场景是增强现实技术的一个重要方面,在医疗中,运用增强现实技术可以进行手术定位,实时地收集病人体内的3D影像,并将其与真实的人体相结合,使得医生可以“透视”病人体内,从而减少手术的风险,该技术对微创手术也有着深远的意义。手术培训方面,通过加入虚拟的提示注解,可以提醒医生手术中的一些必要步骤,降低手术风险。
2.3 工业
增强现实的另一个应用是工业组装和维修。通过增强现实技术可以显示出各种设备零件的内部结构图、使用说明等,方便安装和维修。显示的内容可以不仅仅是简单的文字或图片,更能直接渲染生成3D的图形,并按步骤一步一步的显示出来,方便操作。
2.4 娱乐
电影、广告、游戏、体育比赛转播中,增强现实技术也得到了广泛的运用。体育比赛中,能够在直播现场实时地插入三维的图形、动画、视频等虚拟的比赛相关信息或广告。日常生活中,出现一种增强现实浏览器,它利用多种传感器将日常需求通过实景与虚景结合后呈现在用户面前,用户可以通过增强现实浏览器看到实景的文字介绍、三维模型等,并可以搜索定位。
3 增强现实相关技术
增强现实系统具有虚实结合、三维注册、实时交互三个特点。三个特点之间紧密联系,要求在合成的场景中虚拟的物体能够拥有真实的存在感和位置感。因此显示技术、定位技术、虚实融合技术、用户交互技术是实现增强现实系统的基础支撑技术。
3.1 显示技术
理想的AR系统的显示器具有体积小、移动方便、图像绘制清晰、交互自然等特点,但是目前仍不能制造出完成符合这些特点的显示器。常用的显示设备可以分为四类:普通液晶现实器;头戴式显示器;手持式显示器;投影式显示器。
液晶显示器是最为常见,也最容易得到的显示设备。但是液晶显示器体积较大,移动不方便,限制了用户的活动范围。头戴式显示器,佩戴于用户的头部,这种显示器本身提供了一路或两路摄像机,采用视频合成技术,为用户提供场景的显示。但是头戴式显示器在户外长时间佩戴很不舒服,因此也不能为用户广泛接受。手持式显示器,较头戴式显示器稍有改进,但是也限制了用户手部的活动。投影式显示器能够将场景投影到较大范围的环境中,位置固定,适合于室内的AR系统。
3.2 定位技术
增强现实系统需要将虚拟的物体准确地放置到真实的场景中,因此定位技术显得尤为重要。目前的定位技术主要分为两种:一种是基于硬件的定位技术;一种是基于计算机视觉技术的定位技术。
基于硬件的定位技术一般使用硬件设备定位,主要包括:全球卫星定位系统、测距仪、导航仪、机械装置等。
基于计算机视觉的定位技术一般是从真实场景中获得一幅或多幅图像,根据图像中的信息,计算出摄像机和图形中物体的相对信息,最终恢复出三维场景的结构,从而达到定位的目的。
基于计算机视觉的定位技术主要包括以下几种:
(1)单视图法:在一幅图像中找到六个以上特征点进行跟踪,通过已知的特征点的三维坐标和其成像坐标进行定位。
(2)多视图法:从多个角度拍摄场景,根据常用的角点检测法,检测多幅图像的角点并进行匹配,从而计算出真实场景中物体的景深,最终实现定位。
(3)运动目标的序列图像:根据序列图像估算运动目标的各项参数。
(4)模板匹配法:从多个视角出发寻找真实图像中的物体作为模板数字化图像,继而将虚拟物体叠加到真实场景。
3.3 虚实融合技术
增强现实技术中的虚拟融合主要指虚拟物体在真实场景中的配准,以及虚拟物体与真实场景的一致性。
在增强现实系统的实现过程中,一致性是一个关键性问题。虚实融合的一致性包括动态一致性和静态一致性。其中,动态一致性通常指场景的实时绘制,跟踪过程中虚拟物体和真实场景的空间位置的一致性等;静态一致性通常指虚拟物体与真实场景外观的一致性变化等。
另一方面,为了实现很好的虚实融合效果,必须对拍摄真实场景的相机进行标定,并与绘制虚拟物体的虚拟相机参数进行匹配。摄像机标定主要是对摄像机的内外参数的确定。目前,摄像机标定技术已经较为成熟,主要可以分为三类:传统的标定法,如张正友标定法;自标定法,如基于Kruppa方程的自标定法;基于主动视觉的标定法,如基于射影重建的标定法。三类标定法各有利弊,并没有一种可以普遍适用,因此摄像机标定技术仍是一个研究重点。
3.4 用户交互技术
人们总是向往能够使用自然的方式和虚拟的物体交互,但这是十分困难的,增强现实系统根据跟踪定位获得的有关真实场景的信息对虚拟物体发出指令。目前,交互技术主要使用以下三种方式:
(1)在场景中选择一个或多个特征点作为标记点,这是增强现实系统中最基本的交互方式。
(2)使用计算机识别出人或物体的姿态,进而交互操作。
(3)制作特殊工具,能够通过按键等简单方式触发事件。
4 结束语
本文总结了现阶段增强现实技术的应用领域,并对其涉及到的关键技术进行了阐述。增强现实技术作为一个多学科交叉的研究领域,必将飞速发展,更多的融入到我们的生活中。
参考文献:
[1]纪庆革,潘志庚,李祥晨.虚拟现实在体育体育仿真中的应用综述[J].计算机辅助设计与图形学学报,2003,15(11):1333-1338.
[2]陈靖,王涌天,闫达远.增强现实系统及其应用[J].计算机工程与应用,2001,15:72-75.
[3]Milgram Pand Kishino F.A taxonomy of mixed reality visual displays[J].IEICE Trans.Information Systems,1994,E772D(12):1321-1329.
近年来,计算机视觉在安防领域的应用正备受关注,身份识别是核心问题。人脸识别是一种基于脸部特征信息进行身份识别的技术,人脸检测是其中的基础和关键部分。介绍了四种不同的人脸检测技术,分析了相关的算法和理论,概述了各自的优缺点。最后,讨论了人脸检测技术今后的研究方向及发展趋势。
【关键词】计算机视觉 身份识别 人脸检测
1 人脸检测问题综述
在国土安全和社会安全问题日益突显的背景下,世界各国家都对安防领域进行不遗余力地投入。随着计算机视觉技术的不断发展,基于生物特征识别的身份识别技术受到人们的广泛关注,在未来一段时间内生物识别技术将成为信息产业的一次革命。其中人脸识别技术作为一种极具潜力的生物识别方式,以其识别速度快,主动性强,性价比高等显著的技术优势,在各个领域都体现出了巨大的商业价值和社会价值。
人脸检测是人脸识别的前提和关键,一般采用相机实时采集含有人脸的图像或视频流,并自动在图像中对人脸进行检测和跟踪。人脸的自动检测是一项颇有难度的工作,主要体现在:(1)不同族群年龄等问题导致人脸的差异性。(2)人脸上的胡须等附属物对检测造成的干扰。(3)人体姿态变化和遮挡物存在对检测的影响。(4)环境和硬件条件对图像采集效果的影响。针对这些问题,国内外著名高校和科研机构进行了很多相关的研究,致力于解决在复杂背景下如何准确高效地进行人脸检测的问题。
2 实现人脸检测的相关技术
根据近年来计算机视觉领域人脸检测问题的研究进展,本文在这里进行总结性综述,目前人脸检测的方法可以分为基于知识和统计两类,有以下四种常用的检测算法。
2.1 模板匹配
模板匹配可以分成固定模板和变形模板。固定模板指的是根据先验数据归纳出一个统一的模板,然后根据一个能量函数确定被检测区域中和模板相关程度较高的位置,即人脸位置。由于不同人物之间脸部的差异性很大,加上环境等因素的影响,此方法并不具有很强的实用性。变形模板原理上和固定模板的操作方式相同,不过变形模板自身的参数模型在一定范围内具有可变性,因此检测的动态范围更大,检测效果相对较好一些。
2.2 样本学习
由于人脸的复杂性,显式描述十分困难,因此基于统计模式的检测方法受到了人们的广泛关注。此方法将人脸看做一种模式,通过对大量样本图像的机器学习完成分类器的构造,利用分类器实现对人脸的检测判别,在这里问题被转化为模式识别中的二分类的形式。
首先,需要建立一个样本空间,其中包括“人脸”和“非人脸”的正负两种样本,对样本图片归一化处理后,顺序展开后进行主分量分解,在大量样本形成的高维矩阵中计算其特征值和特征向量,然后采用一定的学习机制在特征空间中建立分类,以此可得到用来检测样本图片是否为人脸的正负判别规则式,二者为互斥关系。此检测方法具有较高的准确度,但是需要大量的正负样本图片,MIT等一些高校和研究机构建立了开放的人脸库。
2.3 人工神经网络
人工神经网络(ANN )是将模式的统计特性包含在ANN的结构和参数中,对于人脸这类复杂的、难以显式描述的抽象型模式,这一检测方法具有其自身特别的优势。
神经网络方法本质上也是基于样本学习,首先使用经过预处理的“人脸”样本以及采用“自举”方法收集分类器错分的样本作为正负样本训练各个ANN,然后根据结果进一步对分类器进行修正,构造多层感知器(MLP)网络作为分类器对人脸进行检测。人工神经网络是并行分布式系统,采用了与传统人工智能和信息处理技术不同的原理,模拟大脑神经网络处理、记忆信息的方式进行目标检测。神经网络模型克服了传统的基于算数逻辑符号的人工智能在处理直觉、非结构化信息方面的缺陷,具有自适应、自组织和实时学习的特点,应用在人脸检测问题中性能表现突出。
2.4 基于隐马尔可夫模型
隐马尔可夫模型(HMM)是一种双重随机过程,一种是有限状态的马尔可夫链,另一种是序列的观察值。由于只能通过观察值得到马尔可夫链的状态,因此称之为隐马尔可夫模型。对于人脸而言,可以把它分为前额、眼睛、鼻子、嘴巴、下巴五个部分来检测。根据这五个区域位置顺序不变性,可以分别用相应的观察向量序列检测每一个部分,使用一个包含五个状态的一维连续HMM来表示人脸。接着对各块进行KL变换,提取每块一些最大的特征向量作为观察值对HMM进行训练。此后,还提出了一种嵌入式隐马尔可夫模型,该方法除了将人脸划分为五块外,还在每块中从左至右嵌入了一个HMM。接着进行二维DCT变换,把变换后得到的系数作为训练值。
3 结束语
人脸检测是个发展很快的研究方向,人脸检测技术的发展趋势是利用多特征,多种分类方式进行启发式知识与统计学习方法的结合,未来对人脸检测的研究将会更注重其实时的应用,这就对检测算法的效率提出了更高的要求。另外,可以消除光照对人脸成像影响的红外人脸识别技术,加入相互对比机制的包含正脸、侧脸三维信息的人脸三维模型重建检测技术也正在研究当中。随着技术的不断进步和市场逐渐的规范化,人脸检测识别技术会越来越多地应用于社会的各个领域,在促进社会发展的同时方便人们的生活。
参考文献
[1]许燕,王维兰.基于视觉运动人脸检测技术的研究[J].计算机仿真, 2014(1):434-437.
[2]孙宁,邹采荣,赵力.人脸检测综述[J].电路与系统学报,2006,11(6):101-108.
作者简介
姚坤(1990-),男,现为聊城大学物理科学与信息工程学院硕士研究生,主要研究方向为机器视觉。
一、超声医学图像处理方法
1.1计算机的视觉
我国的计算机视觉处理手法与医学影像研究处理方法的结合一直是一个重点研究课题,同时也对我国传统的医学图像处理技术的发展产生了重要影响。在我国的计算机视觉领域目前已经研究总结了大量有价值的研究方法和研究技术。
1.1.1图像滤波
超声的图像滤波应用主要作用在于过滤掉斑点噪声。斑点噪声主要是因为人体内存在很多实际尺寸小于波长的人体组织机构,同时在后向的散射声波影响下而产生,斑点和噪声的出现进一步降低了在B超成像过程中的实际图像对比以及组织内可以提取的详细信息数据。通过调查研究可以发现,斑点噪声的模型可以大致划分为两个类别:完全性的随机模型、长阶次非随机模型、断阶次非随机模型。目前我国已经采用的多种超声成像滤波算法都可以实现一定程度的噪声过滤,并没有哪一个固定的滤波算法可以实现应用最优效果发挥,对于固定的图像成像分析可以采用多种定性以及定量形式进行计算,从而对各类型滤波进行对比分析,所以属于一种可行性较强的应用方案[1]。
1.1.2图像分割
医学的图像构成处理方法研究过程中,图像分割一直都是其中一个热门讨论课题。主要的图像分割目标在于按照合理的规则进行图像像素类型划分。早期的该部分技术主要有区域生长以及聚类,主要是借助图像的灰度信息,但是应用此类方法对于灰度值较为相近的两种类型物品难以区分,以边缘检测的方法进行分析需要结合梯度信息,但是该类型的方法没有较为敏感的噪声反应度,同时对于边缘较为模糊的物体提取存在困难,因为大部分的产科超声医学计算机成像质量较差,同时在操作过程中的待分割目标也较为复杂,所以需要利用更加多元化的信息处理方法才能取得更好的分割处理效果。形状先验操作形式是在活动的具体轮廓和活动模型的提出而受到重视,以神经网络信息计算方法为分割的主要目标,同时也可以通过学习一种合理的分割形式来提高分割效果[2]。
1.2机器学习
在我国的产前超声医学处理过程中,机器学习都占据重要的地位并发挥着重要的作用,主要是因为机器学习促进了我国的产前超声诊断以及智能化发展,对于部分没有充足精确度和分析推导较为困难的问题,可以利用实际案例中的自动学习算法提高准确性。近些年来,我国大部分的超声成像医学设备开始应用于临床实践中,从而丰富了总体的超声医学成像数据信息资源,进而也提高了机器学习在产前超声的医学应用可行性[3]。
二、产前的应用
关键词: 视频;火焰检测;运动区域;颜色模型;频闪
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2014)22-5303-04
当今社会人们的生活、办公越来越密集化,物资存储也更加集中,一旦发生火灾将会对人们的生命和财产安全造成巨大的威胁,人们对火灾预防重视程度不断加强。传统的火灾预防技术主要是基于温度、烟雾的感应[1]。这类方法需要在检测环境中安装温度或者烟雾传感器,对火灾的检测效果往往会受到距离、温度、粉尘等物理条件的影响[2]。为了克服传统火灾检测系统存在的问题,研究人员提出了基于视频分析的火灾检测技术。该类方法通过摄像机获取监控场景中的实时视频画面,利用图像处理和视频分析技术检测火灾的发生,这种非接触式的检测方法直观主动,对监控场景具有普适性,可以克服传统火灾检测系统受物理条件限制的缺点[3]。文献[4]结合火焰颜色统计模型和序列模式挖掘的方法,能够检测出一幅图像中的火焰,文献[5]利用视频中火焰区域的火焰颜色概率模型、火焰区域的形状以及火焰外形的变化规律来检测火灾的发生。文献[6] 采用一种基于色觉和无序性测量的RGB模型来检测火焰和烟雾,而文献[7]则是通过在HIS颜色空间下使用直方图特征分割的方法来判断是否有火灾发生。
为了提高火焰检测的效率和准确率,该文首先通过运动检测算法提取出视频中运动的区域,进一步使用火焰颜色模型来选择出候选区域,最后根据火焰的频闪特性建立简化的火焰频闪模型,进一步滤除非火焰区域,提高检测精度。
1 运动区域提取
运动区域提取的目的是将不断运动的区域从背景图像中提取出来,是视频分析算法的关键基础环节,是目标定位、识别和跟踪的前提[8]。
众所周知,由于受到气流等因素的影响,火焰在燃烧过程中会持续不断的运动,该文先使用ViBe(Visual Background Extractor)[9]算法提取出视频中的运动区域,缩小检测范围,提高火焰检测的效率和精度。
ViBe算法由Olivier Barnich和Marc Van Droogenbroeck于2011年提出,是一种像素级视频运动提取算法,由于它计算简单,效率较高,能够较准确的提取出完整目标,且占用硬件资源较少,目前得到了广泛的应用。ViBe算法是一种基于统计背景模型的运动区域检测算法,其基本流程如图1。算法首先根据第一帧图像建立背景模板,图像的每个像素点在背景模版中都有一个维数为N的样本集合,初始化时样本集合里的值从每个像素点的R[×]R邻域内随机抽取。对后续图像帧的处理包含匹配和背景更新两个部分。匹配过程中计算当前像素点与其样本集合中的元素值在颜色空间中的距离,并统计距离小于一定阈值D的元素个数,当个数大于一定阈值T,则判定该像素点为背景点,否则判定其为前景点。对判定为背景点的像素要更新对应的样本集合,首先随机抽取NUM个样本集合中的元素,将其值更新为当前像素的值。由于视频帧中的像素点与其邻域内的像素点具有一定的相关性,所以要随机对其邻域内的一个像素点进行背景更新。ViBe算法的检测结果如图2。
2 火焰颜色检测
火焰在一般背景下会呈现出明显的高亮度,其独特的颜色在不同的色彩空间(RGB、HSV等)都具有特定的分布[10]。该文在上述ViBe算法的基础上利用火焰颜色特性来去除运动区域中非火焰区域,提高检测精度。该文使用的火焰颜色分布如下:
3 火焰频闪模型
火焰在燃烧过程中由于湍流流动导致火焰,即火苗的无序闪动,具体表现为一种持续的高频时序变化,研究者们还发现这种无序闪动具有与燃料和燃器形状无关的动态范围(10Hz以内)[11]。文献[12]采用火焰颜色像素沿时间轴的一维傅里叶变换来检测火焰的频闪特性,计算较为复杂。该文根据火焰的频闪特性,统计像素点在固定时域范围内的变化次数,建立一个简化的火焰频闪模型。具体算法如下:
1) 建立一个大小为[TIME]的火焰频闪模型,模型中每个元素为一幅二值图像,图像的分辨率与原图相同,每个像素点表示原图中该像素点是否发生变化。
2) 通过ViBe算法获得第[n]帧图像的运动区域,与第[n-1]帧图像的运动区域进行比较,获取当前图像中像素点的变化情况,存入火焰频闪模型。若1
3) 设置计数器[DiffCnt],初始为0,通过火焰频闪模型获取当前帧运动区域中各个像素点在[TIME]帧内的变化次数[t],若[Tmin]
4) 计算[DiffCnt]与运动区域大小的比值,大于一定的阈值[Alpha],则认为当前运动区域符合火焰频闪特性。若视频未结束,则跳转(2)。
火焰频闪模型实验结果如图4,其中[TIME]、[Tmin]、[Tmax]、[Alpha]的取值分别为25、5、15、0.5。
4 实验结果
为了验证算法的效果,该文采用了不同环境下的测试视频进行了实验,结果如图5。实验使用的硬件环境为:CPU为Pentium? Dual-CoreE6700(主频为3.2GHz),内存2GB,软件平台为:操作系统为Windows 7(32位),使用C++语言在Microsoft Visual Studio 2010进行编程,调用OpenCv图像处理库。实验中所用的测试视频分辨率均为320[×]240。通过上述实验可以发现本文提出的算法能够在不同环境下检测出火焰的发生,且执行效率较高,实验处理一帧图像平均只需要5ms。但是在复杂环境下,该方法也会产生错误检测。
5 总结
本文通过结合火焰的运动特性、颜色特征以及频闪特性,提出了一种简单高效的视频火焰检测算法,能够在不同环境下检测出火焰的发生,具有一定的实际应用价值。但是由于实际环境的复杂性以及算法本身存在的缺陷,该文提出的方法也会产生一些错误的检测。未来的研究工作中准备进一步分析算法错误检测的情况,继续提高算法的准确率。
参考文献:
[1] 袁非牛,廖光煊,张永明,等.计算机视觉火灾探测中的特征提取[J]. 中国科学技术大学学报,2006,36(1):39-43.
[2] 杨俊,王润生.基于计算机视觉的视频火焰检测技术[J].中国图像图形学报,2008,13(7):1222-1234.
[3] 高爱莲.基于视频的火焰检测方法研究[D].昆明理工大学,2008.10.
[4] Yu-Chiang Li,Wei-Cheng Wu.Visual Fire Detection Based on Data Mining Technique[C].2011 First International Conference on Robot, Vision and Signal Processing,2011(11):238-331.
[5] Che-Bin Liu and Ahuja N.Vision Based Fire Detection[J]. Proceedings of the 17th International Conference on Pattern Recognition,2004(8):134-137.
[6] Thou-Ho Chen, Ping-Hsueh Wu, and Yung-Chuen Chiou. An Early Fire-Detection Method Based on Image Processing[C]. 2004 International Conference on Image Processing, 2004(10):1707-1710.
[7] 陈威,刘菁华. 颜色直方图特征分割方法在火灾探测中的应用[J].计算机技术与发展,2011,21(7):199-202.
[8] 侯宏录,李宁鸟,刘迪迪,等.智能视频监控中运动目标检测的研究[J].计算机技术与发展,2012,22(2):49-52.
[9] Barnich O ,Van Droogenbroeck M. ViBe: A Universal Background Subtraction Algorithm for Video Sequences[C]. IEEE Transactions on Image Processing, 2011(6):1709-1724.
[10] 杨俊,王润生.基于计算机视觉的视频火焰检测技术[J].2008,13(7):1222-1234.
(1.第二炮兵士官学校103教研室,山东青州262500;2.第二炮兵士官学校202教研室,山东青州262500)
摘要:尺度不变局部特征以其良好的尺度、旋转和光照不变性,在计算机视觉、目标识别、三维图像重构等领域中得到了广泛的应用。本文在大量试验数据的基础上,总结了目前常用的几种尺度不变特征匹配算法的性能,比较得出各种算法的优缺点及其适用领域,并指出尺度不变局部特征检测算法的研究和发展趋势。
关键词:局部特征;尺度不变;图像匹配;特征检测
中图分类号:TP391.41 文献标识码:A文章编号:1007-9599 (2011) 09-0000-01
Scale-invariant Local Feature Detection Algorithm Study
Cao Juan1,Zhao Xuyang1,Mi Wengpeng2,Hong Chenghua1
(1.Teaching and Research Section103,the PLA Second Artillery Academy,Qingzhou262500,China;2.Teaching and Research Section202,the PLA Second Artillery Academy,Qingzhou262500,China)
Abstract:Scale invariant feature is famous for its wonderful scale invariance,rotation invariance and illumination invariance,which is widely used in computer vision,object categorization,3D image retrieval and so on.Proved by a large number of experiment dates,performance comparisons among the common scale invariant detectors showed us the advantage,disadvantage of each detector in this paper,which can help the new researchers to follow the right way according to their specific requirements.In the end,this paper indicates the developing trend of scale invariant detectors.
Keywords:Local feature;Scale invariant;Image matching;Feature detection
图像匹配技术是计算机视觉、三维图像标定、目标识别以及景象匹配导航和制导等领域中的核心技术之一。而匹配精度在很大程度上取决于特征检测算子的定位精度。尺度不变特征检测算法是一种对尺度变化具有良好的协变特性的算法,对于存在比例变化图像,可以提供较高的特征点定位精度,为后续的匹配处理奠定良好的基础。本文总结了目前常用的几种尺度不变局部特征检测算法,并从实际应用的角度出发,对比各种算法的优缺点,为工程应用中尺度不变算法的选择提出了建设性的意见。
一、尺度不变特征检测算法
尺度不变特征检测算法的理论基础来源于尺度空间理论。该理论最早出现于计算机视觉领域,目的是模拟图像数据的多尺度特征[1],其主要思想是利用尺度空间高斯核与原图像的卷积对原始图像进行尺度变换,获得图像在多尺度下的尺度空间表示序列,通过大尺度下的模糊轮廓和小尺度下的精细结构等一系列的图像信息对原始图像进行表达。目前使用得较多的尺度不变特征检测算子主要有DOG[2][3][4]、Harris-Laplace[5][6]、Hessian-Laplace[5][7]。下面分别对这些检测算子进行介绍:
(一)DOG。DOG检测的思想最早是由Crowley和Parker于1984年提出来的。1999年Low改进了此方法,并将其应用于目标识别领域。该算法首先通过对高斯尺度空间的采样,建立高斯金字塔。高斯金子塔采样分阶,阶内又分层的结构。每阶每层都代表不同尺度值平滑后的高斯图像,随着阶数和阶内层数的增加尺度值逐渐增大。其金字塔特性体现在不同阶处理的图像大小不同,通过对降维采样,阶数越高则处理的图像越小。然后算法对高斯金字塔的相邻层相减,得到DOG金字塔,其每层的尺度保持为减数的尺度。这种提取方法以及参数使得特征点具有很强的旋转和尺度不变特性,并且对于光照、噪声以及仿射变化都具有一定的鲁棒性。(二)Harris-Laplace。该算子将Harris检测算子的可靠性与自动尺度选择相结合,使检测出的特征点具有尺度不变性。Harris检测算子以二阶动差矩为基础,该矩阵具有旋转不变性,但是要使得它能独立于图像分辨率的变化还需要适应尺度变化。本算法通过将基于图像灰度值的二阶动差矩变为基于高斯空间的矩阵,构造具有尺度适应性的二阶动差矩,利用该多尺度表达式来检测潜在的特征点。然后对于每个潜在的特征点,计算其Laplace-of-Gaussian函数值随着尺度的变化的响应图像,该图像的局部极大值点所对应的尺度即为特征尺度。对于在选择的尺度范围内LOG响应没有极值点以及响应值低于某个阈值的点则去除。这样对于满足要求的兴趣点,则以其位置和特征尺度对其进行标注,由此可见Harris-laplace算法提取出的这样的特征点则具有尺度和旋转不变性。(三)Hessian-Laplace。与Harris-Laplace类似,Hessian-Laplace也是通过两个度量分别检测兴趣点的位置和尺度的;所不同的是在进行兴趣点空间定位时,使用尺度归一化Hessian矩阵的行列式最为度量。研究表明基于Hessian矩阵的检测算子比基于二阶动差矩的算子更稳定,特征点的重复率更高。由于Hessian矩阵可以产生更少的拉伸以及错误定位的结构,所以Hessian-Laplace特征检测算子在稳定性和速度上都略高于Harris-Laplace。(四)显著区域检测算子(The salient region detector)。2001年,Kadir,T.和Brady,M.提出了显著性区域检测算子。该算子计算以像素点为中心的圆形区域的灰度值的概率密度函数(Probability Density Function),然后利用香农熵来定义局部区域灰度值分布的复杂性,并将其作为显著性度量,选择香农熵极值点所对应的尺度作为特征尺度,并计算当前点特征尺度下的显著度。检测算子通过比较不同点的显著度,将其分为不同的等级,并选出最具有代表性的点作为特征点。
二、性能比较
上述几种检测算法都是典型的尺度不变特征检测算法,同时兼具旋转不变性,对于图像光照变化、背景噪声以及视角变化引起的仿射、透视变换均具有一定程度上的鲁棒性。然而由于不同的检测算子使用的尺度空间度量函数不同,所以具有不同的个性化表现。检测算法评估显示在尺度变化的情况下,Hessian-Laplace具有最高的点重复率和定位精度,Harris-Laplace以及DOG算法次之,但是DOG算法的运算速度是三者中最快的,是Hessian-Laplace的两倍,Harris-Laplace的十倍。Harris-Laplace以及Hessian-Laplace对于角点和高度纹理化的点最敏感,而DOG则更适合于处理结构化图像;显著区域检测算法在速度和定位精度上都相对较差,但是在物体分类识别领域中展现出优良的性能。
三、小结
尺度不变特征以其优良的鲁棒性成为当前特征匹配算法研究中的热点。其中,DOG算子适用于实时性要求较高的场合,Hessian-Laplace适用于对定位精度要求较严格的场合,Harris-Laplace适用于纹理图像,而显著区域检测算法适用于对实时性要求较低的物体分类识别领域。总的来说,目前尺度不变特征检测算子运算速度相对比较慢,满足不了景象匹配导航和制导等对实时性要求高的领域的要求,如何改进现有算法的,在不降低精度的情况下提高算法速度,或以精度的略微下降换取速度的较大提高,是目前检测算子研究的热点;同时寻找新的更简单局部特征(如图像的饱和度等),开发新的特征检测算子以及检测算子的硬件实现也是值得深入研究的方向。
参考文献:
[1]FaugerasO,Robert L.What can two images tell us about the third one[C].Proceedings of the Europe Conference on Computer Vision,1994
[2]Crowley J,Parker,A.A representation for shape based on peaks and ridges in the difference of low pass transform.IEEE Transactions on Pattern Analysis and Machine Intelligence,1984,6(2):156C170
[3]Lowe D.G.Object recognition from local scale-invariant features.In Proceedings of the 7th International Conference on Computer Vision,1999,1150C1157
[4]Lowe D.G..Distinctive Image Features from Scale-Invariant Keypoints,Int’l puter Vision,2004,60(2):91-110
[5]Krystian Mikolajczyk,Cordelia Schmid.Scale&Affine Invariant Interest Point Detectors.International Journal of Computer Vision.2004,60(1):63-86
关键词:视频拼接;跟踪定位;OPENCV
[基金资助]:全国大学生创新创业训练项目(2013XKCX210)广西高校科学技术研究项目:(2013YB092)
引言
随着安防向着智能化的进一步发展,越来越多的领域对传统意义上的视频监控提出了更多的要求。传统的监控摄像机多为固定摄像机,监控视野狭窄,而且运动目标容易超出监控视野范围,而不能对其连续跟踪,这也就导致了监控漏洞的出现。如果能够建立一种既能全局监控掌握整体情况,又能针对感兴趣目标进行跟踪特写的系统,就可以很好地解决全局监控与局部跟踪不可兼得的难题,因此提出了基于视频拼接的特写联动系统。
1 介绍OPENCV
OPENCV是一个开源的跨平台计算机视觉库,可以运行在Linux、Windows和Mac OS等多个操作系统上。它轻量级而且高效,由一系列 C 函数和少量 C++ 类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。
2 图像拼接
OPENCV提供的专门用于全景拼接的类Stitcher,该类可以对无序的任意张图片进行全景拼接,拼接效果如图2.1所示。
(a)
图2.1 Stitcher类的拼接效果
可以看出,效果是十分不错的。不过在时间的处理上,Stitcher封装的算法表现的并不令人满意,对两张320*240的JPG图像,花费了9968毫秒才完成了拼接。所以这个类也只适合用来做图片的拼接,想要在视频中做实时的拼接处理是不可能的。
3 视频拼接
Stitcher封装的算法,除了时间,其他各方面都令人满意。假如需要将其运用到视频拼接上,以每秒播放20帧为例,速度需要提高100多倍,光优化代码是不现实的。
不过经过对Stitcher类的详细了解,可以对拼接两张图片的条件进行总结,就是相机参数和img_mask图片。也就是说,不需要每一次都计算这两个东西,只需要提取视频的第一帧进行拼接,然后保存这两个参数,视频之后的所有帧直接用就行了。OPENCV提供了Stitcher所有的C源代码,对应的拼接算法封装在estimateTransform和composePanorama函数中。只需要将这两个函数融合成一个,将其中涉及到相机参数(代码中定义为cameras_)和img_mask图片(代码中定义为mask_warped)的变量转换成Stitcher类的变量,然后重新定义一个函数,将composePanorama尾部的图片融入代码复制出来就行了。代码修改后,同样是320*240的两张图片,耗时157毫秒。这样视频拼接的功能就可以用Stitcher类来实现了。
4 跟踪定位
对图像场景中的物体进行跟踪,首先需要知道物体是否是活动的。假如物体一直处于不运动的状态,那么这种情况应该属于图像识别的范畴。如果物体运动,必将产生位移,也就是相对于上一帧发生了像素偏差,然而,图像背景并没有移动。这样一来跟踪算法显而易见。
首先需要记录第一帧的图像数据,然后记录第二帧的图像数据,两帧数据图像做对比,定义如下计算公式:
其中,x,y分别是像素的坐标,threshold是阈值。一般来说,阈值为零,表示像素没有发生位移。不过在实际情况下,考虑到光线和天气的影响,像素会在人眼分辨不出来的情况下发生变化,所以阈值就不同的场景而定。图片的运算结果如图4.1所示,考虑到实际情况,需要对结果进行滤波处理,之后进行像素膨胀处理,这两个步骤主要是将图像中有明显位置移动的物体保留下来,过滤掉因光照、天气产生的噪声。为了达到更好的效果,也可以加入对时间的判断,具体算法可以参见Gary Bradski和Adrian kaebler的learning Opencv[5]的第九章。
5 实验结果及分析
实验结果基本上每个小章节的结尾都已经给出,以下给出系统整体运行的结果。本文选用三个校园取景的视频作为实验视频,采用VS2008编译器,搭建OPENCV2.2.4的环境,运行系统为WINDOWS XP,运行效果如图5.1所示,时间耗费如表5.2所示。
图5.1 拼接及跟踪的结果
实验采用两个480*360大小的avi视频,实时拼接耗时360毫秒,加上跟踪算法总共消耗386毫秒。实际应用中。从源代码分析,主要消耗时间的过程有:图片的重新投影(代码中定义为warp),耗时109毫秒。投影后的图片与各自的二值图像标记混合(代码中定义为feed),耗时32毫秒。所有图像融合(代码中定义为blend),耗时47秒。其中wrap和feed执行了多次,blend执行一次。
6 总结
本文对视频拼接的特写联动系统的实现进行了详细的介绍。主要通过优化OPENCV图像处理库来编写系统程序代码,通过优化Stitcher类算法,从而实现所需的特定功能。融合了跟踪算法,有效解决了跨场景跟踪的难题,有一定的实用性和研究价值。
参考文献
[1] MATTHEW BROWN* AND DAVID G LOWE. Automatic Panoramic Image Stitching using Invariant Festures, December 2006
[2] 王小强,陈临强,梁旭. 实时全自动视频拼接方法, 2011
[3] David G. Lowe. Distanctive Image Festure from Scale-Invariant Keypoints, 2004
[4] Bill Triggs,Philip McLauchlan,Richard Hartley. Bundle Adjustment A modern Synthesis, 2000