前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的计算机立体视觉技术主题范文,仅供参考,欢迎阅读并收藏。
关键词:双目视觉;匹配算法;计算机视觉;立体匹配;相位一致性
1.计算机视觉系统分析研究
1.1计算机视觉技术及双目立体视觉
计算机视觉是通过计算机技术实现对视觉信息处理的整个过程,是一门新的学科。视觉是人们认知事物的重要途径,视觉是人们对视觉信息获取、处理和存储的过程。随着计算机技术的发展,信号处理技术的应用,人们通过照相机来把实际的事物拍摄下来转变为数字信息,并通过计算机信号处理技术队获取的视觉信号进行处理。计算机视觉技术对图像的处理分为获取图像、特征抽象选取、事物识别及分类和对三维信息的理解。获取图像主要是通过摄像机和红外线等技术对周围视觉事物进行获取,并通过计算得到和真实事物相应的二维图像,二维图像主要是数字图像。计算机视觉系统的最基本的功能是数字图像的获取。可以看出计算机视觉研究最基本内容是三维场景距离信息的获取。在计算机被动测量距离方法中,有一种重要的距离感知技术叫作双目立体视觉。双目立体视觉技术是其他计算机视觉技术无法取代的一种技术,对双目立体视觉技术的研究在计算机视觉技术和工程应用方面都是非常重要的。
1.2计算机视觉理论框架
第一个视觉系统理论框架的提出是以信息处理为基础,综合了图像处理和神经生理学等研究内容而建立的。这个视觉系统理论框架是计算机视觉系统的基本框架,与计算机视觉技术有着密切的关系。视觉系统的研究是以信息处理为基础的,从理论层次、算法层次和硬件层次3个层次进行研究。计算机理论层次主要是表达系统各个部分计算的目的和方法,对视觉系统的输入和输出进行规定,输入作为二维图像,输出是以二维图像为基础建立起来的三维物体,视觉系统的目的就是对三维物体进行分析和识别,通过计算对二维物置和形状进行重新建立。算法层次对计算机规定的目标进行计算,算法和计算机表达有关,不同的表达可以通过不同的算法进行实现,在计算机理论的层次上,算法和表达比计算机理论的层次要低。硬件层次是通过硬件来实现算法的一种表达方法。计算机理论层次在计算机信息处理中时最高的层次,取决于计算机的本质是解决计算机的自身问题,不是取决于计算问题的计算机硬件。要更好地对计算机系统和框架进行理解最好的方法就是要区分3个不同的层次,计算机理论的含义和主要解决的问题是计算机的目的,表达算法含义和主要解决的问题是实现计算理论的方法和输入输出的表达,硬件的实现的含义和主要解决的问题是如何在物理上对表达和算法进行实现。计算机视觉处理的可以分为3个阶段,对视觉信息的处理过程从最初的二维图像的原始数据,到三维环境的表达。第一阶段基元图的构成,基元图是用来表示二维图像中的重要信息,主要是图像中亮度变化位置及其几何分布和组织结构,图像中每点的亮度值包括零交叉、斑点、端点和不连续点、边缘等。第二阶段2.5维图描述,在以观测者为中心的坐标中,表示可见表面的方向、深度值和不连续的轮廓,基元是局部表面朝向离观测者的距离深度上的不连续点表面朝向的不连续点。第三阶段三维模型表示,在以物体为中心的坐标系中,有由体积单元和面积单元构成的模块化多层次表示,描述形状及其空间组织形式,分层次组成若干三维模型,每个三维模型都是在几个轴线空间的基础上构成的,所有体积单元或面积形状基元都附着在轴线上。视觉理论框架图如图1所示。
2.基于计算机的视觉立体匹配算法研究
视觉立体匹配算法是基于人类视觉系统的一种计算机算法。立体匹配算法作为计算机立体视觉问题研究的重点,快速地实现图像对应点的匹配来获得视差图是当今研究的热点问题。立体视觉匹配算法根据基元匹配的不同可以分为相位匹配、区域匹配和特征匹配3种,其中区域匹配算法可以减少计算负担,区域匹配算法实时性高,应用前景广阔。计算机立体视觉通过对人的双眼进行模仿,在双眼的立体感知中获得信息,从摄像机拍摄的图像中获取物体的三维深度信息,这就是深度图的获取,把深度图经过处理得到三维空间信息数据,二维图像到三维空间实现转换。深度的获取在双目立体成像视觉系统中分为两步,首先在双目立体图像与图像之间建立点对点的对象关系,双目立体视觉算法研究的重点问题是解决对应点之间的匹配问题。其次以对应点之间的视差为依据对深度值进行计算。双目成像是获取同一场景中两幅不同的图像,两个单目成像模型构成一个双目成像模型。双目成像示意图如图2所示。系统的基线B是两个镜头中心的连接线,空间点w(z,y,z)作为世界坐标的值由(x1,y1)与(x2,y2)进行确定,如果摄像机的坐标位置和空间点w世界坐标的位置重合,图像平面和世界坐标轴xY的平面就是平行的。如果两个摄像机在坐标系统中的原点不同但是它们的光轴平行,那么双目成像计算人们可以看图3所示,图3表示的是两个摄像头连线在平台xY的示意。
立体视觉的成像过程是成像的逆过程,具有一定的不确定性。大量的数据信息在从三维影像向二维图像进行投影的过程会出现丢失的现象,所以视觉系统要通过自然的约束条件才能保证获取正确的解。这些约束条件在减少匹配的计算量方面可以提供有利的帮助。针对基于区域匹配快速算法,还可以应用基于视差梯度的匹配算法,这种匹配算法应用较大的搜索范围在边缘的特征点上进行搜索,采用视差梯度在非边缘区减少搜索范围。应用计算机视觉立体匹配算法可以减少成像匹配时间,大大提高了工作效率。计算机立体匹配算法征点的提取是算法的关键问题,今后的研究方向重点是对有效特征点提取方法的研究。
关键词:双目立体视觉计算机视觉立体匹配摄像机标定特征提取
双目立体视觉是计算机视觉的一个重要分支,即由不同位置的两台或者一台摄像机(CCD)经过移动或旋转拍摄同一幅场景,通过计算空间点在两幅国像中的视差,获得该点的三维坐标值。80年代美国麻省理工学院人工智能实验室的Marr提出了一种视觉计算理论并应用在双睛匹配上,使两张有视差的平面图产生在深度的立体图形,奠定了双目立体视觉发展理论基础。相比其他类的体视方法,如透镜板三维成像、投影式三维显示、全息照相术等,双目本视直接模拟人类双眼处理景物的方式,可靠简便,在许多领域均极具应用价值,如微操作系统的位姿检测与控制、机器人导航与航测、三维测量学及虚拟现实等。
1双目体视的技术特点
双目标视技术的实现可分为以下步骤:图像获取、摄像机标定、特征提取、图像匹配和三维重建,下面依次介绍各个步骤的实现方法和技术特点。
1.1图像获取
双目体视的图像获取是由不同位置的两台或者一台摄像机(CCD)经过移动或旋转拍摄同一幅场景,获取立体图像对。其针孔模型如图1。假定摄像机C1与C2的角距和内部参数都相等,两摄像机的光轴互相平行,二维成像平面X1O1Y1和X2O2Y2重合,P1与P2分别是空间点P在C1与C2上的成像点。但一般情况下,针孔模型两个摄像机的内部参数不可能完成相同,摄像机安装时无法看到光轴和成像平面,故实际中难以应用。
上海交大在理论上对会摄式双目体视系统的测量精度与系统结构参数之间的关系作了详尽分析,并通过试验指出,对某一特定点进行三角测量。该点测量误差与两CCD光轴夹角是一复杂的函数关系;若两摄像头光轴夹角一定,则被测坐标与摄像头坐标系之间距离越大,测量得到点距离的误差就越大。在满足测量范围的前提下,应选择两CCD之间夹角在50℃~80℃之间。
1.2摄像机的标定
对双目体视而言,CCD摄像机、数码相机是利用计算机技术对物理世界进行重建前的基本测量工具,对它们的标定是实现立体视觉基本而又关键的一步。通常先采用单摄像机的标定方法,分别得到两个摄像机的内、外参数;再通过同一世界坐标中的一组定标点来建立两个摄像机之间的位置关系。目前常用的单摄像机标定方法主要有:
(1)摄影测量学的传统设备标定法。利用至少17个参数描述摄像机与三维物体空间的结束关系,计算量非常大。
(2)直接线性变换性。涉及的参数少、便于计算。
(3)透视变换短阵法。从透视变换的角度来建立摄像机的成像模型,无需初始值,可进行实时计算。
(4)相机标定的两步法。首先采用透视短阵变换的方法求解线性系统的摄像机参数,再以求得的参数为初始值,考虑畸变因素,利用最优化方法求得非线性解,标定精度较高。
(5)双平面标定法。
在双摄像机标定中,需要精确的外部参数。由于结构配置很难准确,两个摄像机的距离和视角受到限制,一般都需要至少6个以上(建议取10个以上)的已知世界坐标点,才能得到比较满意的参数矩阵,所以实际测量过程不但复杂,而且效果并不一定理想,大大地限制了其应用范围。此外双摄像机标定还需考虑镜头的非线性校正、测量范围和精度的问题,目前户外的应用还有少。
上海大学通信与信息工程学院提出了基于神经网络的双目立体视觉摄像机标定方法。首先对摄像机进行线性标定,然后通过网络训练建立起三维空间点位置补偿的多层前馈神经网络模型。此方法对双目立体视觉摄像机的标定具有较好的通用性,但是精确测量控制点的世界坐标和图像坐标是一项严格的工作。因此神经网络中训练样本集的获得非常困难。
1.3特征点提取
立体像对中需要撮的特征点应满足以下要求:与传感器类型及抽取特征所用技术等相适应;具有足够的鲁棒性和一致性。需要说明的是:在进行特征点像的坐标提取前,需对获取的图像进行预处理。因为在图像获取过程中,存在一系列的噪声源,通过此处理可显著改进图像质量,使图像征点更加突出。
1.4立体匹配
立体匹配是双目体视中最关系、困难的一步。与普通的图像配准不同,立体像对之间的差异是由摄像时观察点的不同引起的,而不是由其它如景物本身的变化、运动所引起的。根据匹配基元的不同,立体匹配可分为区域匹配、特征匹配和相位匹配三大类。
区域匹配算法的实质是利用局部窗口之间灰度信息的相关程度,它在变化平缓且细节丰富的地方可以达到较高的精度。但该算法的匹配窗大小难以选择,通常借助于窗口形状技术来改善视差不连续处的匹配;其次是计算量大、速度慢,采取由粗至精分级匹配策略能大大减少搜索空间的大小,与匹配窗大小无关的互相关运算能显著提高运算速度。
特片匹配不直接依赖于灰度,具有较强的抗干扰性,计算量小,速度快。但也同样存一些不足:特征在图像中的稀疏性决定特征匹配只能得到稀疏的视差场;特征的撮和定位过程直接影响匹配结果的精确度。改善办法是将特征匹配的鲁棒性和区域匹配的致密性充分结合,利用对高频噪声不敏感的模型来提取和定位特征。
相位匹配是近二十年才发展起来的一类匹配算法。相位作为匹配基元,本身反映信号的结构信息,对图像的高频噪声有很好的抑制作用,适于并行处理,能获得亚像素级精度的致密视差。但存在相位奇点和相位卷绕的问题,需加入自适应滤波器解决。
1.5三维重建
在得到空间任一点在两个图像中的对应坐标和两摄像机参数矩阵的条件下,即可进行空间点的重建。通过建立以该点的世界坐标为未知数的4个线性方程,可以用最小二乘法求解得该点的世界坐标。实际重建通常采用外极线结束法。空间眯、两摄像机的光心这三点组成的平面分别与两个成像平面的交线称为该空间点在这两个成像平面中的极线。一旦两摄像机的内外参数确定,就可通过两个成像平面上的极线的约束关系建立对应点之间的关系,并由此联立方程,求得图像点的世界坐标值。对图像的全像素的三维重建目前仅能针对某一具体目标,计算量大且效果不明显。
2双目体视的最新应用
2.1国外研究动态
双目体视目前主要应用于四个领域:机器人导航、微操作系统的参数检测、三维测量和虚拟现实。
日本大阪大学自适应机械系统研究院研制了一种自适应双目视觉伺服系统,利用双目体视的原理,如每幅图像中相对静止的三个标志为参考,实时计算目标图像的雅可比短阵,从而预测出目标下一步运动方向,实现了对动方式未知的目标的自适应跟踪。该系统仅要求两幅图像中都有静止的参考标志,无需摄像机参数。而传统的视觉跟踪伺服系统需事先知道摄像机的运动、光学等参数和目标的运动方式。
日本奈良科技大学信息科学学院提出了一种基于双目立体视觉的增强现实系统(AR)注册方法,通过动态修正特征点的位置提高注册精度。该系统将单摄像机注册(MR)与立体视觉注册(SR)相结合,利用MR和三个标志点算出特征点在每个图像上的二维坐标和误差,利用SR和图像对计算出特征点的三维位置总误差,反复修正特征点在图像对上的二维坐标,直至三维总误差小于某个阈值。该方法比仅使用MR或SR方法大大提高了AR系统注册深度和精度。实验结果如图2,白板上三角开的三顶点被作为单摄像机标定的特征点,三个三角形上的模型为虚拟场景,乌龟是真实场景,可见基本上难以区分出虚拟场景(恐龙)和现实场景(乌龟)。
日本东京大学将实时双目立体视觉和机器人整体姿态信息集成,开发了仿真机器人动态行长导航系统。该系统实现分两个步骤:首先,利用平面分割算法分离所拍摄图像对中的地面与障碍物,再结合机器人身体姿态的信息,将图像从摄像机的二维平面坐标系转换到描述躯体姿态的世界坐标系,建立机器人周围区域的地图;基次根据实时建立的地图进行障碍物检测,从而确定机器人的行走方向。
日本冈山大学使用立体显微镜、两个CCD摄像头、微操作器等研制了使用立体显微镜控制微操作器的视觉反馈系统,用于对细胞进行操作,对钟子进行基因注射和微装配等。
麻省理工学院计算机系统提出了一种新的用于智能交通工具的传感器融合方式,由雷达系统提供目标深度的大致范围,利用双目立体视觉提供粗略的目标深度信息,结合改进的图像分割算法,能够在高速环境下对视频图像中的目标位置进行分割,而传统的目标分割算法难以在高速实时环境中得到令人满意的结果,系统框图如图3。
华盛顿大学与微软公司合作为火星卫星“探测者”号研制了宽基线立体视觉系统,使“探测者”号能够在火星上对其即将跨越的几千米内的地形进行精确的定位玫导航。系统使用同一个摄像机在“探测者”的不同位置上拍摄图像对,拍摄间距越大,基线越宽,能观测到越远的地貌。系统采用非线性优化得到两次拍摄图像时摄像机的相对准确的位置,利用鲁棒性强的最大似然概率法结合高效的立体搜索进行图像匹配,得到亚像素精度的视差,并根据此视差计算图像对中各点的三维坐标。相比传统的体视系统,能够更精确地绘制“探测者”号周围的地貌和以更高的精度观测到更远的地形。
2.2国内研究动态
浙江大学机械系统完全利用透视成像原理,采用双目体视方法实现了对多自由度机械装置的动态、精确位姿检测,仅需从两幅对应图像中抽取必要的特征点的三维坐标,信息量少,处理速度快,尤其适于动态情况。与手眼系统相比,被测物的运动对摄像机没有影响,且不需知道被测物的运动先验知识和限制条件,有利于提高检测精度。
东南大学电子工程系基于双目立体视觉,提出了一种灰度相关多峰值视差绝对值极小化立体匹配新方法,可对三维不规则物体(偏转线圈)的三维空间坐标进行非接触精密测量。
哈工大采用异构双目活动视觉系统实现了全自主足球机器人导航。将一个固定摄像机和一个可以水平旋转的摄像机,分别安装在机器人的顶部和中下部,可以同时监视不同方位视点,体现出比人类视觉优越的一面。通过合理的资源分配及协调机制,使机器人在视野范围、测跟精度及处理速度方面达到最佳匹配。双目协调技术可使机器人同时捕捉多个有效目标,观测相遇目标时通过数据融合,也可提高测量精度。在实际比赛中其他传感器失效的情况下,仅仅依靠双目协调仍然可以实现全自主足球机器人导航。
火星863计划课题“人体三维尺寸的非接触测量”,采用“双视点投影光栅三维测量”原理,由双摄像机获取图像对,通过计算机进行图像数据处理,不仅可以获取服装设计所需的特征尺寸,还可根据需要获取人体图像上任意一点的三维坐标。该系统已通过中国人民总后勤部军需部鉴定。可达到的技术指标为:数据采集时间小于5s/人;提供身高、胸围、腰围、臀围等围度的测量精度不低于1.0cm。
3双目体视的发展方向
就又目立体视觉技术的发展现状而言,要构造出类似于人眼的通用双目立体视觉系统,还有很长的路要走,进一步的研究方向可归纳如下:
(1)如何建立更有效的双目体视模型,能更充分地反映立体视觉不确定性的本质属性,为匹配提供更多的约束信息,降低立体匹配的难度。
(2)探索新的适用于全面立体视觉的计算理论和匹配策略,选择有效的匹配准则和算法结构,以解决存在灰度失真、几何畸变(透视、旋转、缩放等)、噪声干扰、特殊结构(平坦匹域、重复相似结构等)及遮掩景物的匹配问题;
(3)算法向并行化发展,提高速度,减少运算量,增强系统的实用性。
关键词:双目立体视觉;立体匹配;光流
中图分类号:TP391.41 文献标识码:A 文章编号:1674-7712 (2013) 20-0000-02
一、引言
双目立体视觉在机器人导航、微操作系统的参数检测、三维测量和虚拟现实等领域都有广泛的应用,它是计算机视觉的一个重要分支。它主要是由不同位置的左右两个摄像机同时获得同一场景的两幅图,通过计算空间点在两幅图像中的视差,获得该点的三维信息。立体匹配算法的目的就是找出左右图像对中的匹配点,进而获得距离信息,其基本原理就是从两个视点同时观察同一景物以获取立体像对,并匹配出相应像点,从而计算出视差并获得三维信息。
考虑到光流这种运动速度,不仅包含了二维瞬时速度场,还可以反映可见点的三维速度矢量在成像表面得投影,提出了一种融合光流的立体匹配算法。该方法在基于区域相关匹配的基础上,求取左右运动目标的光流,用光流作为一种外加限制条件进行立体匹配。首先分别求取左右图像序列中垂直和水平方向上的光流,然后通过对右图像序列中候选点的光流的计算与左图像序列中的种子点进行匹配,进而提高了匹配的精度和准确度;而且该算法只选用边缘点进行匹配,这样简化了运算,提高了算法的运行速度。
二、求取光流
三、实验
图1显示了在连续时间帧里获得的两对立体图像对,图2显示了在50帧时边缘检测结果。然后用这两幅图像中的边缘点作为种子点在第二个立体图像对(也就是下一帧)中寻找相关点,这样就可以在连续的图像序列中进行相关性研究。图3中给出了光流的计算,把每个边缘点的光流都分解为水平(X)和垂直(Y)方向的位移,其中(a),(b)图显示了左右图像的水平位移,而(c),(d)显示了垂直位移。
采用融入光流的匹配方法,不仅测量了互相关系数,还测量了待估计的两点水平及垂直位移,这样就可以避免光照和摄像机本身移动的问题。视差图反应的是目标离摄像机的远近,离摄像机越近,视差越大,表现在灰度图中越亮,反之,离摄像机越远,视差越小,表现在灰度图中越暗。图4中的(a),(b)分别为没有融合光流和融合光流之后的视差图,从图中可以明显的发现,没有融合的视差图中有很多地方出现误匹配,而融合光流之后的视差图更为清晰,消除了伪匹配点。
四、总结
本文通过对传统匹配算法的分析,提出了一种融合光流的立体匹配算法,该算法是在区域相关立体匹配的基础上附加上了光流作为限制条件,使得匹配更为准确迅速。实验结果表明了该算法的有效性,不仅缩小了匹配搜索空间,提高了匹配的速度与准确度,而且可以有效的克服光照等外部环境的干扰,消除误匹配点。
参考文献:
[1]刘金颂.双目立体视觉中的摄像机标定技术研究[J].计算机工程与应用,2008,44(6).
[2]梁元月.基于双目立体视觉的工件识别定位方法研究[D].西安理工大学,2008.
[3]白明,庄严,王伟.双目立体匹配算法研究与进展[J].控制与决策,2008.
关键词:手势识别;3D视觉;DSP
DOI: 10.3969/j.issn.1005-5517.2012.9.003
随着触摸屏技术的不断推广,用户已经适应并逐渐熟悉了与机器的互动。现在,人机互动技术已迈上了更高的台阶,进入了手势识别时代,不过这也并不是一帆风顺的。手势识别现已在娱乐及游戏市场出现,然而这种技术将对我们的日常生活产生怎样的影响呢?不妨假想一下,有人坐在沙发上,只需一挥手就能操控灯光和电视,或者汽车自动检测附近是否有行人。随着手势识别技术支持人机互动的不断深入发展,这些及其它功能将很快得以实现。手势识别技术长期以来一直采用 2D 视觉进行研究,但随着 3D 传感器技术的出现,其应用将日益广泛并多样化。
2D视觉的局限
计算机视觉技术一直在努力向堪比人类智慧的智能方向发展,以更好地了解场景。如果不能解释周围的世界,计算机就无法与人实现自然交流对接。计算机在了解周围场景方面面临的主要问题包括细分、对象表征、机器学习与识别等。由于 2D 场景表征本身存在局限性,手势识别系统必须应用其它各种提示信息才能得到包含更有用信息的更好结果。在可能性信息包含整个身体跟踪时,尽管将多种提示信息整合在一起,单靠 2D 表征也很难获得超越手势识别的任何信息。
“z”(深度)创新
向 3D 视觉及手势识别发展过程中的挑战一直都是第三坐标 —z 轴坐标的获取。人眼能看到 3D 对象,能自然识别 (x,y,z) 坐标轴,从而能够看到一切事物,而后大脑能够以 3D 影像的形式表达这些坐标轴。机器无法获得 3D 视觉的一大挑战就在于影像分析技术。目前有 3 种应对 3D 采集问题的常见解决方案,每种方案都有其独特的功能与特定的用途。这三种方案分别为:立体视觉、结构光模式以及渡越时间 (TOF)。有了这些技术提供的 3D 影像输出,就可实现手势识别技术。
立体视觉
立体视觉系统可能是最为人所熟知的 3D 采集系统。该系统使用 2 个摄像机获得左右立体影像,该影像有些轻微偏移,与人眼同序。计算机通过比较这两个影像,就可获得对应于影像中物移的不同影像。该不同影像或地图可以是彩色的,也可以为灰阶,具体取决于特定系统的需求。立体视觉系统目前通常用于 3D 电影,能带来低成本而又震撼人心的娱乐体验。
结构光模式
结构光模式可用来测量或扫描3D 对象。在该类系统中,可在整个对象上照射结构光模式,光模式可使用激光照明干扰创建,也可使用投影影像创建。使用类似于立体视觉系统的摄像机,有助于结构光模式系统获得对象的 3D 坐标。此外,单个 2D 摄像机系统也可用来测量任何单条的移位,然后通过软件分析获得坐标。无论使用什么系统,都可使用坐标来创建对象外形的数字 3D 图形。
渡越时间 (TOF)
渡越时间 (TOF) 传感器是一种相对较新的深度信息系统。TOF 系统是一种光雷达 (LIDAR) 系统,同样可从发射极向对象发射光脉冲。接收器则可通过计算光脉冲从发射器到对象,再以像素格式返回到接收器的运行时间来确定被测量对象的距离。
TOF 系统不是扫描仪,因为其不支持点对点测量。TOF 系统可同时获得整个场景,确定 3D 范围影像。利用测量得到的对象坐标可创建 3D 影像,并可用于机器人、制造、医疗技术以及数码摄影等领域的设备控制。
实施 TOF 系统所需的半导体器件现已开始供货。目前的器件支持实现 TOF 系统所需的处理性能、速度与带宽。
3D 视觉技术的比较
不同的应用或市场适用于不同的3D 视觉技术。图 1 显示了不同 3D 视觉技术的比较及其相关响应时间、软件复杂性、成本及准确性的相对优缺点。
立体视觉技术需要极高的软件复杂性才能获得高精度3D 深度数据,其通常可通过数字信号处理器(DSP) 或多内核标量处理器进行处理。立体视觉系统支持小巧的外形与低成本,是移动电话等消费类设备的良好选择。不过,立体视觉系统的精确度与响应时间不及其它技术,因此对于制造质量控制系统等要求高精度的系统来说不太理想。
结构光技术是包括 3D 计算机辅助设计 (CAD) 系统在内的 3D 对象扫描的良好解决方案。这些系统的相关软件复杂性可通过硬接线逻辑解决(如 ASIC 与 FPGA 等),其需要高昂的开发及材料成本。此外,该计算复杂性还可导致较慢的响应时间。在实现微观层面上的高精度方面,结构光模式技术优于其它 3D 视觉技术。
TOF 系统取得了性能与成本的平衡,非常适用于需要快速响应时间的制造与消费类电子设备等应用领域的设备控制。TOF 系统软件复杂程度通常较低,不过这些系统需要昂贵的照明部件(LED、激光二极管)以及高速接口相关部件(快速 ADC、快速串行/并行接口、快速 PWM 驱动器),这将提升材料成本。图 1 显示了这三种 3D 传感器技术的对比情况。
图1 3D 视觉技术对比
“z”(深度)如何影响人机界面
随着“z”坐标的加入,显示与影像更接近自然,更贴近人类。人们在显示屏上能看到人眼从周边环境所看到的逼真事物。增加这第三维坐标改变了可使用的显示与应用类型。
显示
立体显示屏
立体显示屏通常需要用户佩戴3D 眼镜。这种显示屏为左右眼提供不同的影像,两眼看到的影像不同,让大脑误以为看到了 3D 影像。这种显示屏目前广泛用于众多 3D 电视与3D 电影院。
多视点显示屏
多视点显视屏不同于立体显示屏,无需佩戴特殊眼镜。这些显示屏可同时投射多个影像,每个影像稍微有些位移,形成适当的角度,让用户可在每个视点角度看到相同对象的不同投射影像。这些显示屏支持全息摄影效果,在不久的将来将实现全新的3D 体验。
检测与应用
处理并显示“z”坐标的功能将实现全新的应用,其中包括游戏、制造控制、安全、互动数字标牌、远程医疗、汽车以及机器人视觉等。图 2是身体骨架与深度映射传感技术所支持的某些应用领域视图。
人类手势识别(消费类)
人类手势识别是一项深受欢迎的新技术,可为游戏、消费类以及移动产品带来新的输入方式。用户能够以极其自然、直观的方法与设备进行互动,从而可促进产品推广。这些人类手势识别产品包括从 160 x 120 像素到640 x 480 像素,30 到60 fps 的各种分辨率的3D 数据。原始数据到z深度解析、双手跟踪以及全身跟踪等软件模块需要数字信号处理器 (DSP)对 3D 数据进行高效快速处理,才能实现实时游戏与跟踪。
工业
工业与制造传感器等大多数 3D视觉工业应用都采用至少 1 像素至数100k 像素的影像系统。3D 影像可使用 DSP 技术进行控制分析,确定制造瑕疵或者从部件集中选择正确的部件。
互动数字标牌(精确定位的市场营销工具)
每天我们都在遭受广告的轰炸,无论是看电视、开车还是在机场登机都是如此。有了互动数字标牌,企业就可通过精确定位的市场营销工具提供适合每位消费者的内容。例如,有人走过一个数字标牌,标牌上可能就会马上显示额外的消息确认该客户。如果客户停下来阅读信息,该标牌可能会理解为客户对产品感兴趣,并提供更有针对性的消息。麦克风则将让广告牌检测并识别关键短语,进一步精确定位所提供的消息。
这些互动数字标牌系统将需要3D 传感器进行全面的身体跟踪,2D传感器进行面部识别,并需要麦克风进行语音识别。这些系统的软件将运行在更高级的 DSP 及通用处理器(GPP) 上,不但可实现面部识别、全面的身体跟踪以及 Flash 媒体播放器等应用,而且还可提供诸如 MPEG4视频解码等功能。
医疗(无故障虚拟/远程护理)
3D 视觉将为医疗领域带来前所未有的全新应用。医生无需跟患者共处一室就可问诊。远程虚拟护理采用高精度 3D 传感器支持的医学机器人视觉系统,可确保为每一位患者提供最优质的医疗护理,无论他们身处何方。
汽车(安全)
近期,汽车应用在交通信号、车道以及障碍检测方面使用 2D 传感器技术取得了长足发展。随着 3D 传感技术的到来,3D 传感器的“z”数据将大幅提升场景分析的可靠性。汽车通过使用 3D 视觉系统,现已有了预防事故的新途径,无论白天还是夜间都非常适用。采用 3D 传感器,车辆能可靠检测并解读周边环境,确定对象是否对车辆及车内乘客构成安全威胁。这些系统要求软硬件支持 3D 视觉系统,并需要密集型 DSP 及 GPP处理性能在极短时间内解读 3D 图形,避免事故。
视频会议
视觉会议技术经过多年发展,已经从间断脱节传输影像发展成当前的高清系统。未来增强型视频会议将充分发挥 3D 传感器的优势,提供更真实、更具互动性的视频会议体验。该增强型视频会议系统具有集成型2D 传感器以及 3D 传感器及麦克风组合,将能够与其它增强型系统连接,实现高质量的视频处理、面部识别、3D 影像、噪声消除以及内容播放器(Flash 等)等应用。随着这种密集型音视频处理需求的出现,需要具备最佳性能及外设组合的 DSP。
图2 3D 视觉正在为各个市场带来全新的应用
图3 2D 与 3D 摄像机系统的数据路径
技术处理步骤
对许多应用而言,需要同时具备 2D 和 3D 摄像机系统才能充分实现应用技术。图 3 显示了这些系统的基本数据路径。从传感器获取数据,然后进行视觉分析,这并不像数据路径示意图看上去那么简单。具体而言,TOF 传感器需要的带宽相当于 2D 传感器的 16 倍之多,这可导致高输入/输出 (I/O) 问题。另一个瓶颈则存在于原始 3D 数据向 3D 点云转换的处理过程中。通过正确的软硬件组合解决这些问题,对于手势识别及 3D 的成功应用至关重要。当前数据路径可通过 DSP/GPP 处理器组合加上分立式模拟组件及软件库实现。
3D 视觉嵌入式系统的挑战
输入挑战
如前所述,输入带宽限制对 3D视觉嵌入式系统提出了极大的挑战。此外,输入接口也没有标准化。设计人员可为 2D 传感器与通用外部存储器接口选择采用不同的输入选项,其中包括串行与并行接口。在支持最佳带宽的标准输入接口出现之前,设计人员只能使用现有的接口。
两种不同的处理器架构
图 3 所示的 3D 深度映射处理可分为两类:一是以数据为中心的视觉专用处理,二是应用上层处理。以数据为中心的视觉专用处理需要处理器架构能够执行单指令多数据 (SIMD) 快速浮点乘法及加法运算,以及快速搜索算法。DSP 是快速可靠执行这种处理功能的完美选择。对于应用上层处理而言,高级操作系统 (OS) 及协议栈则可提供任何应用上层所需的必要特性集。
根据两种处理器架构要求,提供高数据速率 I/O GPP+DSP+SIMD 处理器的片上系统 (SOC) 非常适合 3D 视觉处理,其可支持必要的数据及应用上层处理。
缺乏标准中间件
3D 视觉处理领域的中间件是多种来源的众多不同组件的整合,包括开源(如 OpenCV)与专有商业源等。商业库主要针对身体跟踪应用,这是一种特定的 3D 视觉应用。目前尚未开发出针对所有不同 3D 视觉应用标准化的中间件接口。
“z”(深度)之后会有什么精彩?
关键词:虚拟现实技术 虚拟环境 计算机发展 新型计算机
计算机技术的不断发展与应用方面的不断提高使得虚拟现实技术也相应同步地快速发展。尤其是计算机的发展将趋向超高速、超小型、平行处理和智能化,量子、光子、分子和纳米计算机将具有感知、思考、判断、学习及一定的自然语言能力,使计算机进入人工智能时代。这种新型计算机将推动新一轮计算技术革命,更加带动虚拟现实技术的快速发展,对人类社会的发展产生深远的影响。
1 虚拟现实技术概述
虚拟现实(Virtual Reality,简称VR)是近年来出现的高新技术,也称灵境技术或人工环境。该技术集成了计算机图形(CG)技术、计算机仿真技术、人工智能、传感技术、显示技术、网络并行处理等技术的最新发展成果,是一种由计算机技术辅助生成的高技术模拟系统。
虚拟现实技术的发展与应用离不开计算机技术的发展,两者是相辅相成的关系,如果要正确认识和剖析并把握虚拟现实技术的应用与发展,就必须深入研究计算机技术的变化与发展趋势,这样才能有利于我们未来更好的掌握与应用虚拟现实技术。
2 计算机技术在虚拟现实技术的应用
自从1944年世界上第一台电子计算机诞生以来,计算机技术迅猛发展,传统计算机的性能受到挑战,开始从基本原理上寻找计算机发展的突破口,新型计算机的研发应运而生,计算机技术的发展将趋向超高速、超小型、并行处理和智能化。专家预计虚拟现实技术也会因此得到迅速发展。尤其是三维计算机图形学技术、采用多种功能传感器的交互式接口技术和高清晰度显示技术在虚拟现实的应用中起着重要作用。此外,智能化的超级计算机和新型高性能计算机不断发展。这会更有利于虚拟现实技术方面的快速发展。虚拟现实技术通过计算机对复杂数据进行可视化操作以及实时交互的环境。与传统的计算机人-机界面(如键盘、鼠标器、图形用户界面以及流行的Windows等)相比,虚拟现实无论在技术上还是思想上都有质的飞跃。
3 虚拟现实系统的技术特点
3.1 虚拟现实有效地建立虚拟环境主要集中在两个方面,一是虚拟环境能够精确表示物体的状态模型,二是环境的可视化及渲染。
3.2 虚拟现实仅是计算机系统设置的一个近似客观存在的环境,它是硬件、软件和设备的有机组合。
3.3 用户可通过自身的技能以6个自由度在这个仿真环境里进行交互操作。
3.4 虚拟现实的关键是传感技术。
3.5 虚拟现实离不开视觉和听觉的新型可感知动态数据库技术,并需结合高速的动态数据库检索技术。
3.6 虚拟现实不仅是计算机图形学或计算机成像生成的一幅画面,更重要的是人们可以通过计算机和各种人机界面与机交互,并在精神感觉上进入环境。它需要结合人工智能,模糊逻辑和神经元技术。
4 虚拟现实硬件设备与软件技术和计算机技术的融合
在虚拟现实系统中,硬件设备主要由3个部分组成:输入设备、输出设备、虚拟世界生成设备。此外系统还需要虚拟现实的相关技术。
4.1 虚拟现实的输入设备。有关虚拟现实系统的输入设备主要分为两大类:一类是基于自然的交互设备,用于对虚拟世界信息的输入;另一类是三维定位跟踪设备,主要用于对输入设备在三维空间中的位置进行判定,并送入虚拟现实系统中。虚拟世界与人进行自然交互的实现形式很多,有基于语音的、基于手的等多种形式,如数据手套、数据衣、三维控制器、三维扫描仪等。手是我们与外界进行物理接触及意识表达的最主要媒介,在人机交互设备中也是如此。基于手的自然交互形式最为常见,相应的数字化设备很多,在这类产品中最为常用的就是数据手套。
4.2 虚拟现实的输出设备。人置身于虚拟世界中,要体会到沉浸的感觉,必须让虚拟世界能模拟人在现实世界中的多种感受,如视觉、听觉、触觉、力觉、痛感、味觉、嗅觉等。基于目前的技术水平,成熟和相对成熟的感知信息的产生和检测技术仅有视觉、听觉和触觉(力觉)3种。感知设备的作用是将虚拟世界中各种感知信号转变为人所能接受的多通道刺激信号,现在主要应用的有基于视觉、听觉和力觉感知的设备,基于味觉、嗅觉等的设备有待开发研究。
4.3 虚拟现实的生成设备。在虚拟现实系统中,计算机是虚拟世界的主要生成设备,所以有人称之为“虚拟现实引擎”,它首先创建出虚拟世界的场景,同时还必须实时响应用户各种方式的输入。
通常虚拟世界生成设备主要分为基于高性能个人计算机、基于高性能图形工作站、高度并行的计算机系统和基于分布式计算机的虚拟现实系统四大类。
4.4 虚拟现实的相关技术。虚拟现实系统的目标是由计算机生成虚拟世界,用户可以与之进行视觉、听觉、触觉、嗅觉、味觉等全方位的交互,并且虚拟现实系统能进行实时响应。要实现这种目标,除了需要有一些专业的硬件设备外,还必须有较多的相关技术及软件加以保证,特别是在现阶段计算机的运行速度还达不到虚拟现实系统所需要求的情况下,相关技术就显得更加重要。虚拟现实的相关技术主要有立体视觉显示技术、环境建模技术、真实感实时绘制技术、三维虚拟声音的实现技术、自然交互与传感技术等等。
4.4.1 立体视觉显示技术。人类从客观世界获得的信息的80%以上来自视觉,视觉信息的获取是人类感知外部世界、获取信息的最主要的传感通道,视觉通道成为多感知的虚拟现实系统中最重要的环节。
在视觉显示技术中,实现立体显示技术是较为复杂与关键的,立体视觉显示技术是虚拟现实的重要支撑技术。
4.4.2 环境建模技术。在虚拟现实系统中,营造的虚拟环境是它的核心内容,要建立虚拟环境,首先要建模,然后在其基础上再进行实时绘制、立体显示,形成一个虚拟的世界。虚拟环境建模的目的在于获取实际三维环境的三维数据,并根据其应用的需要,利用获取的三维数据建立相应的虚拟环境模型。只有设计出反映研究对象的真实有效的模型,虚拟现实系统才有可信度。在虚拟现实系统中,环境建模应该包括有基于视觉、听觉、触觉、力觉、味觉等多种感觉通道的建模。但基于目前的技术水平,常见的是三维视觉建模和三维听觉建模。而在当前应用中,环境建模一般主要是三维视觉建模,这方面的理论也较为成熟。
4.4.3 真实感实时绘制技术。要实现虚拟现实系统中的虚拟世界,仅有立体显示技术是远远不够的,虚拟现实中还有真实感与实时性的要求,也就是说虚拟世界的产生不仅需要真实的立体感,而且虚拟世界还必须实时生成,这就必须要采用真实感实时绘制技术。所谓真实感绘制是指在计算机中重现真实世界场景的过程。真实感绘制的主要任务是要模拟真实物体的物理属性,即物体的形状、光学性质、表面的纹理和粗糙程度,以及物体间的相对位置、遮挡关系等等。
4.4.4 三维虚拟声音的实现技术。在虚拟现实系统中加入与视觉并行的三维虚拟声音,一方面可以在很大程度上增强用户在虚拟世界中的沉浸感和交互性,另一方面也可以减弱大脑对于视觉的依赖性,降低沉浸感对视觉信息的要求,使用户能从既有视觉感受又有听觉感受的环境中获得更多的信息。
5 总结
能看到虚拟现实技术对计算机技术的联系性非常紧密,并且虚拟现实技术对计算机设备的应用分类也越来越具体,越来越广泛。相应的计算机设备也应用到虚拟现实技术的对应环节上。虚拟现实技术是一个极具潜力的前沿研究方向,是面向21世纪的重要技术之一。它在理论,软硬件环境的研究方面依赖于多种技术的综合,其中有很多技术有待完善。可以预见,随着技术的发展,虚拟现实技术及其应用会越来越广泛。
参考文献:
[1]陈浩磊,邹湘军,陈燕,刘天湖.虚拟现实技术的最新发展与展望[J].中国科技论文在线,2011.
[2]王延汀.谈谈光子计算机.现代物理知识,2004,(16).
[3]陈连水,袁凤辉,邓放.分子计算机.分子信息学,2005,(3).
毫无疑问,听觉和视觉是最容易被欺骗的。这两种感觉通过接收信息时的微小区别来判断信息的来源与图像,而且感受器很小,容易被虚拟的信息覆盖。
我们通过两只耳朵分别接收到声音的时间差和音量,由此判断发声物的方位和距离,精确的录制手段和一套高保真音响足可以让人们身临其境。现在计算机软件控制的音响效果已经可以达到让人满意的程度,每次在电脑游戏中转身,声音的来源都会马上随之改变。有些歌曲在立体环绕的效果下让你能听到仿佛带着气息的呢喃或是飘渺悠远的吟唱。
视觉也是类似的,要呈现立体的视觉效果,只需要让两眼接收到的图像有轻微不同即可。近年几部3D大片让我们在影院中能够看到身临其境的逼真画面,类似的设备也已经出现在电脑上,现在3D有线数字电视也在试行中了。还有更简单的办法:我们可以在两眼前分别架一块屏幕,只要屏幕的分辨率够高、计算机的处理能力够强,我们就可以享受完美的立体视觉体验。听上去好像挺酷的吧?
这些其实都只是小儿科一事实上,这样的系统已经有很多了。军队用这种系统训练飞行员,医疗机构用它们来展示人体内部的细微构造,博物馆用它来为参观者提示藏品的历史,工厂用它们来帮助设计新产品。
与听觉和视觉相比,虚拟嗅觉和味觉会更麻烦一些。我们的嗅觉和味觉需要外界实体的刺激——而非仅仅是信息。嗅觉是因为鼻腔里的嗅觉细胞捕捉到了气味分子,而味觉则来源于舌头上的味蕾与食物分子的接触。我们不可能通过数字技术虚拟出一个食物送到嘴边。2004年,日本开发出了一种虚拟嗅觉系统。它的原理和喷墨打印机类似,在8个小瓶子中分别装有8种会散发出不同水果香味的液体。当使用者带上特制的手套,在虚拟环境中拿起某种水果并送到鼻尖时,安装在手套指尖的微小喷头就会释放出那种水果的味道。我们的嗅觉世界并不是只由8种水果香气构成的,而且也并非只有用手抓住凑近才能闻到。
2009年,英国约克大学和华威大学了一台头盔式虚拟现实设备,不仅提供嗅觉,还可以提供味觉。这个叫做“虚拟茧”的装备构成了迄今为止最全面的体验系统。两个镜片式的高清显示器带来立体视觉,一套高保真立体声耳机让你如同身在其境,能够吹出热风和冷风的风扇让你冷暖自知,一套嗅觉模拟器,还有一个连接着导管的可以放在嘴里的海绵球,海绵球后连着味觉发生器的导管,它会释放出带有5种味道的液体,舔一舔海绵球就能尝到。虽然这种方式与口感并不雅观和怡人,但毕竟好过没有。虽然舌头上不同区域对于味道的敏感程度不同,这种方式也无法让人的牙齿感受到那些食品带来的感觉,而且嘴里塞进一个海绵球肯定会影响说话,但是我们目前还没有比这更好的办法来模拟味觉。不过至少这些英国的研究者很贴心,他们提供的5种味道意包含了肉味,这应该会让受试者感到愉悦吧。
戴上这套头盔会让使用者看起来像未来战士或者宇航员,更不要说除此之外还有一副遍布传感器和动力装置的手套一它可以让使用者在虚拟环境中摸到“现实”。使用触觉感受器来虚拟现实的想法很早就有了,微软创始人比尔·盖茨在他1995年的那本畅销书《未来之路》中,认为将来可能会出现一种遍布着传感器的紧身衣,可以让人们体验完美的虚拟触觉。但是盖茨的这种梦想,也许还需要十年甚至更长的时间才会实现。原因很简单:人的触觉感受器实在是太多,如果要精确模拟触觉的话,所需要的处理能力和动力装置的数量都相当惊人。比如,遍布在我们全身皮肤下的数十万个天然感受器可以感受冷觉、热觉、痛觉、压力感等不同的感觉,这使得盖茨的紧身衣在现今阶段看起来还只是科幻。
关键词: 立体视频资源 镜头 场景 关键帧
1.引言
随着多媒体技术的快速发展,立体视频逐渐融入人们的日常生活中,应用领域不断扩大,已经广泛应用于军事、医疗、虚拟现实、教育科研等领域,尤其是教育领域的应用不断增加,同时产生大量立体视频资源。常见的立体视频以双目立体视频为主,通常采用双路分离、左右合成、上下合成等格式表示,并通过红蓝或者偏光等形式显示和观看。随着立体视频资源的增多,立体视频资源存储入库成为亟待解决的问题。本文主要解决双目立体视频的存储入库。
2.立体视频的本质特征
立体视频帧的本质特征是视频帧本身所蕴含的特征信息,包括视频帧的颜色特征、纹理特征、形状特征、视差特征、深度特征,等等。
颜色特征是数字图像领域中应用最广的特征之一,提取图像的颜色特征分为三步:选取颜色空间、颜色区间量化、相似性计算。颜色空间是一种通过特殊规则加以说明的颜色集合体,数字图像上几乎任何一种颜色都能在颜色空间找到对应的点,常用的颜色空间:RGB颜色空间,HSV颜色空间,YUV颜色空间。纹理特征是一种不依赖于颜色或亮度的反映图像中同质现象的视觉特征,是物体表面特性,例如高山、小桥、石头、衣服等都有各自的纹理特征。纹理特征包含物体表面结构组织排列的重要信息及其与周围环境的联系。形状特征是指一个物体的外部轮廓,与颜色特征和纹理特征相比,形状特征在描述立体视频内容时更具有语义含义。形状特征首先需要对图像分割,把对象提取出来,再用各种方法进行匹配测量。对于形状特征的描述方法有:边界特征法、傅里叶形状描述法、集合参数法、最小生成树等[1]。
与2D视频相比,立体视频增加了视差和深度特征。立体电影的制作就是利用了双目视差的原理。在拍摄时,使用两台摄像机相距几厘米同时进行拍摄。放映时,把两个影像同时放映在屏幕上,观众戴上立体眼镜使左右两眼的像落在视网膜上的非对应点,并产生一定的差异,从而产生立体视觉。
双目视差是指两眼注视外界物体时,两个视网膜上视像之间的差异。距离和深度知觉,主要依赖双目视差,它是形成立体视觉的最重要的依据。人的双眼结构相同,双眼间的距离大约是6.5cm,当人们观看三维物体时,物体投射在左右眼睛上的像并不完全落在视网膜上的对应区域,左眼看物体的左边多一些,右眼看物体的右边多一些,三维物体在双眼视网膜上的像就存在差异,称为双目视[2]。深度信息反映了所拍摄物体到相机的距离,获得深度信息的方式有两种;第一种是通过拍摄仪器直接获得,但通过这种方式获得的深度信息往往分辨率低,并且需要很大的计算复杂度,对硬件设备要求很高,一般情况下难以达到实时拍摄的需求。第二种深度信息的获取是靠几何学知识,利用已知参数的摄像机拍摄出的双目视频,利用立体匹配计算出视差后,反推视频对象的深度信息[2]。随着立体匹配技术的不断完善,现在已形成许多各具特色的匹配算法。已有算法根据匹配准则的不同,大致可以分为两大类:一类是局部匹配算法;另一类是全局匹配算法。全局匹配算法与局部匹配算法相比,匹配准确性较高,可以获得较高精度的稠密视差图,但是往往计算量大、耗时比较长、不易于硬件实现,无法应用于实时系统。总之,两类立体匹配算法各有优缺点,适用于不同的情况和空间场景[3]。
3.建立立体视频存储入库模型
视频结构一般分为视频、场景、镜头、视频帧四个层次[4]。本文主要对立体视频资源的镜头、场景、关键帧三个方面进行研究,建立立体视频资源存储入库模型。
3.1立体视频镜头分解存储入库
镜头是由时间上连续的帧构成,同一个镜头内的内容具有一致性。通过判断连续帧之间的差异确定镜头的边界。根据镜头边界的不同,可分镜头的突变和镜头的渐变。镜头突变是指一个镜头内容的变化发生在单个视频帧上。镜头渐变是指相邻的两个镜头的变换是逐渐完成的,在镜头切换的时候加入编辑特效,达到视觉上平滑过渡的效果。根据编辑特效的不同,镜头的渐变可以分为淡入(fade in)、淡出(fade out )、溶解(dissolve)、擦拭(wipe)等不同类型。淡入是指画面亮度不断增强;淡出是指画面亮度慢慢变暗最终消失;溶解是指镜头的帧逐渐变淡退出;擦拭是指后一个镜头的画面慢慢代替前面的一个镜头的画面。
目前立体视频镜头分割算法大多是基于2D视频的,立体视频镜头分割算法还不成熟,2D视频的镜头边界检测算法主要分为两大类:基于像素域的方法和基于压缩域的方法。像素域中镜头边界检测方法主要利用时空域中的颜色、纹理、形状等特征进行检测。像素域中的算法主要有像素比较法,基于直方图的方法,块匹配法,基于边缘的方法。由于现在大多数视频序列以压缩格式存储,对这些压缩形式的视频流直接进行边界检测,节省大量解压缩时间。目前压缩域中的主要有基于DCT系数的方法,基于小波变化的方法,时空分析法。
虽然2D视频的镜头分割算法能完成立体视频资源存储入库的预处理工作,但是运用2D视频镜头分割算法处理双目立体视频时,检测结果往往存在一定误差,并且不能很好地检测镜头渐变的完整边界变化,在2D视频的镜头分割算法的基础上,提取立体视频的深度特征,进行镜头边界检测,从而提高镜头边界的检测精度,实现对立体视频的镜头准的确分割。基于立体视频镜头分割算法,对立体视频资源存储入库。
3.2立体视频场景分解存储入库
场景是由连续镜头组成的视频片段,是表达一个完整情节的逻辑故事单元。
立体视频场景分割,以镜头作为研究对象,根据镜头的内容相关性和时间上的邻近性把相似的镜头划分到同一场景中,这样一段视频被分割成若干个有意义的逻辑故事单元。
目前立体视频场景分割算法大多是基于2D视频的,立体视频场景分割算法还不成熟。大体上通过提取镜头的视觉特征,把内容相关时间相近的镜头聚类成一个场景,或者综合视觉信息和听觉信息划分场景[5]。
与传统的2D视频场景分割不同,立体视频利用立体视频镜头分割算法的结果,结合立体视频颜色特征、纹理等本质特征,通过镜头聚类,检测场景边界,利用立体视频的深度特征,实现对场景的准确分割,基于立体视频场景分割算法,对立体视频资源存储入库。
3.3立体视频关键帧分解存储入库
帧是立体视频的基本组成单位,立体视频的每一帧都可以看成空间上独立、时间上相关的静止图像。空间上独立体现在立体视频的每一帧都可以进行分析处理,时间上相关体现在时间轴上相邻的帧一般会有内容上的相似性。
由于立体视频中,帧的数量巨大,可以用关键帧描述镜头和场景。这样既充分描述了视频内容,又减少了冗余信息。关键帧就是能描述立体视频内容主要的帧。根据立体视频结构的复杂程度,关键帧可以由一帧或者多个帧组成。
目前立体视频关键帧提取算法主要是:基于镜头边界提取关键帧,基于运动分析提取关键帧,基于图像信息提取关键帧,基于镜头活动性提取关键帧,基于聚类的方法提起关键帧。
Zhang,Wu[6]等人依据帧间的显著变化来为2D视频选择多个关键帧,首先把镜头的第一帧作为关键帧,然后计算前一个关键帧与剩余帧之差,如果差值大于某一阈值,则再选取一个关键帧。与2D视频不同,立体视频依据帧间的显著变化,再加上立体视频的深度信息构建相邻帧差,实现对关键帧的准确提取,基于立体视频关键帧提取算法,对立体视频资源存储入库。
4.结语
在2D视频的镜头分割算法上基础上,增加立体视频的深度特征,得出立体视频镜头分割算法,进而研究出立体视频场景分割算法和关键帧提取算法,从镜头、场景、关键帧三个方面实现对立体视频资源高效的管理及利用。对立体视频资源存储入库的同时,增加了立体视频素材,缓解了立体视频资源匮乏的现状。
参考文献:
[1]印勇,侯海珍.基于直方图帧差的自适应镜头分割算法[J].计算机工程与应用,2010,09:186-189.
[2]王波.双目视差的立体视觉及其在技术课程教育中的应用[D].浙江工业大学,2012.
[3]杨志荣.双目视觉立体匹配方法和遮挡问题研究[D].燕山大学,2010.
[4]Yong Rui,Huang,T.S,Mehrotra, S, “Exploring video structure beyond the shots,”in Multimedia Computing and Systems,1998. Proceedings. IEEE International Conference on,vol,no, pp.237-240,28 Jun-1 Jul 1998.
[5]王旭军.视频场景分割方法研究[D].重庆大学,2010.
目前,电脑上实现3D技术的投入不算贵,而且获取3D片源和3D游戏相对容易。所以,有不少用户都想购买一款3D显示器,率先实现3D家庭娱乐。市面上的3D显示器已经有很多型号,但是3D技术复杂多样,优缺点不一,快门的、偏光的、NVIDIA的、AMD的、软件的、硬件的……如何选择一款合适的3D显示器?各种3D技术之间在显示效果上有什么区别?对硬件有什么样的需求?就让《微型计算机》评测室来做一次小白鼠,把市面上不同类型的3D显示器都感受一番,为你带来最真实的测试体验。
3D显示器的原理
要深入了解3D显示器,我们首先应该从原理入手了解立体图像在人眼中是如何形成的。人眼能够感受三维立体世界的主要原因就是因为人眼有双眼视差。用两只眼睛去观察世界,因为几何光学投影到人两只眼睛的距离不同、角度不同,会造成不同的视差。视差图像在脑部区域融合,就产生了生理立体视觉,能够感知客观事物的深度。传统显示设备上显示的二维图像无论是在左眼还是在右眼所形成的图像是一样的,虽然我们也能判断图像中物体、人物的距离关系,但是这是由心理立体视觉形成的,主要通过遮挡、阴影、几何透视和结构极差等因素来判断。真正能够形成生理立体视觉的主要因素,还是双眼的视差信息。
在了解了立体图像在人眼中形成的主要原因后,我们就能够明白3D显示器为什么能神奇地在二维平面上模拟出三维的图像了。3D显示器想办法在平面上同时显示有视差的两幅画面,然后通过技术手段对两个画面的内容进行过滤,让左眼应该看到的画面进入左眼,右眼应该看到的画面进入右眼,就能在人的大脑中组合出一幅有视差的立体图像了。那么,用什么样的方式对左右眼的画面分别进行过滤,就是3D显示器的核心技术。
目前,市场上主流的3D显示器根据原理分为快门式和偏光式(偏振式)两种。
快门式3D显示器是一种主动式3D技术,它的3D成像原理是让显示器的刷新率从60Hz提升到120Hz,然后让左右眼画面隔帧连续显示,通过红外信号发射器同步快门式3D眼镜的左右液晶镜片开关,轮流遮挡左右眼的画面,让两眼看到不同的画面。如此遮挡后的单眼画面帧率同样为每秒60帧,而且保证了原始分辨率不下降。
快门式3D显示器
画面画质无损失,保持全高清分辨率。
亮度降低严重、有闪烁感、在3D游戏中性能会下降。
快门式3D显示器原理示意图
左眼看到的图像信息
右眼看到的图像信息
人眼看物体有明显视差,然后通过视差产生立体感。
偏光式3D显示器
画面不闪烁、显示器和眼镜的成
本低。
画面分辨率会降低、画面可能会有抽丝感,文字显示质量受影响。
偏光式3D显示器原理示意图
偏光式属于被动式3D技术。它的3D成像原理是利用光线有“振动方向”的特质,通过显示器上的偏光膜将图像进行分解。使显示器在正常显示状态下所显示的单一画面分解为垂直向偏光光、水平向偏光光两个独立的画面,而使用者戴上左右分别采用不同偏光方向的偏光镜片后,就能使双眼分别看到不同的画面并传递给大脑,进而形成3D影像。
其实我们使用的普通显示器也可以实现3D立体播放,通过色分法,将左右眼画面分成红蓝、红绿两种画面,然后通过对应的红蓝、红绿眼镜过滤。只是这种3D画面毫无色彩可言,不适合商用。而以上介绍的快门式和偏光式3D技术则是目前市场上3D显示器所使用的主流技术,但是这些技术仍然还不够成熟,所以优缺点都非常明显。
3D显示器方案解析
目前快门式3D显示器主要集中在两种方案上,一种是NVIDIA的3D Vision方案,另一种是AMD的HD3D方案,两种方案都需要搭配各家的显卡、120Hz显示器和快门式眼镜。支持NVIDIA方案的显示器品牌和型号众多,眼镜单独购买方便。支持AMD HD3D方案的快门式显示器也很多,它们除了需要AMD显卡之外,还需要安装TriDef 3D软件,该软件也是除了3D Vision之外的其他3D显示器必须安装的。
而偏光式3D显示器主要是由LG Display提供面板,搭配偏光眼镜,对显卡类型没有要求,但是在使用过程中也需要TriDef 3D软件的支持。以上这些类型的3D显示器对图像的分时处理都是由视频发射端完成,比如由电脑完成。现在有一些3D显示器安装有3D处理芯片,即使接收的是2D图像,也可以一键处理为3D图像。这种类型的3D显示器既有快门式,也有偏光式,在本次测试中我们都会一一介绍。
测试目的
液晶显示器的3D化是目前日益同质化的显示器市场中,厂商找寻差异化发展的一条重要道路。但在简简单单的“3D”二字的背后,却有着两种实现技术,三类解决方案,更有通过显示器内置芯片实现3D的方案穿插其中,让消费者在选购时无所适从。为了让读者能从纷繁复杂的3D显示器市场中,了解各种方案各自的优势、劣势,找到适合自己的产品,《微型计算机》评测室特地组织了此次涵盖市面上所有三种解决方案的3D显示器的无差别体验。每类解决方案选择三款最具代表性的产品,从尺寸、功能等方面涵盖每类方案下具备差异化的产品,务求将目前市面上所有典型类型的3D显示器收罗齐全。
测试方法
三种3D显示方案,九款3D显示器,读者最关心它们什么?这是《微型计算机》评测室在测试前最先考虑的问题。最终,我们找到了游戏这一关键词。哪种方案对游戏的兼容性最好?哪种方案在游戏中的画质更出色,立体感更强?这是许多人在看到3D显示器时,最先想到的问题。因此我们确定了以游戏体验为主,辅以客观性能测试的评测方法。据此我们设置了包括3D游戏兼容性、3D游戏画质、3D游戏立体感等在内的体验项目,选择的游戏以热门FPS游戏为主,包括《战地3》、《使命召唤8》,同时加入不同类型的游戏,比如受众众多的《FIFIA 11》,赛车类游戏《DIRT 3》。而针对读者一直很关心的不同解决方案的3D显示器,在戴上眼镜后画面亮度的衰减,我们也加入其中。
由于NVIDIA和AMD的方案分别只支持自家显卡,所以我们在搭建平台时分别选择了GeForce GTX 580和Radeon HD 6950两款显卡。客观性能测试则通过价值十几万元的美能达CS-200分光色度仪进行测试,保证各项数值的准确性。
测试项目
3D立体感/3D游戏兼容性/3D游戏负载需求
3D画质优劣/3D方案价格对比
PS3蓝光输入兼容性
亮度
对比度
亮度不均匀性
NTSC色域范围
测试工具
柯尼卡美能达CS-200分光色度仪
ColorFacts Test Patterns
测试环境
密闭的影音实验室
殊途同归 三种3D显示方案
NVIDIA 3D Vision
作为最早推广主动式快门技术的NVIDIA,其3D Vision已经推出了两代。就技术而言,它们并无不同,因为无论是第一代还是第二代3D Vision眼镜,都能在任何一台支持3D Vision技术的显示器(内置接收器或USB接口的外置接收器)上正常工作。它们的区别主要在于眼镜的设计。第二代眼镜的镜片面积增大了20%,透光性更好,更适合27英寸的大尺寸3D显示器。另外3D Vision 2还带来了“3D LightBoost”画质增强技术,3D LightBoost技术号称可将3D图像的亮度提高最多一倍。所以要识别产品是第一代还是第二代很简单,一是看眼镜,二是看显示器是否具有3D LightBoost功能。而只凭接收器内置与否是不能作为判别标准的。
组建3D Vision的3D显示平台,首先需要一台支持3D Vision的120Hz显示器,还必须使用NVIDIA的显卡,而且需要GeForce 8系列及以上系列的显卡。系统方面,虽然使用Windows XP的游戏玩家已经不多,不过还是提醒一下,3D Vision只支持Windows Vista和Windows 7。最后,还必须采用24针的DVI-D Dual-Link或者HDMI接口连接PC。下面以华硕VG27H为例展示3D Vision的安装过程。
1.用24针的DV I-D Dual-Link线连接显卡和显示器(平时常见的18针DVI线是不行的)。
2.安装最新的NVIDIA驱动程序,重启后在桌面点击右键,进入NVIDIA控制面板,在右侧菜单栏中选择“设置3D立体视觉”。
3.点击“启用3D立体视觉”,第一次运行会自动进入“设置向导”,系统会检测你的设备连接情况,让你选择游戏环境,指导你打开眼镜以及测试硬件设置。
关键词:面形检测; 图像预处理; 区域立体匹配; 面形实验
中图分类号: TN 247 文献标志码: A doi: 10.3969/j.issn.10055630.2015.05.005
Abstract:The projection method, that is a method of 3D surface profile detection based on the combination of linear structured light scanning measurement and stereoscopic vision measurement, can detect the surface profile of optical component online quickly and accurately. In this paper,an image processing algorithm is presented including preprocessing, areabased stereo matching, curve fitting and surface characterization testing, to recover the surface profile model of optical component. The results of the experiments show that this method can reconstruct the threedimensional exterior characteristics of the optical component truly and accurately. Therefore, the research is feasible and has research value.
Keywords: surface characterization inspection; image preprocessing; areabased stereo matching; surface characterization experiment
引 言
在光学仪器制造领域中,准确地检测和评定光学元件面形对提高光学元件加工表面的质量,研究光学元件表面的几何特性,探究光学元件的使用性能等都有着至关重要的意义。依据透镜面形检测理论,搭建实验平台并利用MATLAB和VC++软件进行重建模拟。
1 测量原理
本文采用基于投影的检测方法[14],原理如图1所示,线结构光垂直入射被测光学元件表面形成全反射,立体视觉系统采集多组线结构光全反射图片,通过MATLAB及VC++软件对原始图片进行图像处理,进而重建光学元件的三维面形,算法流程如图2所示。
2 图像预处理
由于受到外界环境,人为因素的多种干扰和限制,实验采集到的原始图片并不能直接应用,需要进行图像滤波和直方图均衡化处理,目的是为了去除噪声影响和平衡图像对的亮度差异。滤波后的图像对如图3所示,直方图均衡化的图像对如图4所示。
3 基于区域的立体匹配分析
3.1 匹配原理
本文采用区域立体匹配[57],原理如图5所示。假设一个像素点的邻域像素点和该点具有相同的视差,在基准图左图上选择一点P(x,y)作为待匹配点,以该点的像素坐标作为中心点,选择尺寸大小为W×W匹配窗口,此时在右图中以d为搜索范围计算同一极线上P(x,y)与P′(x+i,y)(i=1,2,…,d)的相似度,P′(x+i,y)(i=1,2,…,d)中的每个点跟P(x,y)一样都要创建一个大小为W×W的像素邻域,计算左右两幅图像中窗口包含的灰度值之间的相似性差异,用相关函数来表示,当两幅图像的一致性度量达到最大值,就认为与点P(x,y)匹配成功,匹配过程如图6所示。
实验选取9×9的匹配窗口,采用TSUKUBA提供的立体图像对来分析这三种不同算子得到视差图的差异。如图7(a)、(b)所示为原始图像对,输出的理想视差图如图7(c)所示,不同算子得到的视差图如图7(d)、(e)、(f)所示。将不同算子得到的视差图与理想视差图进行比较可知,SAD算子得到的视差图精确度略高于SSD算子和NCC算子,且该算子匹配速度较快,故本文实验选用SAD算子进行立体匹配实验。
3.3 匹配窗口分析
较为常用的区域立体匹配窗口有5×5、7×7、9×9、11×11。匹配窗口越小得到的视差图细节轮廓越清晰,但同时产生的杂点较多,在视觉上有破碎感;匹配窗口越大得到的视差图整体平滑性较好,但细节轮廓较模糊。
实验选取SAD算子,仍然采用TSUKUBA提供的立体图像对来分析不同匹配窗口得到视差图的差异,如图8(a)、(b)、(c)、(d)所示。
由图8可知,匹配窗口越大,获得视差图的细节和边缘越模糊,但同时虚假匹配点产生的越少,图像也越平滑。因此,实验选用9×9的匹配窗口。
3.4 透镜区域立体匹配实验
本文采用的是平行双目视觉系统,所以基于区域的立体匹配过程只需在左右两幅图的同一水平位置上去寻找相应的匹配点即可。匹配过程选用SAD算子和9×9匹配窗口进行,图9为经过图像处理的视差图。
4 曲线拟合
用单一像素提取视差图中圆环的坐标点,通过最小二乘法对这些坐标点进行圆拟合获得圆心坐标以及圆半径,拟合结果如图10所示。为了方便进行三角剖分,还需要将图10中的拟合图进行叠加,叠加结果如图11所示。
5 光学元件面形实验
5.1 光学元件三维模型重建实验
在曲线拟合过程中,已用单一像素提取了视差图中圆环和曲线的多个二维平面坐标点,为了真实还原透镜面形,还需进行三维空间坐标点的计算,由于本文搭建的实验平台是平行放置的双目立体视觉系统,故采用平行双目立体视觉系统的三维空间点坐标计算方法[8]来进行二维平面坐标点到三维空间坐标点的转化。
将得到的三维空间离散坐标点进行Delaunay 标准的BowyerWatson三角剖分算法[910]来实现透镜的三维面形还原,剖分过程如图12所示,并在VC++环境中使用OpenGL库,绘出了三维立体透镜模型图像如图13所示。如图14给出了在MATLAB环境中还原出来的透镜表面的微观情况。
5.2 Taylor Hobson轮廓仪实验
Taylor Hobso轮廓仪是通过仪器的触针在被测物表面滑移来进行检测的,可以直接按某种评定标准读数或描绘出表面轮廓曲线的形状,通过Taylor Hobso轮廓仪检测该透镜,其一维面形图如图15所示,透镜轮廓图如图16所示。
5.3 ZYGO干涉仪实验
ZYGO干涉仪是目前非接触式检测光学元件面形较为成熟的实验仪器,能够还原被测光学元件的一维及三维面形图,可计算出光学元件表面最大波峰值与最小波谷值之差的PV值和均方根误差(RMS)值,其强度图如图17所示,一维面形图如图18所示,三维面形图如图19所示。
5.4 实验结果及结论
投影法实验对口径14 mm,曲率半径13 mm的球面镜进行的检测,通过VC++环境进行三角剖分,得到了透镜面形的立体三维图形,同时利用MATLAB软件还原出透镜表面的微观情况,并计算出评价透镜表面面形的重要参数――PV值和RMS值。
Taylor Hobso轮廓仪和ZYGO干涉仪检测光学元件面形的技术在现阶段来说已经比较成熟,所以将投影法的检测结果与这两种检测仪的检测结果比较即可验证该检测方法的可行性。如表1所示可知,投影法与Taylor Hobso轮廓仪、ZYGO干
涉仪的检测结果中,PV值及RMS值之差约为0.01 μm,对于一个口径较小的透镜来说,这样的结果是较为理想的,其结果与Taylor Hobso轮廓仪、ZYGO干涉仪的检测结果精度较为接近,这样就验证了结构光投影法检测光学元件的方法是可以满足通常的检测要求,具有一定的可行性。
6 结 论
本文提出的投影法光学元件面形检测技术,克服了传统检测方法中对外界环境要求严格的诸多不足之处。实验显示,该方法能够检测还原光学元件三维外貌特性,但后期仍需进一步优化图像处理算法,提高检测精度。
参考文献:
[1]孙国强,许增朴.用于产品造型设计的三维反求测量系统的研究[D].天津:天津科技大学,2007.
[2]王晓林,陈伟民,黄尚廉.光切法三维轮廓测量的原理及其应用[J].光学技术,1997,3(2):3943.
[3]陈江.二目立体视觉测量系统关键技术研究[D].南京:南京航空航天大学,2006.
[4]高文,陈熙霖.计算机视觉―算法与系统原理[M].北京:清华大学出版社,1999.
[5]达飞鹏,盖绍彦.光栅投影三维精密测量[M].北京:科学出版社,2011.
[6]HIRSCHMULLER H.Improvements in realtime correlationbased stereo vision[J].IEEE Workshop on Stereo and MultiBaseline Vision.2001,141148.
[7]刘瑜,刘缠牢,苏海.一种基于结构光双目视觉的特征匹配算法研究[J].光学仪器,2014,36(2):161166.
[8]何勇.双目视觉的车辆场景三维重建方法研究及应用[D].合肥:合肥工业大学,2009.