公务员期刊网 精选范文 卷积神经网络现状范文

卷积神经网络现状精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的卷积神经网络现状主题范文,仅供参考,欢迎阅读并收藏。

卷积神经网络现状

第1篇:卷积神经网络现状范文

关键词:图像复原;盲复原;逆滤波;神经网络复原

1 图像退化及复原模型

1.1 图像降质的数学模型

图像复原处理的关键问题在于如何建立退化模型。假定输入图像f(x,y)经过某个退化系统后输出的是一幅退化的图像。为了方便讨论, 把噪声引起的退化(即噪声)对图像的影响一般作为加性噪声考虑,这也与许多实际应用情况一致,如图像数字化时的量化噪声、随机噪声等就可以作为加性噪声,即使不是加性噪声而是乘性噪声,也可以用对数方式将其转化为相加形式。原始图像f(x,y) 经过一个退化算子或系统H(x,y) 的作用,然后和噪声n(x,y)进行叠加,形成退化后的图像g(x,y)。图像退化的过程可以用数学表达式写成如下的形式:

g(x,y)=H[f(x,y)]+n(x,y)

n(x,y)是一种统计性质的信息下图表示退化过程的输入和输出的关系,其中H(x,y)包含了退化系统的物理过程,即所要寻找的退化数学模型。

1.2 图像的退化恢复模型

数字图像的图像恢复问题可以看作是:根据退化图像g(x ,y)和退化算子H(x ,y)的形式,沿着逆向过程去求解原始图像f(x ,y), 或者说逆向地寻找原始图像的最佳近似估计。

2 研究背景与意义

图像复原是数字图像处理技术的一个重要研究方向,在现实生活中,有着非常广阔的应用前景和市场。数字图像处理研究很大部分是服务于数字图像复原的,而运动模糊图像的复原又是图像复原中的重要课题之一,从六十年代起就有人研究它。初期研究的主要原因是对卫星所拍摄的图像进行复原,因为卫星相对地球是运动的,所拍出的图像是模糊的(当然卫星所拍摄图像的模糊原因不仅仅是相对运动而造成的,还有其他原因如大气湍流所造的模糊等等)。美国的喷气推进实验室(JPL)对徘徊者飞行器发回的月球照片进行了图像恢复处理。传统的图像恢复方法可以很好地恢复出来原始图像,但是需要事先知道系统的先验知识(例如系统的点扩散函数)。在先验知识不足的情况下,如何恢复出来原始图像?这就需要模糊图像盲恢复技术。根据不同的应用背景和先验知识,大致可以两种方法恢复两种类型的模糊图像,以满足不同的应用要求。

第一种方法:如何快速恢复模糊图像,进行适时性图像处理?这个技术在实际生活中有着广泛应用。

第二种方法:如何在事先不能确定模糊系统点扩散函数的情况下,恢复模糊图像,改善图像的质量,这就是图像盲恢复的问题。

3 国际国内研究发展和现状

从历史上来看,数字图像处理研究有很大部分是在图像恢复方面进行的,包括对算法的研究和针对特定问题的图像处理程序的编写。数字图像处理中很多值得注意的成就就是在这两方面取得的。

在六十年代中期,去卷积(逆滤波)开始被广泛地应用于数字图像恢复。这一阶段对模糊图像的研究主要是把因相对运动而拍摄的模糊图像复原过来,从而增强人们的判读能力。早期做图像复原研究,主要强调尽可能使模糊图像复原到原貌,增加它的判读性,在此发展了很多的复原方法,诸如:差分复原、维纳滤波等.这些方法各有特点,较好的解决了运动模糊图像的判读问题,但是在应用上均有一定的限制。

虽然经典的图象复原方法不少,但归纳起来大致可分为逆滤波法,或称相关变换法( inv ersefiltering or t ransfo rm related techniques) 和代数方法( alg ebraic techniques) 两种。

3.1 传统复原法

3.1.1 逆滤波方法

逆滤波法大致有经典逆滤波法、维纳滤波法、卡尔曼滤波法等. 其中,在傅立叶变换域,经典逆滤波的变换函数是引起图象失真的变换函数的逆变换,其虽在没有噪声的情况下,可产生精确的复原图象,但在有噪声时,将对复原图象产生严重的影响,虽然滤波函数经过修改,有噪声的图象也能复原,但它仅适用于极高信噪比条件下的图象复原问题; 维纳滤波法是通过选择变换函数,同时使用图象和噪声的统计信息来极小化均方复原误差,这虽然在一定程度上克服了逆滤波法的缺点,但是维纳滤波法需要较多有关图象的先验知识,如需要对退化图象进行满足广义平稳过程的假设,还需要知道非退化图象的相关函数或功率谱特性等等,而在实际应用中,要获得这些先验知识有较大的困难,为此,Ozkan 等人在研究图象序列的复原问题时,提出了一种解决空间和时间相关性的多帧维纳滤波法,是近年来维纳滤波法的新发展; 卡尔曼滤波是一种递归滤波方法,其虽可用于非平稳图象的复原,但是因计算量过大,而限制了其实际应用的效果。 Wu 和Kundu 又对卡尔曼滤波方法进行了改进,不仅提高了速度,并考虑了应用于非高斯噪声的情况; Cit rin 和Azimi-Sadjadi 也对卡尔曼滤波方法进行了改进,提出了块卡尔曼滤波方法; Koch 等提出了扩展卡尔曼滤波( extended Kalmam filter) 复原方法,该方法可以较好地复原模糊类型不相似的退化图象.除了上述的逆滤波方法外,还有参数估计滤波法,它实质上是维纳滤波法的变种. 20 世纪90 年代初,又提出了基于递归图象滤波的自适应图象复原方法及合成滤波方法,它代表了滤波方法新的发展方向. 1998 年Kundur 等人首先明确提出了递归逆滤波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又进行了改进,即在代价函数中增加了空间自适应正则化项,从而很好地抑制了噪声,并减少了振铃现象,较好实现了在低SNR 条件下的盲图象复原. 2001 年,Eng 等人结合模糊集的概念,提出了自适应的软开关中值滤波方法,它能在有效地去掉脉冲噪声的同时,很好地保存图象的细节,是一种值得重视的新的图象复原方法。

3.1 2 代数方法

Andrews 和Hunt 提出了一种基于线性代数的图象复原方法。这种方法可能比较适合那些相对于积分运算,则更喜欢矩阵代数,而相对于分析连续函数,又更喜欢离散数学的人的口味。它为复原滤波器的数字计算提供了一个统一的设计思路。代数方法可分为伪逆法、奇异值分解伪逆法、维纳估计法和约束图象复原方法等。 其中,伪逆法,实质上是根据图象退化的向量空间模型来找到引起图象退化的模糊矩阵,但由于模糊矩阵总是很大的,因此在计算上往往不可行; 而奇异值分解伪逆法则是利用矩阵可分解成特征矩阵系列的思想,将模糊矩阵进行分解,由于简化了计算,从而有利于模糊矩阵的估计计算,但在有噪声存在时,经常会出现不稳定的现象; 维纳估计法虽然考虑了噪声的情况,但它仅适合噪声是二维随机过程,且已知其期望和协方差的情况。前面的方法仅把图象看成是数字的阵列,然而一个好的复原图象应该在空间上是平滑的,其在幅度值上是正的,而约束图象复原方法就是将这些因素作为约束条件,如基于维纳估计法和回归技术而提出的图象复原方法就是一种约束图象复原方法,而且通过选取不同的约束参数和回归方法可以得到不同的图象复原算法。传统的图象复原算法或面临着高维方程的计算问题,或要求恢复过程满足广义平稳过程的假设,这就是,使得具有广泛应用价值的图象复原问题没有得到圆满的解决的根本原因。

3.2 神经网络图象复原的方法

神经网络图象复原方法的发展方向自从神经网络图象复原首次提出十多年来,其研究在不断地深入和发展,描述它的现状已属不易,展望它的未来更是困难,况且科学研究具有不确定性. 据笔者判断,如下诸方面是亟待解决的问题,或研究活动已有向这些方面集中的趋势。

3. 2.1小波神经网络用于图象复原将是研究的重点

自1992 年Zhang 提出小波神经网络以来,如今已提出了各种类型的小波网络,且小波与神经网络的结合成了一个十分活跃的研究领域。通过学者们的理论分析和模拟实验表明: 由于小波神经网络具有逼近能力强、可显著降低神经元的数目、网络学习收敛的速度快、参数( 隐层结点数和权重) 的选取有理论指导、能有效避免局部最小值问题等优点,因此将其用于图象复原是一个值得研究的方向。将小波的时频域局部性、多分辨性等性质,与神经网络的大规模并行性、自学习特性等优点结合起来,不仅将使用于图象复原的小波神经网络具有自适应分辨性,也将使正则化参数的选取更具有自适应能力. 最终使复原图象既能保持图象的细节,又能很好地抑制图象中的各种噪声。

3.2.2细胞神经网络、BP 网络、自组神经网络

值得进一步研究细胞神经网络( CNN ) 由于其具有易于硬件实现的特点,因而具有很强的商业价值,但由于其自身还有很不成熟的地方,因此值得深入地研究. 其研究方向有: 细胞神经网络理论基础的进一步完善及在此基础上建立细胞神经网络中邻域系统的概念; 与图象数据局部相关性等概念结合起来研究,以建立新的图象复原理论,形成新的图象复原技术。BP 网络对受污染或带噪声的训练样本,不仅能进行正确的映射,且与其纯样本仍相似。 正是BP 网络的泛化能力强,使它在解决图象复原问题时,可能比其他神经网络具有更好的潜在性能。 将BP 网络用于图象复原是很值得进一步研究的.大家知道,人脑的学习方式是“自主的”,即有自组织和自适应的能力的,即人脑能在复杂、非平稳和有“干扰”的环境及其变化的情况下,来调整自己的思维和观念,还能根据对外界事物的观察和学习,找到其内在的规律和本质属性,并能在一定的环境下,估计到可能出现的情况以及预期会遇到和感觉到的各种内容及情况。 自组织神经网络(SONN) 正是基于人脑的这些功能而生成的,由于它具有能从输入的数据中,揭示出它们之间内在关系的能力,因此将其用于“盲图象”的复原将是非常有利的。

3.2.3 需要提出更适合图象复原的新神经网络模型

小波神经网络是为逼近任意非线性函数而提出来的,但为了图象复原的需要,可考虑针对图象复原的特殊情况,提出新的神经网络模型。 如,因为大多数图象是由平滑区域和轮廓细节组成的,其图象数据在平滑区域虽具有较强的相关性,但与轮廓细节相邻的数据应极不相关,所以,提出一种专用于图象复原的“相关性神经网络模型”是必然的期待; 再有,因为多项式具有较广的拟合性和较好的收敛性,所以应提出的“多项式神经网络”,将它们用于图象复原也是值得研究的。

3.2.4 神经网络与其他理论的结合

研究是寻求新模型、新方法的重要途径目前神经网络的研究正由单纯的神经计算转向计算智能,并结合脑科学的研究向生物智能方向发展。 为此,神经网络图象复原的研究也应考虑吸收模糊、分形、混沌、进化计算、信息融合等交叉学科的研究成果。 与模糊系统的结合将是一个重要的研究方向,因为,神经网络与模糊系统有如下很多的相同之处: ( 1) 它们在处理和解决问题时,无需建立对象的精确数学模型,而只需要根据输入的采样数据去估计其要求的决策; ( 2) 在对信息的加工处理过程中,均表现出了很强的容错能力; ( 3) 它们都可以用硬件来实现. 由此可见,将神经网络与模糊系统结合,用于图象复原将是有意义的研究工作。

4 未来展望

图像恢复发展到现在,已经有了许多成熟的算法,但是还是存在许多问题,等待着我们去解决。目前图像恢复的最新发展有:

1. 非稳图像复原,即空间可变图像复原。

2. 退化视频信号的复原问题,以及摄像机拍照图像复原,这是一个需要进一步研究的领域。

3. 运动补偿时空复原滤波,同时将时间相关应用到运动补偿中。

4. “Telemedicine“的出现,远程诊断极大的依赖于远程接受的图像质量,图像恢复在医学领域中有相当重要的作用。

5. 模糊 PSF 的 Identification 仍然是一个困难的问题,尤其在空间可变的 PSF 的估计中。

6. 空间可变恢复方法,可以利用 Wavelets 和 Markov 随机场等方法进行复图像恢复,这是一个具有发展潜力的研究方向。

参考文献

1 冯久超,黄海东. 基于神经网络的盲图象恢复[ J ] . 计算机科学,2000,27( 1) : 67~68.

2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.

第2篇:卷积神经网络现状范文

关键词:图像分割 阈值分割 遗传算法 小波变换

中图分类号:TP391 文献标识码:A 文章编号:1002-2422(2010)02-0001-03

图像分割是按照一定的规则把图像划分成若干个互不相交、具有一定性质的区域,把人们关注的部分从图像中提取出来,进一步加以研究分析和处理。图像分割的结果是图像特征提取和识别等图像理解的基础,对图像分割的研究一直是数字图像处理技术研究中的热点和焦点。图像分割使得其后的图像分析,识别等高级处理阶段所要处理的数据量大大减少,同时又保留有关图像结构特征的信息。图像分割在不同的领域也有其它名称,如目标轮廓技术、目标检测技术、阈值化技术、目标跟踪技术等,这些技术本身或其核心实际上也就是图像分割技术。

1 经典图像分割方法

1,1阈值分割方法

阈值分割是常见的直接对图像进行分割的算法,根据图像像素的灰度值的不同而定。对应单一目标图像,只需选取一个阈值,即可将图像分为目标和背景两大类,这个称为单阈值分割:如果目标图像复杂,选取多个阈值,才能将图像中的目标区域和背景被分割成多个,这个称为多阈值分割,此时还需要区分检测结果中的图像目标,对各个图像目标区域进行唯一的标识进行区分。阈值分割的显著优点,成本低廉,实现简单。当目标和背景区域的像素灰度值或其它特征存在明显差异的情况下,该算法能非常有效地实现对图像的分割。闽值分割方法的关键是如何取得一个合适的阈值,近年来的方法有:用最大相关性原则选择阈值的方法、基于图像拓扑稳定状态的方法、灰度共生矩阵方法、最大熵法和谷值分析法等,更多的情况下,阈值的选择会综合运用两种或两种以上的方法,这也是图像分割发展的一个趋势。

1,2基于边缘的图像分割方法

边缘总是以强度突变的形式出现,可以定义为图像局部特性的不连续性,如灰度的突变、纹理结构的突变等。边缘常常意味着一个区域的终结和另一个区域的开始。对于边缘的检测常常借助空间微分算子进行,通过将其模板与图像卷积完成。两个具有不同灰度值的相邻区域之间总存在灰度边缘,而这正是灰度值不连续的结果,这种不连续可以利用求一阶和二阶导数检测到。当今的边缘检测方法中,主要有一次微分、二次微分和模板操作等。这些边缘检测器对边缘灰度值过渡比较尖锐且噪声较小等不太复杂的图像可以取得较好的效果。但对于边缘复杂的图像效果不太理想,如边缘模糊、边缘丢失、边缘不连续等。噪声的存在使基于导数的边缘检测方法效果明显降低,在噪声较大的情况下所用的边缘检测算子通常都是先对图像进行适当的平滑,抑制噪声,然后求导数,或者对图像进行局部拟合,再用拟合光滑函数的导数来代替直接的数值导数,如Mart算子、canny算子等。在未来的研究中,用于提取初始边缘点的自适应阈值选取、用于图像层次分割的更大区域的选取以及如何确认重要边缘以去除假边缘将变的非常重要。

1,3基于函数优化的分割方法

此方法是图像分割中另一大类常用的方法。其基本思路是给出一个目标函数,通过该目标函数的极大化或极小化来分割图像。GA.Hewer等人提出了一个具有广泛意义的目标函数。统计学分割方法、结合区域与边缘信息的方法、基于贝叶斯公式的分割方法等是目前几种活跃的函数优化方法。

统计学分割方法是把图像中各个像素点的灰度值看作是具有一定概率分布的随机变量,且观察到的实际物体是作了某种变换并加入噪声的结果。统计学分割方法包括基于马尔科夫随机场方法、标号法、混合分布法等。

区域增长法和分裂合并法是基于区域信息的图像分割的主要方法。区域增长有两种方式,一种是先将图像分割成很多的一致性较强的小区域,再按一定的规则将小区域融合成大区域,达到分割图像的目的。另一种实现是给定图像中要分割目标的一个种子区域,再在种子区域基础上将周围的像素点以一定的规则加入其中,最终达到目标与背景分离的目的;分裂合并法对图像的分割是按区域生长法沿相反方向进行的,无需设置种子点。其基本思想是给定相似测度和同质测度。从整幅图像开始,如果区域不满足同质测度,则分裂成任意大小的不重叠子区域,如果两个邻域的子区域满足相似测度则合并。

2 结合特定工具的图像分割算法

虽然图像分割目前尚无通用的理论,但是近年来大量学者致力于将新概念、新方法应用于图像分割,结合特定理论的图像分割方法在图像分割方面取得了较好的应用效果。如小波分析和小波变换、神经网络、遗传算法等数学工具的利用,有效地改善了分割效果。

2,1基于遗传算法的图像分割

遗传算法是模拟自然界生物进化过程与机制求解问题的一类自组织与自适应的人工智能技术。对此,科学家们进行了大量的研究工作,并成功地运用于各种类型的优化问题,在分割复杂的图像时,人们往往采用多参量进行信息融合,在多参量参与的最优值求取过程中,优化计算是最重要的,把自然进化的特征应用到计算机算法中,将能解决很多问题。遗传算法的出现为解决这类问题提供了新而有效的方法,不仅可以得到全局最优解,而且大量缩短了计算时间。王月兰等人提出的基于信息融合技术的彩色图像分割方法,该方法应用剥壳技术将问题的复杂度降低,然后将信息融合技术应用到彩色图像分割中,为彩色分割在不同领域中的应用提供了一种新的思路与解决办法。

2,2基于人工神经网络技术的图像分割

基于神经网络的分割方法的基本思想是先通过训练多层感知器来得到线性决策函数,然后用决策函数对像素进行分类来达到分割的目的。近年来,随着神经学的研究和进展,第三代脉冲耦合神经网络(PCNN)作为一种新型人工神经网络模型,其独特处理方式为图像分割提供了新的思路。脉冲耦合神经网络具有捕获特性,会产生点火脉冲传播,对输入图像具有时空整合作用,相邻的具有相似输入的神经元倾向于同时点火。因此对于灰度图象,PCNN具有天然的分割能力,与输入图像中不同目标区域对应的神经元在不同的时刻点火,从而将不同区域分割开来。如果目标区域灰度分布有重叠,由于PCNN的时空整合作用,如果灰度分布符合某种规律,PCNN也能克服灰度分布重叠所带来的不利影响,从而实现较完美的分割。这是其一个突出的优点,而这恰恰是其他的分割方法所欠缺的,其在未来的图像分割中将起主导作用。

2,3基于小波分析和变换的图像分割

近年来,小波理论得到了迅速的发展,而且由于其具有良好的时频局部化特性和多分辨率分析能力,在图像处理等领域得到了广泛的应用。小波变换是一种多尺度多通道分析工具,比较适合对图像进行多尺度的边缘检测。从图像处理角度看,小波变换具有“变焦”特性,在低频段可用高频率分辨率和低时间分辨率,在高频段可用低频率分辨率和高时间分辨率,小波变换在实现上有快速算法具有多分辨率,也叫多尺度的特点,可以由粗及精地逐步观察信号等优点。近年来多进制小波也开始用于边缘检测。另外,把小波变换和其它方法结合起来的图像分割技术也是现在研究的热点。

3 图像分割的应用现状

在图像处理中,图像分割是一种重要的技术,是图像分析的基础。随着图像分割技术研究的深入,其应用日趋广泛,几乎出现在有关图像处理的所有领域,并涉及各种类型的图像。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。通常,图像分割是为了进一步对图像进行分析、识别、压缩、编码等,图像分割的准确性将直接影响后继的工作,因此,分割的方法和精确程度是至关重要的。目前,图像分割在图像工程中占据非常重要的位置,图像分割已在交通、医学、遥感、通信、军事和工业自动化等诸多领域得到广泛应用。表1是应用领域表。

第3篇:卷积神经网络现状范文

关键词:图像识别;OCR;题库采集;移动终端;特征建模

中图分类号:G434 文献标识码:A 论文编号:1674-2117(2016)12-0075-04

采集题库的现状

随着经济和社会的发展、“互联网+”的广泛应用及教育观念的更新,我们迫切需要科学、方便、完善的网络型题库管理系统。试题库建设是教育现代化的需要,是考教分离、最大限度提高办学效益的需要,因此,进行区域网络试题库系统的建设和研究具有十分重要的意义。

受限于教材版本和区域应用层面的需求,采购商业化的题库并不能完全满足教育教学的实际要求。手握大量纸质试卷的老师们,迫切需要一个录入神器,方便快捷地将其录入到题库系统里。

利用基于移动终端的图像文字识别技术将文字和图片迅速录入题库是我们在移动端系统开发的应用亮点。它能够大幅提高对质量不高图像的识别率,其关键算法对图像的噪声、亮度明暗不一致和规格凌乱的问题进行了很好的处理。它能够将图像上传到服务器进行在线识别,在识别过程中先对图像进行消噪,然后对亮度进行均衡处理及对图像阈值分割,提高了图像识别的成功率。

题库采集系统工作流程

题库采集主要分为图像采集、图像识别和标注三个过程。整体的工作流程包括:①系统启动,进入主界面,可选择开始拍摄阅卷或读取设备中已有的图像,如选择拍摄题目,进入图像采集模块,调用移动设备的摄像头进行拍摄,拍摄成功后,跳转至识别界面,如选择读取相册已有图像也跳转至识别界面。②在识别界面上显示出拍摄或者读取的相册图像,首先调用图像预处理模块对图像进行预处理,输出预处理后的图像,然后调用图像校正模块对预处理图像进行校正,输出校正图像,最后调用图像识别模块对校正图像进行识别,输出识别结果。③调用标注模块对识别结果进行分类管理,为题目添加系统属性,如学科、章节、知识点类目、题型、难度系数等标签。图1为题库采集系统工作流程示意图。

OCR智能模型设计思路

在人工智能领域,模拟人类图像识别活动的计算机程序,人们提出了不同的图像识别模型――模板匹配模型。这种模型认为,识别某个图像,必须在过去的经验中有这个图像的记忆模式,又叫特征模型。当前的刺激如果能与大脑中的模型相匹配,这个图像也就被识别了。例如,有一个字母A,如果在脑中有个A模板,字母A的大小、方位、形状都与这个A模板完全一致,字母A就被识别了。图像识别中的模型识别(Pattern Recognition)利用计算机和数学推理的方法对形状、模式、曲线、数字、字符格式和图形自动完成识别、评价的过程。

那么如何通过模型的学习提高OCR的智能判断水平呢?我们主要从以下三个方面做了实践研究。

1.采集识别优化

(1)二值化处理

二值图像在数字图像处理中占重要地位,其在处理实际图像过程中地位更加突出。要应用二值图像,扫描文档之后的第一步就是对灰度图像根据所选阈值进行二值化处理。二值图像是像素值为0或255的像素点集合,如此一来,图像的数据量大大减少,但图像的基本轮廓信息得以保留。此项的关键是所选取的阈值是否得当,不当则会减弱二值图像的处理效果。常用的阈值选取方法有固定阈值法、平均阈值法、直方图法、Means法四种。

谷歌公司在HP公司Tesseract光学字符识别引擎的基础上做了深度加工,其中对阈值的自适应分类器和两步矫正法的应用大大提高了文本的识别效率。近几年来,百度针对商业运用开发了自然场景OCR API服务,依托百度的OCR算法,提供了整图文字检测、识别、整图文字识别、整图文字行定位和单字图像识别等功能。目前火热的作业帮APP就是基于百度识别API做的延伸产品(如图2)。

(2)图像去噪与矫正

任何一幅原始图像,在其获取和传输的过程中,都会受到各种噪声的干扰,使图像质量下降,淹没其特征,对图像分析非常不利。为抑制噪声、改善图像质量所进行的处理被称为图像平滑或去噪。

图像平滑是用于突出图像的宽大区域和主干部分(低频部分)或抑制图像噪声和干扰(高频部分),使图像平缓渐变,减小突变梯度,改善图像质量的图像处理方法。它属于图像增强的一部分,主要的图像平滑方法有均值滤波、中值滤波、灰度形态学滤波、小波滤波、高斯低通滤波以及统计方法滤波。

已获得的文本图像有些不可避免地会发生倾斜,这样会给后面文字的行切分和列切分以及文字的识别带来困难,所以需要对获取的图像进行倾斜校正。图像的倾斜校正最关键的是倾斜角的检测,我们主要采用平行四边形法进行文本图像的校正(如图3)。根据拍摄者给出的一系列文件位置点,用位置点的坐标结合模型拟合出文本线,根据文本线与水平线之间的差距进行精确恢复,以得到水平分布的文本行。

2.特征提取与建模

特征提取是图像识别的重要步骤,为了保证后续处理的质量,生成的特征要具备描述物体的典型特性,如独特性、完整性、几何变换下的不变性、灵敏性以及抽象性。我们设计的系统的特征模型包括文字特征、图片特征、公式特征等。

提取图像特征关系可以有两种方法:一是对图像进行合理地分割,划分出图像中所包含的对象或区域,然后根据这些区域提取图像特征,并建立索引;二是简单地将图像均匀地划分为若干规则子块,然后对每个图像子块提取特征,并建立索引。

图像特征建模的基本原则是根据图像的视觉内容和可获得的指导信息来确定对应的文本语义描述。在图像标注任务中会涉及两种不同的媒体:一是图像,二是文本。这两种媒体具有良好的互补性,可以协作传递信息,正所谓“图文并茂”。由这两种媒体可以产生4种关系,即图像间关系(IIR)、词间关系(WWR)、由图像到词的关系(IWR)和由词到图像的关系(IR)。

3.基于标注模型的学习与训练

我们通常采用两两图像之间的视觉相似性(pairwise similarity)来建立以图像为节点的相似图,但这种方式由于没有考虑到数据集或某个数据子集内的结构分布信息,效果不能令人满意。因此我们引入了第二个以词为节点的图学习过程,用来实现对图像标注的改善。

最常见的是属性相关性,如“李白”是“古诗文”的关系。除此之外,词汇之间还存在多种相关性,如“凸透镜”与“光”之间有着很强的联系,这种相关性不依赖于特定数据集,它是人们在生活中大量知识的积累和反映。当一幅图像已被标为“凸透镜”“光”等词汇后,初中物理作为该图像标注词汇的概率就会相应提升。为了获取这种相关信息,一种方法是从训练数据集中利用已标注词汇间的共生概率来计算词汇间的关系。该方法基于已标注信息,相对准确,但它不能反映更广义的人的知识。于是,我们可以采用另一种方法,利用具有大量词汇的、包含了人的知识的结构化电子词典来计算词汇间的关系。与统计方法相比,词典包括了更加完整的大数据关联信息。由此我们设计了基于标注的模型学习体系(如下页图4),通过提取题目图像的特征点绑定其隐形属性,再与拍摄者提供的显性属性做比对,进行数据建模,并引导系统修正其三大特征库(文字、图片、公式),实现自我学习。

需要注意的是,基于标注信息描述由图到标签的关系,更适合按照多标记分类(multilabel classification)问题来解决。具体而言,假设标注词汇服从多项式分布,由此将图像标注归为多类别分类问题,而题库的分类方式恰恰符合这样的多标记模型(相对固定是显性标签:学科、学段、知识点、章节、难度等)。

注意事项

1.基于API方式的接入能使产品得到快速开发

例如,当前百度通过专业服务分发平台APIStore开放百度文字识别技术,让开发者可以零成本使用基于移动应用的OCR技术,为开发者创新应用提供了更多的选择。

2.题库特征建模要考虑学科特征

实践证明,文科和理科的题目有着截然不同的特征属性,如语文更注重词汇与语法方面的训练,而数学包含了大量的公式和二维化的图像。往往数学在小学和中学阶段的题目也会表现出不同的特征属性,在建模的同时要注意抽取。

3.未来的方向是要构建基于题库图像模型的题库推送规则

当题库的建构达到一定数量之后,我们要将图像和翻译成的题目都保存下来,再根据拍摄者的需求做相关的推送,根据其使用的情况(如点击率、评价等)再对模型进行修正。

从目前的技术发展角度看,突破性来自于机器语言翻译方面的研究成果:通过一种递归神经网络(RNN)将一种语言的语句转换成向量表达,并采用第二个RNN将向量表达转换成目标语言的语句。而谷歌将以上过程中的第一种RNN用深度卷积神经网络CNN取代,这种网络可以用来识别图像中的物体。此种方法可以实现将图像中的对象转换成语句,对图像场景进行描述。概念虽然简单,但实现起来十分复杂,科学家表示,目前实验产生的语句合理性不错,但还远谈不上“完美”,这项研究目前还处于起步阶段。相信在不久的将来此项发明将应用于教学领域,那么基于云模式下的图像识别系统将得到一个质的飞跃,它也将使图像识别与深度学习更加紧密地联系在一起,最终实现系统对互联网上教育资源摘取和自学习的强大功能。

参考文献:

[1]黄明明.图像局部特征提取及应用研究[D].北京:北京科技大学,2016.

[2]刘淼,杨镇豪,谢韵玲,谢冬青,唐春明.Android图文同步识别系统的设计和实现[J].计算机工程与设计,2014(06).

[3]李龙卓.基于形状特征的图像检索技术研究[D].青岛:青岛科技大学,2015.

[4]付芦静,钱军浩,钟云飞.基于汉字连通分量的印刷图像版面分割方法[J].计算机工程与应用,2015(05).

第4篇:卷积神经网络现状范文

关键词:语音情感识别;情感描述模型;情感特征;语音情感库;域适应

DOIDOI:10.11907/rjdk.161498

中图分类号:TP391

文献标识码:A文章编号文章编号:16727800(2016)009014303

作者简介作者简介:薛文韬(1991-),男,江苏常熟人,江苏大学计算机科学与通信工程学院硕士研究生,研究方向为语音情感识别。

0引言

1997年,美国麻省理工学院的Picard教授提出了情感计算(Affective Computing)的概念。情感计算作为计算机科学、神经科学、心理学等多学科交叉的新兴研究领域,已成为人工智能的重要发展方向之一。而语音情感识别作为情感计算的一个重要分支,亦引起了广泛关注。

许多国内外知名大学和科研机构也开始语音情感识别研究,国外如美国麻省理工学院Picard教授领导的情感计算研究小组,德国慕尼黑工业大学Schuller教授领导的人机语音交互小组等;国内如清华大学的人机交互与媒体集成研究所、西北工业大学音频、语音与语言处理组等。

1语音情感识别

语音情感识别系统主要由前端和后端两部分组成。前端用于提取特征,后端基于这些特征设计分类器。在语音相关应用中,运用比较多的分类器是支持向量机和隐马尔科夫模型。目前,语音情感识别的重点主要集中于特征提取。在传统的语音情感识别中,如何提取具有判别性的特征已成为研究的重点。随着数据的大规模增长,传统语音情感识别的前提(训练数据和测试数据具有相同的数据分布)已不能够被满足,研究者提出了迁移学习的概念,利用域适应方法来解决跨库的语音情感识别。

本文将从情感描述模型、语音情感特征、语音情感库、语音情感挑战赛这4个方面对语音情感研究现状进行总结,并给出现存语音情感识别的技术挑战及相应的研究方法。

2情感描述模型

目前主要从离散情感和维度情感两个方面来描述情感状态。

离散情感描述,主要把情感描述成离散的形式,是人们日常生活中广泛使用的几种情感,也称为基本情感。在当前情感相关研究领域使用最广泛的六大基本情感是生气、厌恶、恐惧、高兴、悲伤和惊讶。

相对于离散情感描述,维度情感描述使用连续的数值来描述情感状态,因此也称作连续情感描述。它把情感状态视作多维情感空间中的点,每个维度都对应情感的不同心理学属性。常用的维度情感模型是二维的激活度-效价(Arousal-Valence)模型,其二维空间如图1所示。其中横轴表示效价属性(Valence),用于衡量情感的正负面程度;而纵轴表示激活程度(Arousal),用于描述情感状态的唤醒程度。通过不同的效价度和激活程度,就能区分出不同的情感,比如悲伤与生气两种负面情绪虽然效价相差无异,但两者的激活度却有很大差异。

3语音情感特征

传统的语音情感特征可粗略地分为基于声学的情感特征和基于语义的情感特征。基于声学的情感特征又分为3类:韵律学特征、音质特征以及频谱特征[1]。音高、能量、基频和时长等是最为常用的韵律学特征,由于韵律学特征具有较强的情感辨别能力,已经得到了研究者们的广泛认同。音质特征主要有呼吸声、明亮度特征和共振峰等,语音中所表达的情感状态被认为与音质有着很大的相关性。频谱特征主要包括线性谱特征和倒谱特征,线性谱特征包括Linear predictor cofficient(LPC)、log-frequency power cofficient(LFPC)等,倒谱特征包括mel-frequency cepstral cofficient(MFCC)、linear predictor cepstral cofficient(LPCC)等。此外,基于这3类语音特征的不同语段长度的统计特征是目前使用最为普遍的特征参数之一,如特征的平均值、变化率、变化范围等。然而到底什么特征才最能体现语音情感之间的差异,目前还没有统一的说法。

在2009年首次举办的国际语音情感挑战INTERSPEECH 2009 Emotion Challenge(EC)的分类器子挑战中,组织者为参赛者提供了一个基本特征集,选择了在韵律学特征、音质特征和频谱特征中广泛使用的特征和函数,包括16个低层描述子(Low-Level Descriptors,LLDs)和12个函数,构建了一个384维的特征向量[2]。具体的16个低层描述子和12个函数如表1所示。

4语音情感库

语音情感库作为语音情感识别的前提条件,影响着最终语音情感识别系统的性能。目前,在语音情感库的建立方面还没有统一的标准,已构建的情感语音库多种多样,在语言、情感表现方式(表演型(acted)、引导型(elicited),自发型(naturalistic))、情感标记方案(离散情感或者维度情感)、声学信号条件、内容等方面具有很大差异。从情感表现方式而言,表演型情感一般是让职业演员以模仿的方式表现出相应的情感状态,虽然说话人被要求尽量表达出自然的情感,但刻意模仿的情感还是显得更加夸大,使得不同情感类别之间的差异性比较明显,这方面的语音情感库有Berlin Emotional Speech Database(Emo-DB)、Airplane Behavior Corpus(ABC)等[34]。早期对语音情感识别的研究都是基于表演型语料库,随着人们意识到引导型情感具有更加自然的情感表达之后,研究者们开始基于引导型情感库进行研究,比如eNTERFACE[5]。随着研究的深入,迫切需要一些自发的语音情感数据,目前出现了FAU Aibo Emotion Corpus(FAU AEC)、TUM Aduio-Visual Interest Corpus(TUM AVIC)、Speech Under Simulated and Actual Stress(SUSAS)和Vera am Mittag(VAM)[2,68]。常用的几个语音情感库如表2所示,描述了他们在年龄、语言、情感、样本个数、记录环境和采样率之间的差异。

5语音情感挑战赛

虽然已经有很多研究致力于语音情感识别,但是相对于其它语音任务(如自动语音识别和说话人识别)而言,语音情感识别中还不存在标准的语音情感库和统一的测试条件用于在相同条件下进行性能比较。同时,为了处理更加现实的场景,需要获得自然的语音情感数据。国际语音情感挑战INTERSPEECH 2009 EC旨在弥补出色的语音情感识别研究和结果可比性之间的缺陷,它提供了自然的语音情感库FAU AEC,以及开源工具包openEAR来提取基本的384维特征集,保证了特征的透明性,从而使得结果具有重现性和可比性[9]。FAU AEC库包括了德国两个学校(Ohm和Mont)10~13岁的孩子与索尼公司的机器狗Aibo进行交互的语音数据。为了实现说话人独立的语音情感识别,通常学校Ohm记录的数据用于训练,而Mont记录的数据用于测试。INTERSPEECH 2009 EC的情感分类任务主要包括2类情感(负面情感、所有其它情感)分类和5类情感(生气、同情、积极、中立和其它)分类,目前已有很多研究基于FAU AEC库进行情感分类。除了在FAU AEC库上进行传统的语音情感识别外,随着跨库语音情感识别研究的深入,很多研究者也将FAU AEC作为目标域数据库进行域适应的研究。

6语音情感识别的主要挑战

6.1语音情感特征

在传统语音情感识别中,提取具有判别性的特征已经成为一个重要的研究方向。在情感特征提取过程中,通常存在一些与情感无关的因素,如说话内容、说话人、环境等,这些不相关的因素将会使得提取到的特征包含这些因素方面的变化,从而影响情感分类性能。

目前已有部分研究开始考虑这些与情感无关因素的影响。同时,随着深度学习的提出与发展,越来越多的研究者开始使用深度神经网络进行特征提取。Chao等[10]利用无监督预训练去噪自动编码器,减少了情感特征中说话人的影响。Mao等[11]提出了半监督卷积神经网络模型,提取情感相关特征,通过实验证明其对说话人的变化、环境的滋扰以及语言变化都有很强的鲁棒性。Mariooryad 等[12]对特征构建音素层次的弹道模型,从声学特征中分解出说话人的特性,从而弥补说话人对语音情感识别的影响。

6.2跨库的语音情感识别

在传统的语音情感识别中,训练数据和测试数据一般来自同一个语料库或者具有相同的数据分布。随着数据的爆炸式增长,从不同设备和环境下获得的语音数据通常在语言、情感表现方式、情感标记方案、声学信号条件、内容等方面存在很大差异,这就造成了训练数据和测试数据分布的不同,传统的语音情感识别方法就不再适用。

近年来,迁移学习(Transfer Learning)的概念被提出,指从一个或多个源域中将有用的信息迁移到相关的目标域,以帮助改善目标域的分类性能[13]。域适应(Domain Adaptation)作为一种特殊的迁移学习,已成功应用于跨库的语音情感识别。Deng等[14]提出一种共享隐藏层自动编码器(shared-hidden-layer autoencoder,SHLA)模型,相较于传统的自动编码器,SHLA的输入数据包含了源域和目标域两类数据,让两个域的数据共用编码部分而解码部分不同,目的是诱使两个域的数据在隐藏层空间具有相似的数据分布。Huang等[15]利用PCANet沿着从源域到目标域的路径提取特征,并用目标域空间来调整路径上的特征,以此弥补域之间的差异。

参考文献参考文献:

[1]EL AYADI M,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes and databases[J].Pattern Recognition,2011,44(3): 572587.

[2]SCHULLER B,STEIDL S,BATLINER A.The interspeech 2009 emotion challenge[C].Proceedings INTERSPEECH 2009,10th Annual Conference of the International Speech Communication Association,2009:312315.

[3]BURKHARDT F,PAESCHKE A,ROLFES M,et al.A database of German emotional speech[J].Interspeech,2005(5):15171520.

[4]SCHULLER B,ARSIC D,RIGOLL G,et al.Audiovisual behavior modeling by combined feature spaces[C].IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2007:733736.

[5]MARTIN O,KOTSIA I,MACQ B,et al.The eNTERFACE'05 audiovisual emotion database[C].22nd International Conference on Data Engineering Workshops,2006.

[6]SCHULLER B,MULLER R,EYBEN F,et al.Being bored recognising natural interest by extensive audiovisual integration for reallife application[J].Image and Vision Computing,2009,27(12): 17601774.

[7]HANSEN J H L,BOUGHAZALE S E,SARIKAYA R,et al.Getting started with SUSAS:a speech under simulated and actual stress database[C].Eurospeech,1997,97(4): 174346.

[8]GRIMM M,KROSCHEL K,NARAYANAN S.The vera am mittag german audiovisual emotional speech database[C].2008 IEEE International Conference on Multimedia and Expo,2008:865868.

[9]EYBEN F,WOLLMER M,SCHULLER B.OpenEAR―introducing the Munich opensource emotion and affect recognition toolkit[C].3rd International Conference on Affective Computing and Intelligent Interaction and Workshops,2009: 16.

[10]CHAO L,TAO J,YANG M,et al. Improving generation performance of speech emotion recognition by denoising autoencoders[C].2014 9th International Symposium on Chinese Spoken Language Processing (ISCSLP),2014: 341344.

[11]MAO Q,DONG M,HUANG Z,et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Transactions on Multimedia,2014,16(8):22032213.

[12]MARIOORYAD S,BUSSO pensating for speaker or lexical variabilities in speech for emotion recognition[J].Speech Communication,2014,57(1): 112.

[13]PAN S J,YANG Q.A survey on transfer learning[J].IEEE Transactions on Knowledge & Data Engineering,2010,22(10):13451359.

第5篇:卷积神经网络现状范文

关键词:科学计算;大数据处理;超级计算机;模拟仿真;并行计算

1引言

在现代科学研究和工程实践中,通常使用数学方程式来表示某些自然科学规律,产生了众多复杂繁琐的数学计算问题[1]。基于普通计算工具来解决这些问题,将耗费大量人力物力,甚至无法得到准确结果。而科学计算[2],利用计算机仿真、重现、预测或探索自然世界万物运动规律和演变特性的全过程,通过研究合理的计算方法,设计高效的并行算法,研制合适的应用程序,能准确、高效地模拟各领域研究过程,分析计算结果。然而,普通计算机的科学计算能力往往是有限的,现有的计算能力无法高效地解决某些基础学科和工程技术部门的科学计算问题,如长期天气预报、石油勘探、飞机整体气动力等等。

与此同时,地震检测仪、粒子碰撞器、天文望远镜以及高通量分析装置等大型科学仪器的研制和发展[3],产生了大量非结构化或半结构化的数据,使得“大数据”趋势变得越来越突出[4]。如今,许多科学发现和见解由大量数据集驱动,“大数据”被认为是除了实验、理论和计算方法之外的第四种科学范式[5]。数据生成的容量、速度和多样性构成了分析大数据的主要挑战。

为提高科学计算能力,解决大数据问题,高性能计算(HPC)[6]技术迅猛发展。高性能计算机代表用于解决计算密集型科学和工程问题的高端计算基础设施。我国的高性能计算早已突破每秒浮点运算千万亿次的壁垒,并继续解决性能、可扩展性、可编程性、能效和可靠性等问题,探索新的支持技术以达到e级计算能力。

目前,高性能计算机已在多个领域得到了成功的应用[7],但仍存在大量可供多个研究机构使用的空闲节点。本文简介了一些高性能计算机系统及其性能,针对近年来在高性能计算机上的各大领域应用实例进行总结,并对在其他领域的应用做出了展望,以促进更高效、全面地使用高性能计算机。

2高性能计算机系统概述

中国首台千万亿次超级计算机,是“天河一号”。“天河一号”超级计算机使用由中国自行研发的“龙”芯片,其峰值计算速度能够达到1.206TFlop/s,同时Linpack实测性能达到了0.563TFlop/s,该超级计算机位居当时公布的中国超级计算机前100强之首,中国成为了继美国之后世界上第二个能够自主研制千万亿次超级计算机的国家。

天河一号采用6144个英特尔通用多核处理器和5120个AMD图形加速处理器,其内存总容量98TB。至于点对点通信的带宽就达到了40Gbps,而其用于共享的磁盘总容量则达到1PB。该超级计算机系统部署于天津滨海新区的国家超级计算天津中心作为业务主机。

2013年,由国防科学技术大学研制的“天河二号”大型超级计算机以每秒33.86千万亿次的浮点运算速度成为全球最快的超级计算机,位列国际大型超级计算机TOP500榜首。随后,“天河二号”实现了世界最快超算“六连冠”。天河二号采用基于加速器的架构[8]。在可接受的总成本、功率预算、支持可靠性、可用性和可服务性(RAS)的能力、应用开发和移植的复杂性下提供高的计算性能。

天河二号的硬件系统由五个子系统组成,包括计算系统、通信系统、存储系统、监控诊断系统和服务系统。它由16000个节点组成,每个节点有2颗基于IvyBridge-EXeonE52692处理器和3颗XeonPhi,每个节点的内存是64GB。所有的计算节点都通过专有的高速互连系统连接。还提供了一个服务子系统的4096个节点,以加快高吞吐量的计算任务,如大数据处理。存储子系统包括256个I/O节点和64个容量为12.4PB的存储服务器。天河二号文件系统命名为h2fs,采用麒麟操作系统、基于SLURM的全局资源管理。支持大多数现代编程语言,包括C、C++、Java、Python等。采用的是新型异构多态体系结构(Multipurpose-Heterogeneous)[9]。

天河二号的系统配置列于表1中。

“天河二号”集科学计算、大数据分析和云计算于一体,被认为是满足工业和社会需求的战略基础设施。以超级计算机为支撑的高性能计算应用正加速向各个领域渗透。

Table1SystemindicatorsofTianhe-2

表1天河二号系统指标

width=375,height=252,dpi=110

在国内早期的高性能计算机研究中,2004年6月超级计算机曙光4000A研制成功,落户上海超级计算中心,标志着继美国和日本之后,中国是第三个能研制10万亿次高性能计算机的国家。曙光能够每秒运算11万亿次,进入全球超级计算机前十名。经过十多年发展,曙光E级高性能计算机系统项目现在是国家“十三五”期间高性能计算的重点专项,其最显著的特点是突破了制约E级计算发展的各个关键技术,通过这样原型机的研制去验证E级的技术路线,为未来真正实现国产E级系统做技术铺垫。

width=642,height=303,dpi=110

Figure1StructureofSugon’sCPU

图1曙光CPU结构

在2016年法兰克福世界超算大会上,“神威·太湖之光”超级计算机系统成为新的榜首,速度较第二名“天河二号”快出近两倍,效率提高三倍。

神威·太湖之光超级计算机由40个运算机柜和8个网络机柜组成。每个运算机柜包含4块由32块运算插件组成的超节点。每个插件由4个运算节点板组成,一个运算节点板又含2块“申威26010”高性能处理器。一台机柜就有1024块处理器,整台“神威·太湖之光”共有40960块处理器。每个单个处理器有260个核心,主板为双节点设计,每个CPU固化的板载内存为32GBDDR3-2133。

在2018年的法兰克福世界超算大会上,美国能源部橡树岭国家实验室(ORNL)推出的新超级计算机“Summit”以每秒12.23亿亿次的浮点运算速度,接近每秒18.77亿亿次峰值速度夺冠,“神威·太湖之光”屈居第二。

3高性能计算机各大领域应用实例分析

为充分发挥高性能计算机的优势,极大限度地满足客户需求,自超级计算机在中国开始发展以来,相关团队都致力于扩展高性能计算在各个领域的利用,迎合各领域应用的计算要求,协助用户配置应用环境,建立高效模型,设计合理并行算法,以实现各领域的科学计算和大数据处理在高性能计算机上的应用。

3.1生物计算与精准医疗

根据广州国家超级计算中心的内部统计[10],生物医学相关应用现在是超级计算中心的主要客户。生物医学研究主要包括生物大分子的结构模拟与功能建模,药物设计与筛选,蛋白质序列分析,基因序列分析与比对,基因调控网络的分析与建模,医疗卫生的双数据分析及生物医学文献挖掘等。

生物医学数据繁多,且一直呈指数增长。如世界最大的生物数据保存者之一,欧洲生物信息学研究所(EBI),存储超过20PB的数据,并且最近每年的数据量都增加一倍[11]。数据源的异质性,包括基因组学、蛋白质组学、代谢组学、微阵列数据、文献等,使其更加复杂。

针对典型类型的大数据——基因组大数据,在大数据框架(如Hadoop和Spark)的帮助下,云计算已经在大数据处理中发挥着积极作用。现在,HPC在中国的快速发展使得以不同的方式解决基因组大数据挑战成为可能。Yang等人[12]强调了在现代超级计算机上增强大数据支持的必要性,提出只需单个命令或单个shell脚本就能使当前的大数据应用在高性能计算机上运行,并且支持多个用户同时处理多个任务的Orion作为高性能计算机的大数据平台。该平台可以根据大数据处理需求,合理分配所需的资源量,并使用HPC系统软件栈自动建立和配置可回收的Hadoop/Spark集群。以华大基因提供的基因组学大数据作为案例研究,测试基因组分析流水线SOAPGaea的FASTQ过滤、读取对齐、重复删除和质量控制四个过程,证明了Orion平台的高效性。

为更好地了解基因的精细结构、分析基因型与表现型的关系、绘制基因图谱,DNA序列分析成为生物医学中的重要课题[12]。

DNA序列的排序是对DNA序列分析的基础[13]。通常先使用测序仪得到生物体基因组的一些片段,再利用计算机对片段进行denovo拼接,从而得到DNA序列的排列顺序。而随着测序仪的发展,基因组的数据量增大,分析复杂性提高,普通计算工具分析数据会消耗大量时间和空间。张峰等人[14]基于高性能计算机,使用一种新型序列拼接工具SGA(StringGraphAssernbler),对任务之间数据耦合度小的分批构建FM-Index,采用粗粒度的多进程并行;对任务之间数据耦合度较大的FM-Index合并过程,采用多线程的细粒度并行。这种多进程与多线程的混合并行策略,使用并行计算代替通信开销,测试小规模数据时,将索引构建时间的最佳性能提高了3.06倍。叶志强等人[15]在基因组排序时,引入随机listranking算法,基于高性能计算机,使用MPI并行实现Pregel框架的线性化步骤,利用节点之间的通信和计算能力,减少了线性化步骤时间。

SNP(单核苷酸多态性)检测是DNA序列分析的关键步骤[16]。它将对齐的read、参考序列和被编排的数据库(如数据库SNPP)作为输入,通过站点检测对齐的read和引用站点的信息,生成SNP站点的列表。SNP检测工具SoAPSNP可以用一个多星期的时间来分析一个覆盖20倍的人类基因组。崔英博等人[17]通过重新设计SOAPSNP的关键数据结构以降低内存操作的开销,设计CPU与XeonPhi协作的协调并行框架,以获得更高的硬件利用率。并提出了一种基于读取的窗口划分策略(RWD),在多个节点上提高吞吐量和并行规模,开发了SOAPSNP的并行版本MSNP,在没有任何精度损失的情况下,利用高性能计算机的一个节点实现了45倍的加速。

方翔等人[18]利用高性能计算机,构建了由基因组与转录组测序数据分析、蛋白质结构预测和分子动力学模拟三个功能模块组成的生物信息平台分析水产病原,对约氏黄杆菌等多种水生动物病原进行生物信息学分析。

从生物医学文献中提取有价值的信息的一种主流方法是在非结构化文本上应用文本挖掘方法。然而,大量的文献需要分析,这对文本挖掘的处理效率提出了巨大的挑战。彭绍亮等人[19]将针对疾病实体识别的软件DNorm加入可高效识别基因、蛋白质、药物、基因通路等实体关系的文本挖掘工具PWTEES流水线中,扩充了PWTEES的功能。使用LINNAEUS导入MEDLIN数据库提供的摘要,并在个人账户目录下,动态使用计算节点,编译安装配置了非关系型数据库(MySQL),将大量非结构化数据(文献)转为结构化数据。将平时在普通服务器上需100天能完成的文本挖掘过程缩短为1小时,并利用200个进程并行挖掘7万篇头颈癌相关文献中的关键命名实体,得到了80%以上的并行效率。Xing等人[20]开发了一个可运行的框架PARABTM,它能够在超级计算机上实现并行文本挖掘。以GNormPlus、tmVar2.0、Dnorm三种命名实体识别任务为例,对多个数据集上PARABTM的性能进行了评价。结果表明,使用PARABTM并行处理策略中的短板匹配负载平衡算法(Short-Boardloadbalancingalgorithm),最大程度地提高了生物医学命名实体识别的处理速度。

3.2全数字设计与制造

数字设计与制造是一种以计算机系统为中心的集成制造方法。随着制造工厂中计算机系统数量和质量的提高,数字化趋势迅速。越来越多的自动化工具被用于制造工厂,有必要对所有机器、工具和输入材料进行建模、模拟和分析,以优化制造过程。而模拟能够建模和测试一个系统行为特性,让工程师能够用更低耗、更快速同时更安全的方式来分析所做的设计会产生什么样的影响。模拟的应用范围广泛,涵盖了产品设计、过程设计以及企业资源安排[21]。在模拟过程中,利用超级计算机强大的计算能力,使工程师能在几分钟或几小时内仿真和测试数千种设计方案。

利用数字化的方式,可以对产品进行结构力学分析、流体力学分析、电磁设计和多物理场模拟等多种计算仿真。

在计算流体力学CFD(CcomputationalFluidDynamics)领域的一大热点研究问题就是如何在当前主流的众核异构高性能计算机平台上进行超大规模计算。杨梅芳等人[22]在高性能计算机的单个节点上,利用超然冲压发动机燃烧数值模拟软件LESAP模拟一个实际发动机燃烧化学反应和超声速流动的问题,采用OpenMP4.0编程标准,向量化SIMD,优化数据传输过程,均衡基于网格块划分的负载技术,实现了软件面向CPU+MIC异构平台的移植,达到了3.07倍的性能加速比。王勇献等人[23]面向高性能计算机探索了高阶精度CFD流场数值模拟程序的高效并行性。在高性能异构并行计算平台上进行了多个算例的数值模拟的结果显示最大CFD规模达到1228亿个网格点,共使用约59万CPU+MIC处理器核,实现了移植后的性能大幅度提高。通过将算法移植到超级计算机进行大规模并行,能够实现高效的流体力学分析。而文献[24-26]都是针对空气动力学中的具体分类利用高性能计算机进行模拟以验证有效性的研究。利用数字化设计,能够快速低成本地对设计性能进行分析评估。

在图像模拟中,Metropolis光传输算法能够利用双向路径跟踪构建出由眼睛到光源的路径,是MonteCarlo方法的变体。然后,使用Metropolis算法静态计算图像中光线的恰当的散射状态,由一条已发现的光到眼睛的路径,能搜索到邻近路径。简单地说,Metropolis光传输算法能够生成一条路径并存储其上的节点,同时能通过添加额外节点来调整并生成新的路径。随着对照片级真实感图像的要求越来越高,为Metropolis光传输算法开发高效且高度可扩展的光线跟踪器变得越来越重要。主要是渲染图像通常需要花费大量时间,开发高效且高度可扩展的光线跟踪器的困难来自不规则的存储器访问模式、光携带路径的不平衡工作量以及复杂的数学模型和复杂的物理过程。Wu等人[27]提出了一种基于物理的高度可扩展的并行光线追踪器,并在高性能计算机上进行了实现,利用多达26400个CPU内核,证明了其可扩展性,能够从复杂的3D场景生成逼真图像。

模拟高场非局部载流子传输同样需要3DMonteCarlo模拟方法,通过适当的量子校正涵盖散射效应,半经典的MC模拟能够给出准确的结果。但是,MC方法中3D模拟和量子校正都需要巨大的计算资源[28],由效率出发超级计算机的计算能力就至关重要了。文献[29]中,通过在高性能计算机上使用IntelMIC协处理器,进一步提高了之前工作中开发的3D并行的继承MC模拟器的并行效率。

对于高性能计算机在全数字设计和制造领域的集成应用,国家超级计算广州中心推出了天河星光云超算平台,以云服务的方式提供CAE计算和HPC访问,大大降低了数字设计的门槛,支持产品设计的全工作流。目前基于该平台支撑的项目有诸如国产大飞机、高铁等,都是国家工业生产中重要项目[30]。

3.3地球科学与环境工程

基于该应用领域,超级计算机的主要作用在于变革对自然界中诸如地理状况、海洋、大气等种种元素的模拟方式。以超算为平台,不仅能模拟出地球上每个时期的状况,甚至是对宇宙中的种种同样能进行模拟分析,让地球科学和环境工程的研究范围不再限于此时此地,而是更广阔的空间。

在宇宙学的层面,早在2015年就利用高性能计算机模拟出宇宙大爆炸后1600万年之后至今约137亿年的暗物质和中微子的演化过程,并将进一步寻找宇宙边界的报告[31]。中微子虽然是自然界中的基本粒子之一,在宇宙大爆炸约1s后与其他等离子体物质退耦,形成看不见的宇宙背景,通过物理实验和实际的天文观测都无法精确测量中微子的质量。在高性能计算机平台上,利用3万亿粒子来对宇宙中的中微子和暗物质的分布和演化进行模拟,开创了宇宙学中独立测量中微子质量的道路。

在地球外围层面上,大气变化同样是一个关注点。Xue等人[32]提出了一种基于高性能计算机的全球性大气动态模拟的混合算法。通过使用更灵活的域分区方案来支持节点中任意数量的CPU和加速器,算法能够充分利用超算的优良性能。当使用8664个节点,包括了近170万个核心时,可以有效地利用节点内的三个MIC卡,对两个IvyBridgeCPU(24个内核)实现4.35倍的加速。基于成功的计算-通信重叠,算法分别在弱和强缩放测试中实现了93.5%和77%的并行效率。

相较于广袤无边的宇宙,大部分人们对于脚下的土地更加关心。自然灾害如地震、泥石流等,可能会造成巨大的生命财产损失,而地下油气资源又是经济社会发展所必需的,利用超级计算机去探索大地也是发展所需要的。

中石油集团开发的用于石油油气勘探的GeoEast系统已经经过了十几年的发展更新,在数据模型、数据共享、一体化运行模式、三维可视化、交互应用框架、地震地质建模、网络运行环境和并行处理方面取得了多项创新与重大技术突破,是地震数据处理解释一体化系统。目前GeoEastV3.0版本软件总体达到国际同类软件先进水平,为推动中国石油勘探开发领域不断取得新成果发挥了重要作用[33]。但是,这样的一体化系统在使用中势必会产生大量的数据,这就对计算机的性能有了要求。因此,在GeoEast系统闻名世界的过程中,高性能计算机在幕后是功臣之一,保证了系统的顺利运行,助力石油勘探工作[34]。而文献[35]专注于地震模拟,提出了针对英特尔至强处理器的对于软件SeisSol的优化,以适用于高性能计算机的计算环境中,通过全摩擦滑动和地震波的耦合仿真实现了空前复杂的地震模型。移植到高性能计算机的SeisSol提供近乎最佳的弱缩放,在8192个节点上达到8.6DP-PFLOPS,在所利用的整个高性能计算机上能达到18~20DP-PFLOPS,成功模拟了1992年兰德斯地震。

3.4智慧城市云计算

城市发展经过多年的调整,已经在经济上有了相当进展,目前从如何让人们生活更加便捷出发,许多地区开始建设智慧城市。智慧城市(SmartCity)是指利用各种信息技术或创新意念,集成城市的组成系统服务,以提升资源运用的效率,优化城市管理和服务,进而能够提高居民生活质量。智慧城市的发展不仅仅是对生活的改变,还能促进生产方式的转变,解决在城市扩张及经济高速发展中产生的一系列“城市病”问题。智慧城市,代表的是城市的智慧,由智慧,能够衍生出智能中、知识和数字等更广泛的内涵[36]。

迄今为止,广州、北京、上海、宁波、无锡、深圳、武汉、佛山等国内城市已纷纷启动“智慧城市”战略,相关规划、项目和活动渐次推出。高性能计算机云平台应运而生,为智慧城市建立坚实、先进的基石。智慧城市由于其性能需求,对依赖的平台的计算能力的要求会更高,而超算的计算能力就能为智慧城市的建设提供相当助力。在2014年,就有中国首台千万亿次超级计算机“天河一号”在智慧城市中应用的报道,以其在天津滨海区的应用为例,“天河一号”的建筑信息领域的大数据平台通过对建筑信息建模,实现对建筑物从规划、设计、建造到后期物业管理理的全程数字化。此外,城市规划、气象预测、生物医疗、装备制造、汽车碰撞模拟等行业,也能更多地通过“天河一号”,实现大批量数据计算、分析和存储[37]。

而高性能计算机的持续计算速度进一步达到了亿亿次,所能提供的服务质量也更高,麒麟云平台被部署在1920个节点(15个机柜),其中64个节点(两个机框)作为云平台控制节点,其余节点为运行虚拟机的计算节点和分布式存储的存储节点。为方便管理,将计算节点进行分区管理,512个节点(4个机柜)为一区,用于满足生产环境、适配环境、测试环境需要。分布式存储没有分区,所有节点形成一个全局的分布式存储池,但在使用时可按需划分指定容量的区域供不同用途使用[38]。这种云超算服务采用麒麟安全云系统实现虚拟化技术,将虚拟机资源远程推送给用户使用[39]。可通过互联网远程管理虚拟机资源,使高性能计算机云平台资源能够被更多人使用,超算的计算能力能够更好地推动社会各个领域发展。2017年OpenStack的第15个版本中,麒麟云团队在核心功能解决的Bug数,以及Commits的数量均进入全球前20,麒麟云的发展是非常迅速的,与开源社区紧密结合,贡献突出[40]。

3.5材料科学与工程

在材料科学与工程的研究中,量子力学、经典动力学、统计力学是三大基础且主要的研究方向。研究人员致力于材料参数的建模、多尺度平台开发和新材料的设计、开发和优化。

分子动力学模拟在材料科学、生物化学和生物物理学等领域得到了广泛的应用。分子动力学(MD)是研究分子和分子的物理运动的计算机模拟方法,它提供分子尺度上的微观取样。基于能量细化的辅助建模AMBER(AssistedModelBuildingwithEnergyRefinement)[41]是用于MD模拟的使用最广泛的软件包之一。然而,对于具有百万原子级的系统的AMBERMD模拟的速度仍然需要改进。彭绍亮等人[42]在单CPU上的细粒度OpenMP并行、单节点CPU/MIC并行优化和多节点多MIC协作并行加速方面进行了改进。在高性能计算机上实现AMBER的并行加速策略,与原程序相比,实现了25~33倍的最高加速比。同时,对于计算资源的限制,分子动力学软件GROMACS不能大规模地进行满意的操作。Wang等人[43]提出了一种利用卸载模式加速GROMACS的方法。为了提高GROMACS的效率,提出了异步化、数据重组和数组重用等一系列方法。在这种模式下,GROMACS可以与CPU和IntelXeonPHITM多个集成内核(MIC)协处理器同时有效地配置,充分利用高性能计算机资源。

材料辐照效应(Materialirradiationeffect)是使用核能的重要关键之一。然而,由于高通量辐照设施和进化过程知识的缺乏,此效应的利用并不好。在高性能计算的帮助下,Hu等人[44]提出了一种新的数据结构,用于大规模并行模拟金属材料在辐照环境下的演化。基于所提出的数据结构,开发了一种新的分子动力学软件——CrystalMD,并在高性能计算机上进行了二兆个原子模拟,对MD辐射效应研究的模拟规模进行了扩展。

3.6其他领域

近年来,随高性能计算的推广,政府部门对超级计算机的重视,旧产业转向新产业的变化及大量有高性能计算需求的企业对超级计算机的需求增大,超算人才培养初见成效[45]。在应用软件开发等推动下,高性能计算机的适用范围逐渐向更多领域渗透。

源于人工神经网络的研究深度学习作为人工智能的一个新研究领域,在模仿人脑的机制来解释如图像、声音和文本数据上有了很大进展。例如,卷积神经网络(CNN)能准确地对大型图像进行识别处理,然而CNN的训练密集程度很高,特别是对于大型具挑战性的任务,卷积层的参数数据量庞大。而高性能计算机的易访问、高峰值等性能使学术界和工业界都可以轻松访问相关平台,并可以在合理的时间内训练中等和较大规模的CNN。使用基于输入展开以将其投影为矩阵乘法(Unfold+Parallel-GEMM)的算法的CAFFE、Theano、Torch7、Chainer、CNTK和TensorFlow等最先进的CNN基础设施已可以在高性能计算机上进行部署和应用。

增强现实技术AR(AugmentedReality),将真实世界信息模拟至虚拟世界,让人随时产生真实感受。通过高性能计算机高效地实现算法,可以数字虚拟孕育“互联网+”新业态,开发虚拟试衣、模拟试驾等应用项目。