前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的生物信息学基本概念主题范文,仅供参考,欢迎阅读并收藏。
关键词:大数据;生物信息学;教学探索
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2015)29-0210-02
一、引言
生物信息学是由生物学与数学、计算科学交叉形成的前沿学科,主要通过研发并应用计算机技术及数学与统计方法,对海量生物数据进行管理、整合、分析、建模,从而解决重要的生物学问题,阐明新的生物学规律,获得传统生物学手段无法获得的创新发现。生物信息学是当今生命科学和自然科学的重大前沿领域之一,是多学科之间的交叉领域。因此,做好生物信息学教学工作对提高生物信息学研究水平具有重要的理论和实践意义。
随着高通量测序数据的大量出现,生命科学已经进入到大数据时代,生物信息学研究的重点将转移到组学的研究上。相应地,生物信息学教学的重点也要从单个基因的分析转向多个基因甚至在组学水平的分析。在生物大数据背景下,对生物信息学专业的人才需求也将越来越大。本文结合生物大数据的特点和教学经验,谈谈目前生物信息学教学中存在的问题,并针对这些问题提出自己的建议和方法。
二、生物大数据的特点
“大数据”一词最初起源于互联网和IT行业,它具有数据量大、数据多样化、高速、有价值等特点。生物大数据不仅带有“大数据”的特点,而且具有生物数据自身的特性,具体表现在:
1.数据量大:全球每年生物数据总量已经达到EB量级,完整的人体基因组有约30亿个碱基对,个体化基因组差异达6百万碱基。同时由于高通量测序成本的下降,目前大量的生物物种得以全基因组范围的基因组从头测序、重测序以及转录组测序,积累了大量的生物数据。
2.数据种类多:由于测序仪器种类繁多,产生的测序数据格式也各不相同。除高通量测序产生的基因组和转录组数据外,另外还有蛋白组、代谢组、表型组、相互作用组的序列数据和结构数据。
3.数据增速快:这主要体现在数据的急剧增长速度上,几乎每一周都有关于某一物种的全基因组或者转录组测序的信息。尤其是随着新一代测序技术的发展,更大数量级的基因组数据产出日渐增加――每台高通量的测序仪每天可产生约100GB的数据。
4.数据价值高:随着生物信息学的发展,越来越多有价值的信息可从生物数据中挖掘出来,这些价值不仅体现在生物科研领域,而且已应用于农业和医学等领域。
三、大数据背景下生物信息学教学中存在的问题
经过多年的发展,生物信息学教学虽然有了一定的提高和改善,但还存在一些问题,主要表现在:
(一)课程设置不合理
生物信息学是由生物学与数学、计算科学交叉形成的前沿学科,对生物背景的学生来说,需要掌握计算机和数学特别是统计学方面的知识和技能。但由于受课程设置的影响,很多学校只把C语言作为计算机的必修课,而没有在大一或者大二年级开设概率论和数理统计,并且生物统计学等课程也只是在大三或者大四才作为选修课或者限定选修课来开设的,造成部分开课专业学生的数理基础比较薄弱,因此在后续学习中存在一定的困难。
(二)教材内容不够全面
由于生物信息学发展日新月异,各种分析生物大数据的算法、方法和软件层出不穷,并且其更新换代是非常快的,而国内外相关教材的内容不够全面,并且其更新速度较慢,不能紧跟生物信息学的最新发展,造成教师在授课时要综合多本生物信息学教材的内容,不利于学生对生物信息学内容的全面掌握,从而制约了生物信息学教学的发展。
(三)教师的教学方法单一
生物信息学课程目前虽然在很多院校已经开设,但由于该学科对教师的授课水平和学生的学习能力要求较高,目前多数学校对于生物信息学的授课方式还是以教师讲授为主的填鸭式教学方式。随着大数据时代的到来,传统的教学方式和方法远不能满足生物信息学教学的需要。
四、生物大数据背景下生物信息学教学的建议和方法
为了适应大数据背景下生物信息学的教学形势,针对目前教学中存在的问题,作者结合自己的教学实践,建议从以下5个方面改进和提高生物信息学教学。
(一)合理设置基础课,强化基础理论
生物信息学是一门交叉性很强的学科,以复杂而强大的理论体系作为支撑,所涉及的内容包括计算机编程、信息检索以及数据库技术等。为了让学生学好生物信息学这门课程,各院校可以合理设置生物信息学的专业基础课,将生物信息学课程定位在大三或者大四年级学生,在大一、大二年级做好高等数学、数据库原理以及Perl语言等与之相关课程的教学工作,这些学生在掌握了一些与生物信息学相关的基础理论知识后,其对生物信息学的学习能力和理解能力才会有较大的提高。此外,学校要鼓励学生了解国内外有关大数据和生物信息学技术的发展趋势,并推荐有代表性且通俗易懂的文章和书籍,以强化学生的基础理论体系,为生物信息学的学习提供必要的知识储备
(二)培养大数据意识,加强对大数据分析的科学素养
生命科学研究已经进入到大数据时代,生物大数据的挖掘已经在农林科学、医学等领域产生巨大的效益,所以我们要培养学生树立大数据思维意识,全面认识生物大数据带来的机遇和挑战。生物信息学以生物数据为对象展开分析,它同时具备具体性和抽象性的特点。具体性是指以数据为对象挖掘出的生物学知识是客观存在的,其对生物学规律的解释性较强;抽象性是针对生物信息学中的理论和方法而言的,一般要求学生具有一定的生物信息学专业基础。在进行生物信息学教学时,要激发学生的学习兴趣,逐渐培养学生的大数据意识,规范学生对大数据分析的基本方法。可以通过实例,让学生参与到具体的生物信息学分析中去,以便理解生物信息学数据分析的基本操作流程,并在业余时间开展生物大数据在农业和医药行业成功应用的案例调查,以便激发学生利用生物信息学手段分析大数据的热情。
(三)优化教材内容,精心安排教学内容
鉴于目前生物信息学发展速度快,而国内外相关教材的更新速度较慢,所以要求在生物信息学教材的选取方面要下大力气,并且在授课时整合各个教材的优点。一般在生物信息学授课中整合以下三本书的内容:David W. Mount编写的《Bioinformatics Sequence and Genome Analysis》、李霞主编的《生物信息学》以及陈铭编写的《生物信息学》。
在教学过程中,为了使学生在有限的课堂教学时间内掌握生物信息学课程的主要内容,首先要优化课程教学体系,统筹安排教学内容,在生物信息授课中要抓住以下两条主线:序列―结构―功能―进化;基因组―转录组―蛋白组―相互作用组―代谢组,多组学贯穿。同时针对不同专业的特点与人才培养目标要求,合理分配各章节的教学课时,做到突出与专业密切相关的内容重点精讲。如在生物技术专业中,增加课时讲授分子药物设计章节,不仅要让学生了解生物信息学与分子药物设计的关系,而且要让学生掌握计算机辅助药物设计的理论方法以及软件操作。因此,以生物信息学教学内容的两条主线为依托,紧密围绕各专业的培养目标,做到理论联系实际,构建的教学体系和教学内容既能让学生掌握学科的知识理论体系,又有利于培养学生理解、分析、运用学科知识解决实际问题的能力。
(四)合理选用教学方法,提高教学效果
实践表明,不同的教学内容采用不同的教学方法授课可以收到良好的教学效果。为实现生物信息学课堂教学目标,完成相应的教学任务,教师要根据每堂课的教学内容,采用合适的教学方法,调动学生学习的积极性和主动性,提高课堂教学效果。可以从解决问题的角度出发进行理论教学。在理论课教学中,如果仍沿用传统的灌输式教学模式,肯定达不到预期的教学效果。课堂教学还可以根据需要,适时融入案例教学、问卷调查、多媒体展示、影片教学等方法,提高实际教学效果,培养学生的综合素质和创新思考能力。
上机实习注重发挥学生的主观能动性。生物信息学是一门实践性很强的课程,上机实习是教学的重要环节,它不但能够帮助学生更好地理解理论课所学知识,而且能够提高学生运用生物信息学的理论和方法解决实际问题的能力,对培养学生独立思考能力、观察能力、动手能力起着重要作用,更是培养学生创新能力的重要途径。
(五)理论和实践相结合,注重考核的灵活化
生物信息学是一门融合了多个学科的实践性很强的课程,对应的考核方式应该与其他专业课程有所区别,其最终的成绩不应该只以理论课考试的成绩为准。理论知识的考核注重学生对生物信息学基本概念、分析流程和主要分析算法的掌握情况,主要以试卷考核的方式为主,采用统一考核方式和评判标准。对于上机技能的考核,主要强调的是学生对不同类型数据进行分析时应掌握的相关软件使用技能的考查,也应纳入到学生的成绩考核中,我们认为理论考试占70分、实习成绩占30分是一个好的评价方式。
五、结束语
大数据背景下对生物信息学的教学提出了新的更高的要求。本文针对《生物信息学》教学中存在的问题,结合自己的教学经历对改进生物信息学教学和方法进行了一些探讨。本文认为要做好大数据时代的生物信息学教学,要从强化基础理论、培养大数据意识、精心设计教学内容、创新教学方法和改革考核评价体系等五个方面来开展和抓好生物信息学教学。
参考文献:
关键词: 离散数学 简介 应用
1.离散数学的简介
离散数学是现代数学的一个重要分支,是计算机类专业的重要课程。它以研究离散量的结构及相互间的关系为主要目标,研究对象一般是有限个或可数个元素,因此离散数学可以充分描述计算机学科离散性的特点。它是传统的逻辑学、集合论(包括函数)、数论基础、算法设计、组合分析、离散概率、关系理论、图论与树、抽象代数、布尔代数,计算模型(语言与自动机)等汇集起来的一门综合学科。该课程主要介绍离散数学的各个分支的基本概念、基本理论和基本方法。这些概念、理论及方法大量地应用于数字电路、编译原理、数据结构、操作系统、数据库系统、算法的分析与设计、人工智能、计算机网络等专业课程中;同时,该课程提供的训练有益于学生概括抽象能力、逻辑思维能力、归纳构造能力的提高,有利于学生严谨、完整、规范的科学态度的培养。
2.离散数学在其他学科的应用
2.1数理逻辑在人工智能中的应用
人工智能是计算机学科一个非常重要的方向。离散数学在人工智能中的应用,主要是数理逻辑部分在人工智能中的应用,包括命题逻辑和谓词逻辑。命题逻辑就是研究以命题为单位进行前提与结论之间的推理,而谓词逻辑就是研究句子内在的联系。人工智能共有两个流派:连接主义流派和符号主义流派。在符号主义流派里,他们认为现实世界的各种事物可以用符号的形式表示出来,其中最主要的就是人类的自然语言可以用符号进行表示。语言的符号化就是数理逻辑研究的基本内容,计算机智能化的前提就是将人类的语言符号化成机器可以识别的符号,这样计算机才能进行推理,才能具有智能。由此可见,数理逻辑中重要的思想、方法及内容贯穿人工智能的整个学科。
2.2图论在数据结构中的应用
离散数学在数据结构中的应用,主要是图论部分在数据结构中的应用,其中树在图论中占着重要的地位。树是一种非线性数据结构,在现实生活中可以用树来表示某一家族的家谱或某公司的组织结构,也可以用它来表示计算机中文件的组织结构,树中二叉树在计算机科学中有着重要的应用。二叉树中三种遍历方法:前序遍历法、中序遍历法和后序遍历法,均与离散数学中的图论有密不可分的关系。
2.3离散数学在生物信息学中的应用
生物信息学是现代计算机科学一个崭新的分支,是计算机科学与生物学相结合的产物。目前,美国有一个国家实验室Sandia国家实验室,主要进行组合编码理论和密码学的研究,该机构在美国和国际学术界有很高的地位。另外,由于DNA是离散数学中的序列结构,美国科学院院士,近代离散数学的奠基人Rota教授预言,生物学中的组合问题将成为离散数学的一个前沿领域。而且IBM公司将成立一个生物信息学研究中心。在1994年,美国计算机科学家阿德勒曼公布了DNA计算机的理论,并成功地运用DNA计算机解决了一个有向哈密尔顿路径问题,这一成果迅速在国际产生了巨大反响,同时引起了国内学者的关注。DNA计算机的基本思想是:以DNA碱基序列作为信息编码的载体,利用现代分子生物学技术,在试管内控制酶作用下的DNA序列反应,作为实现运算的过程;这样,以反应前DNA序列作为输入的数据,反应后的DNA序列作为运算的结果,DNA计算机几乎能够解决所有的NP完全问题。
2.4离散数学在门电路设计中的应用
在数字电路中,离散数学的应用主要体现在数理逻辑部分的使用。在数字电路中,广于使用的逻辑代数即为布尔代数。逻辑代数中的逻辑运算与、或、非、异或与离散数学中的合取,析取、否定、异或(排斥或)相对应。数字电路的学习重点在于掌握电路设计技术,在设计门电路时,要求设计者根据给出的具体逻辑问题,求出实现这一逻辑功能的逻辑电路。
总之,离散数学无处不在,它的主要应用就是在各种复杂关系中找出最优的方案。离散数学完全可以看成是一门量化的关系学,一门量化了的运筹学,一门量化了的管理学。现在我国每一所大学的计算机专业都开设离散数学课程,正是由于离散数学在计算机科学中的重要应用,因此可以说没有离散数学就没有计算机理论,也就没有计算机科学。所以应努力学习离散数学,推动离散数学的研究,使它在计算机中有着更广泛的应用。
参考文献:
[1]朱家义,苗国义,等.基于知识关系的离散数学教学内容设计[J].计算机教育,2010(18):98-100.
[2]方世昌.离散数学.西安电子科技大学出版社,1985.
[3]陈敏,李泽军.离散数学在计算机学科中的应用[J].电脑知识与技术,2009,5(1):251-252.
关键词:生物统计学;教学效果;课堂效率
中图分类号 G642.0 文献标识码 A 文章编号 1007-7731(2017)06-0182-02
Study on Improving Teaching Efficience on Biology Statistics
Fang Ming et al.
(College of Life Science and Technology,Heilongjiang August First Land Reclamation University,Daqing 163319,China)
Abstract:Biology statistics is an fundamental professional classes in life and technology college and very important status in agricultural practice.However,current teaching methods existed many problems.Therefore,the article reformed three aspects of theory and practice and test so as to improve class efficiency and teaching effects.
Key words:Biology statistics;Teaching effects;Teaching efficience
生物y计学是高等院校农学、动物科学以及生命科学专业的必修课程之一,生命科学的快速发展、大量数据的涌现使得生物统计学重要性日益凸显,但是在课堂教学实践上存在严重问题,笔者在课堂实践中感受到,传统的“满堂灌”授课方式在生物统计学中教学效果不好,因此,本文针对生物统计学课程目前存在的问题,从课程基本理论、实验、考核方式等方面进行改进和完善,优化教学方法,改革教学方式,提高教学质量和教学效果。
1 改善教学方法,提高课堂学习效率
1.1 完善课程资料,丰富课堂活动 学习“生物统计学”课程需要具备一定的高等数学、线性代数、概率与数理统计知识,对于农业大学普通本科生来说,由于在大一阶段学得不够详细深入,学起来难度较大。教师在黑板上写满数学大公式,枯燥乏味,学生数学基础差,听不懂课,缺乏课堂互动,久而久之,教师授课缺乏动力,形成恶性循环。因此教师需要在授课风格、内容、学习方法等多方面做必要的调整[1]。首先要激发学生的学习兴趣,强调本门课程在生产和科研中的地位和作用,使学生意识到课程的重要性,激发学生的求知热情;其次教师需要重视课件的质量。课件要求生动、形象的展示教学内容,需要突出教学重点,在教学方法、版书设计等方面精心设计,精心准备上课资源,包括PPT、论文、Word和Excel、SPSS 等。要让课件的内容富有新鲜感,将知识性与趣味性结合起来。讲解内容需要具有详细的操作步骤,能够促进学生理解和操作。
1.2 推荐简单实用统计软件,简化繁冗程序 目前统计学上国际通用的软件包主要有SAS、SPSS等,功能强大;但针对农科院校的本科生而言,难以理解,而且是英文界面,结合多年教学经验,围绕教学目标逐步展开学习。研究者向学生推荐EXCEL,它基本能满足本科教学的需要,操作简便,建议在教学中推荐使用。
1.3 教学手段和方式方法的多样化 在课程讲授中要根据不同的教学内容采用不同的教学方式和方法。对于统计学基本理论,以讲授为主,讲清楚基本概念,说明其意义及应用条件。对于统计分析方法,引导学生运用数理统计原理探究问题和方法,培养学生的统计思维能力[2]。对于以文字叙述为主且容易理解的内容,指导学生自学,组织课堂讨论,以学生为主体,可以使学生的自学能力、思维能力增强,培养学生总结归纳和表达的能力。在授课过程中更多地创造机会让学生参与教学过程,老师多提出问题,让学生与教师多进行良性互动,可以使学生的文字及口头表达能力得到全面提高。每次授课结束后,布置一定量的课后习题,督促学生及时复习所学知识,从而对所学内容得到巩固和提高[3]。
2 优化实验内容,注重培养学生操作能力
生物统计学实验教学主要是培养学生综合运用基本理论和方法解决实际问题的能力。通过理论课上的讲授和练习后,学生基本全能掌握所学内容,但练习的内容与实践相脱节,所以实验课的内容以综合性、设计性实验为主,充分发挥学生的主观能动性和综合分析及解决问题的能力。实验课前,教师将要求学生熟悉实验内容[4]。上课时,学生根据内容上机操作学习,要求学生书写操作步骤,教师现场进行答疑,课后教师认真批阅电子版的实验报告后,再将学生的问题、成绩及评语反馈给学生。若实验中学生出现共性问题,教师则先将问题给学生讲解清楚再进行下节课的学习。通过师生之间的不断交流,教师可以及时掌握学生学习情况,有利于教师不断调整教学方法及进度以达到更好的教学效果。由此可见,通过各种相关的教材、网络、学院科研成果等方面的积累,收集大量的案例数据,建立富有学科特色的案例素材库,将实验内容与专业实验相结合,促进科研成果向教学资源的转化,丰富生物统计学的实验内容。教学内容的增加,开阔了学生视野,很多学生通过查阅文献,根据实验室条件,选定因素、水平可以独立设计试验和进行数据处理[5]。
3 改革考试方式
考试能够直接反馈教学效果,《生物统计学》的教学内容主要包括理论知识和综合应用两大部分,考试主要围绕理论知识和实际操作能力两个方面展开[6]。准确反映学生对于《生物统计学》的掌握程度。将理论知识与实际应用的比例应调整为5∶5,平时成绩与期末成绩的比例调整为3∶7或4∶6,降低考试的偶然误差。增加命题的多样化,重点考察学生基本知识的掌握程度及解决实际问题的能力,通过考察软件操作等方式来测试学生对统计知识的运用能力。
由此可见,本研究针对生物统计学课程实践性、应用性强的特点和目前教学中存在的问题,采取了理论教学与实验教学紧密结合、强化软件应用教学、制作多媒体课件辅助教学、改革考核方式以及建设开放式数量分析实验室等多种措施,增强了学生学习生物统计学的兴趣,进一步培养了学生运用生物统计方法分析和解决问题的能力,取得了较好的教学效果。在今后的生物统计学实验教学中,教师需要与时俱进,根据教学和科研需要,不断更新教学内容,采用先进的教学模式、教学方法和考核手段,使学生积极、快乐地学到知识,培养了学生逻辑思维能力、语言表达能力和自学能力,同时提高学生发现问题、解决问题的能力。
参考文献
[1]吕敏芝,林树茂,何兰花,等.生物统计学教学改革实践与体会[J].中山大学学报论从,2007,27(4).
[2]叶子弘,崔海峰,陈 春,等.生物统计学课程“能力素质培训计划”的构建及分析[J].安徽农业科学,2011,39(10):6268-6269.
[3]张强,张建平.生物统计学实验教学的探索与实践[J].实验室科学,2012,15(6).
[4]丁雪梅,张晓君,谭智敏,等.生物统计学实验教学改革的探索与实践[J].黑龙江畜牧兽医,2014.
[5]朱香萍,李桢,张庭荣.信息时代《生物统计学》教学的探索与实践[J].农业网络信息,2008(2).
关键词:基于内容图像检索;相关反馈;主动学习;样本选择
中图法分类号:TP391 文献标识号:A 文章编号:2095-2163(2013)04-
Research on Reference Feedback based on Active Learning
WU Weining, LIU Yang, GUO Maozu*, WANG Chunyu, LIU Xiaoyan
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001)
Abstract: Reference feedback is a common technique in the field of information retrieval. Recently, it has been widely applied in the task of content-based image retrieval (CBIR) in order to overcome the gap between low features and high semantic concepts by utilizing the user-computer interaction. This paper combines the active learning into reference feedback technique. The goal is to choose the most informative images in the unlabeled pool as returned images by using the active learning, and then reduces the feedback times. On the COREL database and VOC database, the paper evaluates the proposed method. The experimental results indentify that the reference feedback based on active learning can effectively enhance the performance of CBIR system.
Keywords: Content-based Image Retrieval; Reference Feedback; Active Learning; Sampling Strategy
0 引言
相对文本而言,图像包含的内容则要丰富得多。由于互联网的发展,web上的图片数量正日趋庞大,图像包含的语义信息亦千差万别,另外具有相同语义信息的图像数量页在与日俱增。因此,作为信息检索中一个重要分支,基于内容的图像检索(CBIR)已成为关注热点。
CBIR方法是以一幅图像作为单位,通过使用图像领域的前沿技术,提取图像的视觉特征,例如:颜色,纹理等。当用户查找图像时,搜索引擎根据用户所提供的图像视觉特征,寻找与之相似的图像。这一做法避免了TBIR策略存在的问题,可直接对图像进行操作。但是,由于图像处理技术的局限性,单纯提取图像底层特征很难完整描述图像包含语义信息,并且,图像所属的不同领域,所包含的视觉对象之间具有的空间信息等,也会对图像的语义信息产生很大的影响。为了使搜索引擎能够根据用户提供的高层语义概念返回与用户选择图像语义最为接近的图像,相关反馈技术则提供了一种良好的实现途径。该技术是使得检索系统可根据算法选择少部分图像返回给用户,用户对这些图像给出标记信息,学习系统再从这些标记图像中进行知识学习,并利用这些新知识提供新的检索结果。
根据相关反馈过程的特点,主动学习技术可以有效地用于该过程。具体做法是通过采样算法选择对检索系统最有利的部分样例作为反馈图像,并将这些图像提交给用户进行标记。使用主动学习技术选择反馈图像的目的是减少提升检索系统性能所需要的反馈图像数量,同时也一并减少用户的工作量和提交反馈图像标记的次数。根据这一目的,本文提出一种基于主动学习算法的相关反馈技术,利用主动学习技术从大量无标注待检索图像中选择信息含量最大的图像,将这些图像作为反馈图像,提交用户进行标注,由此而减少用户标记反馈图像的次数和数量,并提高CBIR系统的性能。本文主要工作和贡献概述如下:根据CBIR图像系统中给出的目标图像,学习一个直推向量机模型[1](Transductive Support Vector, TSVM);使用该模型对图像库中的所有待检索图像与目标图像的相似程度进行预测;根据预测结果计算图像对应的信息熵值,选择信息熵的绝对值最小的一组图像作为反馈图像,提交用户获取标记信息;将标注后的图像用于进一步学习直推向量机模型,上述训练过程迭代进行,直至达到用户满意的检索效果为止。结合提出的算法过程,本文在Visual Studio 2005平台开发和实现了这一图像检索系统,并在COREL图像库上对系统性能进行了实验验证,实验结果证明了系统的有效性。
1 相关工作
基于内容的图像检索(CBIR)方法可以被视作机器学习领域中的分类问题,即根据所给出的待检索图像,学习一个分类模型,利用该模型将图像库中的图像划分为目标图像和非目标图像。在检索过程中,一个首要的问题是如何克服图像的底层特征与高层语义概念之间的语义鸿沟。为了解决这一问题,相关反馈技术通过向用户提交查询的方式,让用户提供一部分图像的语义信息,根据反馈图像中的语义信息,提升系统检索的准确度。另外,随着用户提交反馈次数的增加,学习系统逐步将反馈的图像添加到学习系统的训练集中,并使用增量学习的方式,学习用户提供的语义知识。值得注意的是,使用相关反馈技术的CBIR系统的学习方式与主动学习算法具有很大的相似性,因此,利用主动学习算法设计相关反馈,提升CBIR系统的精度,这一做法越发受到研究人员的广泛重视,成为研究热点。
目前,已有一些研究人员致力于将主动学习算法应用于相关反馈技术中,并取得了良好的实际效果。这些做法可以分为两大类。第一类是委员会投票方法[2,3],此类做法的特点是在同一个图像集上同时学习多个分类模型,并使用这些模型对同一个无标注图像的类别进行投票,选择分类模型差异程度最大的图像作为反馈图像;第二类是基于不确定度的反馈方法[1],这类做法的特点是使用当前分类模型对无标注图像的类别进行预测,并根据分类模型的预测结果计算分类模型对图像的置信度,再选择当前分类模型最不确定的图像交由用户进行反馈。
首先,训练集已知的情况下,Platt提出一种贪心算法[4],根据无标记样例对应的未来期望误差,从无标记样例集合中选择训练样例,目的是通过选择未来期望误差最小的样例,逐步搜索主动学习算法的全局最优解。但是,这一做法的缺点是,为了计算每个无标记样例的未来期望误差,需要分别计算该样例被添加正类标记和负类标记后对分类模型的影响,即多次重新训练分类模型。如果无标记样例数量巨大,这一做法的计算消耗很大,因此,很难满足检索系统的要求。近年来,支持向量机模型以其在小样本学习问题上的卓越性能受到了广泛关注。针对该支持向量机模型的启发式主动学习算法也随之得到了更多的研究与使用,例如:Schohn提出了一种启发式的SVM主动学习算法,通过核空间将图像的底层特征维度无限放大,获得了一个特征维度数目远远高于样本数量的稀疏空间,而主动学习的做法是选择包含尽可能多的维度信息的样例作为包含信息含量最高的样例。事实证明,这种方法不但可以获得近似于贪心算法的结果,而且运行效率更高[5]。在该类做法中,包含维度信息最多的样例主要集中在距离支持向量机的分类超平面较近的位置,因此,这一主动学习算法主要选择距离分类界面最近的样例作为反馈样例。与Schohn的做法不同的是,Zhou提出了SSAIR算法[6]。该算法通过利用半监督学习中的co-training算法,结合主动学习中的co-testing模式,使用co-training中训练得到的两个分类模型对测试样本进行投票分类,最终,采用两个分类模型产生分歧的样本作为供用户反馈的备选样本。与其它用于该领域的主动学习算法不同的是,这一做法改变了传统反馈图像集由用户在前次检索中系统认定的与待查询图像最相关的那些图像来构成的定则,而是通过分类模型的投票来选择反馈图像集,尽最大可能改进检索系统的性能。
以上两类做法中,第一类方法需要同时学习多个模型,计算量和时间消耗较大,为了满足图像检索系统的实时性要求,本文选择第二类方法选择反馈图像。事实上,Schohn和Zhou提出的主动学习算法的共同特点是,认为分类模型最不确定或者置信度最低的样例是无标记图像中信息含量最大的样例,在具体做法中则表现为多个分类模型彼此间分歧最大或者距离分类超平面最近的样例,选择这些样例进行标记,可最大限度提高分类模型的性能。与这些方法不同的是,本文提出一种最大信息熵的主动学习算法,在所有无标注样例中,选择样例对应的信息熵值最大的样例点作为信息含量最大的样例,并以此作为反馈样例。算法的目的是在有限的检索时间条件下,更加有效衡量样例的信息含量,由此提高检索系统的性能。
2 基于主动学习的相关反馈算法
2.1信息熵最大化采样策略
本节详细介绍了信息熵最大化这一采样策略,为了方便理解,首先给出问题的基本概念。因为基于相关反馈技术的图像检索系统是一个迭代的学习过程,这里假定在第轮迭代中,训练集表示为,其中,分别表示训练样例及其对应的标记信息。因为图像检索可看作是将待检索图像划分为正类和负类的过程,故有。本文使用TSVM作为分类模型,则在当前迭代步中,TSVM算法学习的分类超平面为:
这里,和分别表示训练样本和无标记样本在核空间的距离,是偏差项。对于任意一个无标记样本,不考虑相同的归一化系数,该样本与分类超平面之间的距离是:
鉴于TSVM模型仅能提供无标记样本与分类界面之间的距离,而无法提供样本与对应的类别标记之间的精确概率输出,为此,本文在这里使用了sigmoid函数,通过拟合的方法获得样本对应类别标记的后验概率值,即:
其中,参数和使用Platt[7]中的优化算法,迭代求解得到。根据无标记样本对应的后验概率值,无标记样本对应的信息熵值可以通过下式计算:
根据计算得到的信息熵值,选择信息熵值最大的样本,作为本轮迭代中最适合加入到训练集中的无标记样本,,即:
2.2 基于主动学习的相关反馈过程
信息熵是信息论中反映样本信息含量的指标之一,鉴于此,信息熵也经常在机器学习算法中作为样本信息含量的度量标准。值得注意的是,在公式(5)中,分类模型对无标注样本的预测概率越接近于0.5,无标注样本对应的信息熵值越大,该样本的不确定程度也就越大。在这一点上,信息熵最大化采样策略与基于不确定程度的采样策略的目标是一致的。在图像检索的相关反馈过程中,本文使用信息熵最大化采样策略,由待检索图像中选择反馈图像,提交用户做出标记,将标记后的样本用于分类模型的训练过程,这个过程迭代进行,直至用户满意为止。下面,给出了基于主动学习的相关反馈的算法过程。
算法:基于主动学习的相关反馈算法
输入:标记图像集,无标记图像集,反馈图像数量
输出:检索结果
BeginFor
(1)在标记图像集上学习TSVM分类模型,获得公式(1)中的分类超平面;
(2)根据分类超平面,使用公式(2)计算每一个无标记样本与该分类界面之间的距离;
(3)通过公式(3)中的sigmoid函数拟合,获得无标记样本对应的后验概率值;
(4)使用公式(4)逐个计算无标记样本的信息熵值;
(5)选择信息熵值最大的个无标记样本作为反馈图像,提交给用户进行标记;
(6),;
(7)如果用户对当前检索结果满意,则结束,否则返回步骤1,。
EndFor
在上面的反馈过程中,每轮迭代中,检索系统返回信息熵最大的一组样本提交给用户标注,该做法可以减少迭代次数,在用户可接受的范围内,尽可能多地提供标注样本用于训练。
3 实验结果与分析
3.1数据库及实验设计
本实验使用COREL图像库中的3类图像作为待检索图像,每类图像包含100幅图像,这3个图像类别分别是鹰,鱼和马。本文分别提取每一幅图像的特征组成样本集合,使用TSVM作为分类模型,用于从CBIR系统中获得检索结果。在每一组实验中,首先,从待检索图像中随机抽取一幅图像作为目标图像,训练TSVM模型;根据该模型的预测结果,计算每一幅图像的信息熵值,并选择信息熵最大的五幅图像作为反馈图像();提交用户标记后,将反馈图像和标记用于训练TSVM模型,同时给出检索结果;该过程循环进行,直至达到结束标准为止。本文使用查全率(precision)作为图像检索结果的评价标准,其中,检索系统划分的相关图像数量是100幅,召回图像数量是20幅。
3.2实验结果
在表1和表2中,本文给出了反馈次数为5次,并使用不同的图像底层特征条件下,在不同语义类别上,CBIR系统的检索结果。从实验结果可以看出,使用最大墒作为样本信息含量的度量标准,基于主动学习的相关反馈技术在图像检索系统中取得了良好的检索结果。随着反馈次数的增加,CBIR系统的检索结果得到逐步提高。同时,表1和表2的对比还可以发现,颜色稀疏和相关图组成的混合特征获得了比SIFT特征更好的检索结果,这是因为前者的维度高于后者,提供了更多的图像底层语义信息,由此而提高了检索效果。
表1 颜色稀疏和相关图的混合特征条件下,不同反馈次数时,CBIR系统检索精度
Tab. 1. Using sparse color and related features, different feedback times, the precision of CBIR system
初始值
反馈1次
反馈2次
反馈3次
反馈4次
反馈5次
鹰
0.71
0.724
0.73
0.628
0.732
0.75
马
0.502
0.522
0.428
0.526
0.522
0.604
鱼
0.494
0.538
0.504
0.536
0.572
0.468
表2 SIFT特征条件下,不同反馈次数时,CBIR系统检索精度
Tab.2 Using SIFT features, different feedback times, the precision of CBIR system
初始值
反馈1次
反馈2次
反馈3次
反馈4次
反馈5次
鹰
0.5
0.756
0.39
0.71
0.774
0.622
马
0.44
0.376
0.406
0.406
0.472
0.424
鱼
0.25
0.314
0.22
0.358
0.23
0.334
在图1和图2中,本文给出了使用基于主动学习的相关反馈技术在CBIR系统中的检索结果。除了使用COREL图像库作为检索图像库之外,本文还增加了VOC图像库(包含20类,共计5 011幅图像)作为检索图像库,对所提出方法进行实验验证。从图1和图2中可以看出,基于主动学习的相关反馈技术可以有效提升CBIR系统的检索性能。
(a) Car类别
初始检索结果
使用相关反馈技术后的检索结果
(b) Aeroplane类别
初始检索结果
使用相关反馈技术后的检索结果
图1 VOC图像库上,使用基于主动学习相关反馈技术的图像检索结果
Fig.1 The retrieval results on VOC database by using feedback techniques based on active learning algorithm
(a) Eagle类别
初始检索结果
使用相关反馈技术后检索结果
初始检索结果
使用相关反馈技术后检索结果
图2 COREL图像库上,使用基于主动学习相关反馈技术的检索结果。
Fig.2 The retrieval results on COREL database by using feedback techniques based on active learning algorithm
4 结束语
本文利用了主动学习算法在选择训练样本方面,相对于随机选择方法的优势,提出了一种基于主动学习的相关反馈技术。在所提出的技术中,算法利用了分类模型最不确定的样本可以提供更多反馈信息的特点,使用信息熵作为样本信息含量的度量标准,选择每轮迭代过程中,信息熵值最大的样本作为反馈样本,达到了增量学习,提升检索系统性能的目的。本文使用COREL图像库和VOC图像库,对所提出方法的性能进行验证,实验结果证明所提出方法的有效性。
参考文献
[1] CHEN J X. Active learning for transductive support vector machines with applications to text classification[J]. 计算机科学. 2004, 31: 242-244.
[2] ABE N, MAMITSUKA H. Query learning strategies using boosting and bagging[C]//Proceedings of 15th International Conference on Machine Learning. Madison. WI, 1998: 1-9.
[3] SEUNG H, OPPER M, SOMPOLINSKY M. Query by committee[C]//Proceedings of 5th ACM Workshop on Computational Learning Theory. Pittsburgh, PA, 1992: 287-294.
[4] PLATT J. Fast training of support vector machins using sequential minimal optimization. advances in kernel methods: support vector learning[M]. Cambridge: MIT Press, 1998: 42-65.
[5] SCHOHN G, GOHN D. Less is more: active learning with support vector machine[C]// Proceedings of 17th International Conference of Machine Learning. Stanford, CA, 2000: 204-211.
[6] ZHOU Z H, CHEN K J, JIANG Y. Exploiting unlabeled data in content-based image retrieval[C]//Proceedings of the 15th European Conference on Machine Learning. Pisa, Italy: LNAI 3021, 2004: 525-536.
[7] PLATT J C. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. Advances in Large Margin Classifiers[M]. Cambridge: MIT Press, 1999: 61-74.
基金项目:国家自然科学基金(61171185,61271346,60932008);高等学校博士学科点专项科研基金(20112302110040)
作者简介:吴伟宁(1983-).女,黑龙江宁安人,博士研究生.研究方向:机器学习,图像检索;
刘扬(1976-).男,吉林怀德人,博士,副教授.研究方向:机器学习,计算机视觉;
郭茂祖(1966-).男,山东夏津人,博士后,教授,博导.研究方向:计算生物学与生物信息学,机器学习与图像理解;
王春宇(1979-).男,辽宁宽甸人,博士研究生,讲师.研究方向:生物信息学,并行计算;
【关键词】 中医药治疗学
[摘要] 中医药的突出特点和生命力就在于其疗效,即根据中医基本理论应用方药的治疗效果。中医药规范化治疗方案的研究必须体现中医基本理论,遵循现代医学临床试验设计方法以及利用现代医学关于疾病诊断和疗效判断的标准,应将中医证候相关信息(包括症状、舌象和脉象)纳入临床试验的检查项目之中,开展两次或多次的临床试验,利用多元统计分析方法,对比分析有效和无效人群的特点,寻求与中医药治疗方案有效结局相关的主观症状、舌象和脉象,从而找到该治疗方案的最佳适应症,形成规范的治疗方案。
[关键词] 中医药治疗学; 规范; 临床方案
Methodological thoughts about research of standardized clinical protocols of traditional Chinese medicine
ABSTRACT The treatment of traditional Chinese medicine (TCM) has been proved effective in clinical practice for thousands of years. To standardize the clinical protocols of TCM is absolutely necessary for enhancing the research quality of TCM and expanding the international influence of TCM. The standardization research on clinical protocols of TCM should be based on the basic theory of TCM and in the light of good clinical practice (GCP) principles. The clinical criteria for both diagnosis and efficacy evaluation of disease are also needed. To include all symptoms, tongue manifestations and pulse presentations into case report form, and to compare the differences in these clinical parameters between effective and noneffective cases by multivariate analysis may be helpful to find more specific indications for therapeutic protocol of TCM. Furthermore, It is suggested that two or more clinical trials on one therapeutic protocol are needed to identify its accurate indications.
KEY WORDS therapeutics (TCM); benchmarking; clinical protocols
虽然中医药治疗疾病具有确切的疗效,但许多人在描述其疗效时都会感到一些困惑:中医药治疗效果虽好,但国际公认的现代医学语言及方法却难以对其进行准确的描述。因此,中医药知识的广泛传播与普及便难以展开,而知识的有效传递是知识发展的重要途径。中医药的突出特点和生命力就在于其疗效,即根据中医基本理论应用方药的治疗效果。因此,运用现代医学语言描述中医药治疗方案的有效性及积极开展中医药的对外传播是中医药国际化的重要内容,其中首先就是进行中医药规范化治疗方案的研究。
1 中医药规范化治疗方案研究应遵循的基本原则
1.1 充分运用中医基本理论 由于中医药的疗效是在中医基本理论指导下获得的,因此中医药规范化治疗方案的研究一定要体现中医基础理论的思想。
1.2 充分遵循现代医学的临床试验管理规范 中医药规范化治疗方案的研究应当体现临床试验管理规范(good clinical practice, GCP)的原则。合理的临床试验设计是说明一种药物或一种治疗方案有效性的前提,因此中医药规范化治疗方案的研究同样应遵循这些原则。
1.3 充分利用现代医学疾病诊断和疗效判断的标准 将现代医学有关疾病诊断和疗效判断的标准运用于中医药规范化治疗方案的研究中,将有利于中医药知识的对外传播。
2 中医药规范化治疗方案研究的思路与方法
如果疾病诊断标准、疗效评价指标、临床试验设计原则都是固定的话,那么一种治疗药物或者治疗方案的疗效也是基本不变的。中医药规范化治疗方案的临床疗效评价如果完全遵照现代医学临床试验设计原则,那么其疗效也应是固定的,不可能有很大的差异。我们难以改变疾病诊断标准、疗效评价指标和临床试验设计原则,我们也无意去研究这些内容。要提高中医药治疗方案的有效性,就必须在临床试验中充分运用中医基础理论和基本概念,进行具有中医药理论特点的规范化治疗方案研究,寻求该治疗方案的适合人群及其更确切的治疗适应症,才可能进一步提高该治疗方案的疗效[1]。
2.1 将症状、舌象和脉象纳入中医药规范化治疗方案研究,体现中医基本思想 中医四诊信息中除了舌、脉象及闻的客观信息之外,大多数是依据问诊而得到的主观症状信息,他们在中医证候分类中起着决定性的作用。现代医学对症状、舌象和脉象在疾病发生发展过程中作用的认识还很不够。多数情况下,与病变部位不相关的一些症状被认为是病理变化的主观反应,是从属于客观病理变化的反应,或者说是治疗效果的从属反应。例如,肝炎患者有无腰痛或出汗等症状并不影响疾病分类学的诊断和治疗;肝炎患者在治疗后是否出现排便情况的改变亦不影响治疗方案的调整。中医始终非常重视临床主观症状、舌象和脉象在疾病个体化中的作用,同时也是中医辨证论治的基础[2]。
有研究表明,一定的症状组合(包含全身症状、消化道症状等)有助于提高慢性胃炎患者幽门螺杆菌(Helicobacter pylori, HP)的判别率,而不恰当的组合则可降低HP感染的判别率,由此提示症状与疾病诊断指标之间存在一定的联系[3]。另一组研究结果表明,慢性胃炎患者非疾病诊断相关症状组合与胃黏膜CD4、CD8细胞浸润之间存在一定的相关性,提示非疾病诊断相关信息与疾病病理相关信息之间可能存在某种内在的联系[4]。由此可见,症状、舌象、脉象与疾病诊断指标之间存在一定的相关性。在临床试验设计中,应根据中医基本理论和基本原理,将相关症状、舌象和脉象纳入检查项目之中,是探索中医症状、舌象、脉象与该治疗方案之间关系的重要因素。
2.2 开展两次或多次临床试验以找到中医药治疗方案的最佳适应症 任何一种治疗方案,无论是中药还是西药,其治疗结果往往是部分有效或部分无效。目前对于有效或无效的评价标准大多是根据疾病诊断标准中所含指标的改善程度来进行判断的。这种以疾病理论为基础的治疗学往往强调有效率,而不强调有效与无效之间是否存在某种必然的联系,因此也不可能从这种关系中找出一种调整治疗方案、提高疗效的途径和方法。中医药治疗尤其强调辨证治疗,强调同一种疾病其治疗的有效与无效之间必定存在一定的区别。这种可能的必然联系和区别应从同一种疾病所表现出来的多种不同反应加以考虑,主要包括临床症状、舌象和脉象,特别是那些看起来与疾病无必然联系的全身性症状或与疾病相关但性质不同的症状。依据一种治疗方案有效或无效的结果,对比分析两者之间非疾病诊断相关临床表现的异同规律,从中发现与这种治疗方案密切相关的非疾病诊断相关临床表现。如此可将作为中医证候分类依据的症状、舌象和脉象纳入疗效评价和治疗方案的选择依据之中,从而在疾病治疗相关适应症中增加中医症状、舌象和脉象因素,发挥中医基本理论在治疗疾病中的指导作用[5]。
在临床试验设计过程中,应根据中医基本理论,在检查项目中纳入中医主观症状、舌象和脉象,进行治疗方案适应症的探索。同时,应开展两次或两次以上的临床试验。第一次临床试验主要是对中医证候信息(包括症状、舌象和脉象)的优选试验,在全面收集患者证候信息与疗效评价指标的基础上,通过数据分析获得该治疗方案理想的适应症。第二次临床试验主要是对适应症进行的验证试验,针对第一次临床试验所获得的适应症开展验证工作,目的是客观评价该治疗方案适应症的可靠性;同时,对收集的证候信息与疗效评价指标数据继续进行分析,逐步完善该治疗方案的适应症,为下一次的临床试验提供可靠数据。
2.3 采用多元统计分析方法对比分析有效与无效人群症状、舌象和脉象的特点,寻求与中医药治疗方案有效性相关的症状、舌象和脉象 随着数据分析技术的进步,可以运用数据库、生物信息学、复杂系统分析、数据挖掘及多元统计分析等方法分析临床试验数据,以期探索中医药治疗方案的最佳适应症[6]。对中医症状和舌、脉象的聚类分析可以采用主因子法、典型相关分析以及标准典型相关分析等多种方法,估计因子载荷,用回归法估计旋转后各公因子得分,以评价中医主观症状、舌象和脉象对疗效的贡献率。应用回归分析法对中医症状、舌象和脉象以及从临床试验中所得到的因子在疗效评价中的作用进行分析,可以找出与该治疗方案相关的症状、舌象、脉象或因子。
在对类风湿性关节炎所做的临床试验中,18项主观症状通过因子分析得到4个公因子,分别较好地反映了关节局部病情以及中医寒证、虚证、热证的症状;中、西药治疗对反映关节病情公因子的影响一致,均具有改善作用,但中药治疗对虚证症状公因子的改善优于西药。这说明因子分析法能够对中医辨证过程中重要因素的主观症状进行分类研究,对公因子与疗效之间关系的探索能更好地显示中药疗效的特点[7]。对类风湿性关节炎的研究表明,关节疼痛和关节压痛与中药治疗效果呈正相关,夜尿多则呈负相关;关节压痛和口渴与西药治疗效果呈正相关,眩晕则呈负相关;根据主观症状与疗效的回归分析结果,对原始数据进行再次分析,表明将主观症状纳入适应症后,中、西药治疗效果均有提高,说明某些主观症状与中、西药治疗的疗效之间存在一定的相关性[8]。因此,有必要加强症状对疗效影响的研究,将症状纳入药物治疗的适应证。
随着中医药规范化治疗方案研究的深入,疾病诊断依据中将会纳入更多的中医症状、舌象和脉象信息,治疗疾病时也会因为获得了更合适的适应症从而取得更理想的治疗效果;同时,中医证候分类方法和理论也将作为现代生物医学的主要内容,并随着科学技术的进步不断完善。
[参考文献]
1 吕爱平. 中药现代化发展新要求――应重视中药适应症和中药药效评价的研究. 首都医药, 2003, 10(3): 2730.
2 吕爱平, 李 捎, 王永炎. 从主观症状的客观规律探索中医证候分类的科学基础. 中医杂志, 2005, 46(1): 46.
3 Li S, Lu AP, Zhang L, et al. AntiHelicobacter pylori immunoglobulin G (IgG) and IgA antibody responses and the value of clinical presentations in diagnosis of H. pylori infection in patients with precancerous lesions. World J Gastroenterol, 2003, 9(4): 755758.
4 Lu AP, Zhang SS, Zha QL, et al. Correlation between the CD4, CD8 cell infiltration in gastric mucosa, Helicobacter pylori infection and symptoms in patients with chronic gastritis. World J Gastroenterol, 2005, 11(16): 24862490.
5 吕爱平, 陈可冀. 疾病的证候分类研究思路. 中国中西医结合杂志, 2005, 25(9): 843845.
6 查青林, 林色奇, 吕爱平. 多元统计分析在中医证候研究中的应用探析. 江西中医学院学报, 2004, 16(6): 7980.
关键词:split read; 映射; 高通量测序; 生物信息学
中图分类号:TP391 文献标识码:A文章编号:2095-2163(2013)06-0030-03
0引言
人类基因组计划的完成为人类基因组的研究提供了一套参考基因组序列,大大地简化了人类个体基因组的序列研究,因为不同人类个体基因组序列之间有着极高的相似性,现在的研究主要专注于个体基因组序列与参考基因组序列的差异,这大大地简化了研究的过程。而高通量测序技术的不断发展,则为人类基因组研究提供了有力数据支持。为了利用高通量测序数据,需要将上亿的测序短序列(read)映射到参考基因组序列上,这些read当中大部分可以以连续序列的形式被映射,但是仍有一部分read由于个体基因组序列与参考基因组序列的差异,会在映射中包含一段空位,这样的read称为split read,其映射相比于第一类read是更为困难的。Split read的映射往往可以显示个体基因组中变异区域的序列信息,对研究更快速、准确的split read映射方法有着重要的意义。
1基本概念
1.1高通量测序数据
高通量测序是一种测序DNA序列的技术。在测序过程中,将完整的样本DNA序列打碎,从中筛选出满足特定长度(通常为数百bp)的片段,然后在每个片段的一端或两端各读取一段长度为数十至数百bp的序列。这些读取出的序列长度通常远远小于被测样本DNA序列的长度,但是高通量测序技术可以同时读取大量这样的短序列,使得短序列总长度达到样本DNA长度的数倍至数十倍,从而使获得样本DNA序列成为可能。
1.2Read与split read
在高通量测序中,从打碎的DN段上读取出来的短序列称为read。Read是被测DNA序列的一个短片段,单个的read序列长度远远短于被测DNA序列的长度,但是通过将大量read映射到参考基因组序列的方式,就可以获得被测DNA的序列内容,如图1所示。测序时所读取的read是一段连续的序列,但是由于DNA结构变异的存在,一些read在映射结果中不再保持连续的形式,而是包含了空位,这样的read称为split read。
1.3双末端测序
在高通量测序过程中,从打碎的DN段的两端读取序列的方法称为双末端测序。双末端测序中获得的读取自同一片段的一对read称为一个read pair。理论上,如果被测DNA序列与参考基因组序列完全相同,read pair被映射到参考基因组之后,其中的两个read之间的距离与被测时DN段的长度应当是相同的。但是由于被测DNA与参考基因组序列存在差异,特别是由于结构变异的存在,read pair映射后其一对read之间的距离会与被测的DN段长度产生明显的差异。
2Deletion对附近read 与read pair映射所造成的影响Deletion是一种常见的结构变异形式,表现为被测DNA序列相比参考基因组序列缺失了部分序列。由于这种变异的存在,其附近的read与read pair在映射过程中会发生异常,如图2所示。从图2中可以看出,由于deletion的存在(黑色短线段),跨过deletion的read pair(左)在映射后两个read之间的距离要长于被测时两个read之间的距离,这个距离的差异恰好是deletion的长度。而跨过deletion边界的read(右)在映射时则会包含与deletion长度相同的一段空位,形成split read。
3利用read pair映射分析指导split read映射的方法目前的read映射方法出于运行效率的考虑,都会限制映射结果中所允许的空位数量与长度[1-3]。有一些利用双末端测序数据特性而特别为split read映射所设计的映射方法,利用read pair中一个映射较好的read作为基点,在临近的一段区间为另一个映射效果不好或者无法连续映射的read进行允许较多空位的映射[4]。这样的方法存在着映射效果与搜索空间相关,映射难度大,效率低等问题,如图3所示。
为了改进这些不足,本文提出一种利用deletion附近的read pair的映射结果来指导split read映射的方法。从图2中可以看出,受到deletion影响的read pair,虽然其一对read之间的映射距离发生了异常,但两个read的映射位置距离deletion的边界并不远。通过将这样存在映射异常的read pair按照映射位置与每对read之间的距离进行聚类,可以大致获得deletion边界的位置。由于split read的映射实际上只需要deletion边界处的一小段序列,而与deletion序列本身无关,因此可以每个聚类结果中的两处deletion边界位置为基点,各选择一段固定长度的序列作为参考序列进行split read映射,选择序列的长度只要确保可以包含deletion的分界点即可(图4上半部分)。通过这样的方式,split read的映射将不再与deletion本身的长度相关,因为参与split read映射的参考序列只是deletion边界处固定长度的两段序列的组合,其选取与deletion本身的长度无关。
接下来,需要将每个聚类结果附近映射效果较差或无法映射的read提取出来,这些read可能是受到了每个聚类结果所对应的deletion的影响而无法实现良好的映射,因其是候选的split read。将这些read向组合的参考序列映射需要一种序列映射算法,本文提出一种Needleman-Wunsh算法[5, 6]的变种算法来完成split read映射。变种算法同样是一种动态规划算法,其递归表达式为:
其中:
db是由两段参考基因组序列组成的横向序列,段序列的长度分别为m1和m2。qr是由read序列构成的纵向序列,长度为l。M(i,j)是当qr[i]和db[j]对齐时单元(i,j)的打分;Iqr(i,j)是qr[i]和一个空位对齐时单元(i,j)的打分;Idb(i,j)是db[j]和一个空位对齐时单元(i,j)的打分。gapopen是开始一段新空位的罚分;gapext是扩展一个空位的罚分。w(a,b)是一个打分函数,当a和b相同时打正分,反之打负分。jumpqr是matrix2中额外计算的罚分,是从matrix2中单元向matrix1中单元进行跳跃的罚分。jmax是matrix2中单元跳跃目标单元的横坐标,对于matrix2中的单元(i,j)来说,其跳跃的目标单元坐标为(i-1,jmax)。
变种算法与原算法的最大区别在于,序列比对的打分矩阵被划分为了两个部分,分别对应着deletion两个边界附近所选择出的参考序列(图4下半部分中Part 1与Part 2)。在第一部分中,全部的比对分数计算与原算法相同,在第二部分中,为每个单元计算分值时会多考虑一项,即来源于第一部分矩阵上一行中具有最高分值的单元(图4下半部分中NW-MAX单元)的打分。这个分值的计算相当于将第一部分矩阵中的部分序列比对结果与第二部分矩阵中的部分序列比对结果相连接,相连接的两个单元所在的位置就是这个映射所对应的一段连续空位的边界点。变种算法对于这种连接给出一个固定的罚分,这个罚分与两个单元的横向距离无关。在原算法中,这样的单元之间的“跳跃”是不允许的,相同的映射在原算法中需要依靠相邻单元的连续计算来完成(图4下半部分中虚线箭头所示),由于原算法中引入空位 需要罚分,因此split read的映射结果的最终分值将会受到引入的空位数量的影响,引入的空位越多,分值越低。这可能导致split read的映射结果由于引入的空位过多而导致分值过低,最终被舍弃。
4实验结果与分析
本文将所提出的算法进行程序实现,称为PRISM。通过将人类基因组中deletion注释加入到参考基因组1号染色体序列中的方式构造了一条模拟基因组序列,并使用模拟测序软件[7]对该模拟基因组序列进行模拟测序生成一套模拟数据集。在该模拟数据集上,本文将所提出的split read映射方法与一种已有的方法Pindel进行了比较。首先是运行速度上的比较,结果如表1所示。由于在取得候选split read时的标准不同,两种方法作为输入的read数量不同,但是从结果上可以看出,PRISM的输入规模略高于Pindel,而运行时间却远远短于Pindel,这证实了PRISM利用read pair分析结果来指导split read映射的方法可以大幅地提高split read映射的效率。第二项比较是split read映射效果的比较,具体结果如图5所示,可以看出PRISM在正确映射split read的能力上也要优于Pindel。
5结束语
本文提出了一种新的split read映射方法,这种方法利用split read附近的read pair映射结果分析来指导split read的映射,以达到缩小映射过程中搜索空间,提高映射效率与准确性的目的。在模拟数据实验中,通过与已有的方法进行对比,证实了本文所提出的方法在运行效率、与split read映射结果上都具有优势。
参考文献:
[1]LI H, DURBIN R. Fast and accurate short read alignment with Burrows-Wheeler transform [J]. Bioinformatics, 2009, 25(14): 1754-1760.
[2]LANGMEAD B, SALZBERG S L. Fast gapped-read alignment with Bowtie 2 [J]. Nature methods, 2012, 9(4): 357-359.
[3]LANGMEAD B, TRAPNELL C, POP M, et al. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome [J]. Genome biology, 2009, 10(3): R25.
[4]YE K, SCHULZ M H, LONG Q, et al. Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads [J]. Bioinformatics, 2009, 25(21): 2865-2871.
[5]DU Z H, LIN F. Improvement of the needleman-wunsch algorithm [J]. Lect Notes Artif Int, 2004, 3066:792-797.