公务员期刊网 精选范文 生物信息学的概念范文

生物信息学的概念精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的生物信息学的概念主题范文,仅供参考,欢迎阅读并收藏。

生物信息学的概念

第1篇:生物信息学的概念范文

一、正视学生的学习错误,是新课改以人为本理念的体现

我们知道,课堂是学生学习中犯错误的地方,课堂教学也应该大胆暴露学生的学习错误。每一个学生都是有思想、有情感、有需求、有尊严的生命个体,他们都有个性,而且存在个性差异。学生的学习是一个自主的认知建构过程,是从不懂到懂,从不会到会,从无到有的完善过程。由于学生的客观差异性,学生的学习有快有慢,有好有差,有对有错。可以说,学生在学习上犯错误是正常的。在新一轮课程改革的进程中,老师不断要有课程意识、学生意识、资源意识等,其中资源意识涵盖很多内容,学生是资源,学生的学习状况也是资源。老师面对学生时不仅要有成功学生的范例,有学生正确学习的资源,也要正视学生的学习错误这一资源,剖析并用好学习错误这一资源。应当说,正视学生的学习错误,是对学生人格的尊重;正视学生的学习错误,是坚持新课改核心理念“一切为了学生的发展”的具体体现。同时,正视学生的学习错误,也有利于教师反思教学。面对学生的学习错误,首先老师要扪心自问自己的教学哪里出了纰漏,反思自己的教学行为是不是有教材没吃透,教法不符合学法,因材施教方面有哪些不足,教学机智欠佳,预设教学与生成教学在哪里没融合好等。然后,老师及时调整自己的教学行为来更好地服务学生的学习行为。

二、正视学生的学习错误,有利于学生改善学习和成长

学生面对学习错误,老师指导学生认识到错误的说法、做法可以用来启发其他同学和自己想到正确的说法、做法,找到正确的方法、路径来解决问题,从中让学生明白在学习上犯错误是自然的、正常的事,错误中暗示着正确。学生面对学习错误,老师或同学应该帮助他分析错误的原因,并让学生自己学会回顾产生错误的历程,找到错误的原因,分析是认知基础差,还是学习能力弱,是思维定势所致,还是学习品质、学习习惯诸因素所致,找到症结才好下药改正。学生面对学习错误,老师要让其明确改正学习上的错误是每位学生应尽的学习责任,做到随时有了学习上的错误就能及时改正,明白每改正一次错误就是一个进步。这样学生在学习过程中才能减少学习错误,提高解题正确率,使学生从错误中想到正确所在,从失败走向成功。

学习是一个不断解决问题的过程,也是不断改正学习错误的过程。老师不歧视犯了学习错误的学生,反而正视学生的学习错误,把学习错误当作一种资源,经常汇集学生的学习错误例子,有利于因材施教,优化教学。同时,老师应该充分利用这些学习错误,对学生因势利导,让学生正视学习错误,多鼓励学生,使学生站在另一角度看待学习错误,从错误中有意义地学习,正如一些高考状元介绍学习心得时,特地指出他们自己重视分析错题,甚至把错题汇编成册,经常反思,不断突破,高效学习。正视学生的学习错误,可以帮助学生树立学习的信心,培养学习责任,不断减少错误,学会正确学习,从而使学生得到自主、和谐、全面、持续发展。

三、正视学生的学习错误,教师要拥有一颗宽容的心

我们知道,每个学生都有自己的生活背景、家庭环境、特定的生活与社会文化氛围,这就导致了不同的学生有着不同的经历,不同的思维方式、不同的兴趣爱好、不同的发展潜能。就我所任教的数学学科而言,教学实践证明不同学生之间的差异是永远存在的,在数学方面往往更为明显。因此,在学习同一数学内容时,学生既有在复杂处出错的可能,也有在简单处出错的可能,既有一次出错的可能,也有多次出错的可能。一个学生在此可能出错,另一个学生可能在此不出错;多数人在此可能出错,少数人可能在此不出错。要允许不同的学生用不同的速度,不同的方式学习数学,允许不同的学生在数学方面得到不同的发展,新课程要求最大限度地满足每一个学生的潜能,其中很重要的一点就是要特别关注数学学习上能力不足或暂时有困难的学生。所以,要实现这一点教师就要宽容学生的错误。

第2篇:生物信息学的概念范文

关键词:生物信息学;实践教学;教学模式

中图分类号 G642.0 文献标识码 A 文章编号 1007-7731(2017)06-0179-03

Innovative Teaching Pattern of Bioinformatics

Zhu Liucun et al.

(School of Life Sciences,Shanghai University,Shanghai 200444,China)

Abstract:As a newly-developing interdiscipline,bioinformatics has received incessant attention on the research of teaching models.Traditional teaching methods focus on the pattern of direct instruction and demonstration from the lecturer which students were used to learning in China.However,this straight teaching pattern usually lacks of capacity of arousing students' interest in learning,let alone achieves the aim of making them complete their work with the knowledge they learned in class.Recently,case-based learning,problem-based learning and program-based learning are known as successfully innovative teaching models.In this paper,by combining these three models and considering the background of students and characteristic of bioinformatics,we propose a new teaching pattern to be geared to the needs of the undergraduates learning bioinformatics.We look forward to the innovation and development this teaching pattern may achieve so as to enhance the students' capacity of independent study and thinking.

Key words:Bioinformatics;Practice teaching;Teaching pattern

1 前言

生物信息学是生命科学的重要前沿交叉学科之一,综合计算机科学、数学、生物学等学科的技术和方法,以计算机为主要的工具,对生物原始数据进行研究、存档、分析和处理,以阐明其具有的生物学意义[1,2]。随着人类基因组计划的成功完成,测序技术的不断发展,越来越多的生物基因序列数据被载入到数据库中。而大数据时代的到来要求我们能大规模的分析处理这些数据,因此生物信息学进入高速发展的黄金期。

目前生物信息学在许多高校本科生物专业中开设,目的是让学生掌握生物信息学的相关技术及分析数据能力,并具有查找、跟踪生物信息学前沿性技术的能力。然而,在与学生的交流过程中,笔者发现几个普遍存在的问题:有的学生反映,听完课很快就忘了;有的学生感觉很多概念太难懂;而更为关键的是,很多学生学完这门课之后,仍然不知道遇到具体的问题应当如何去做,甚至根本想不到用生物信息学课上学到的方法去解决他们的实际问题。究其原因,主要是由于国内的生物信息学教学基本以教师讲授为主,缺少与学科本身交叉前沿性特点相结合的教学方法[3],导致学生学习积极性不高,变成简单的重复老师的实验操作,失去独立思考的能力,这就违背了开设这门课的初衷。为此,本文就目前流行的3种创新教学模式的特点进行分析,结合生物信息学特点,归纳出一套适合本科生物信息学教学的方法。

2 几种创新教学模式介绍

2.1 案例式教学法 案例式教学法(Case-Based Learning)是指教师根据教学内容设计案例,利用案例材料指导学生参与教学活动,充分发挥学生主导地位的方法[3,4]。不同于传统教学灌输的方式,案例式教学更加注重学生能力的培养,不直接提供解决问题的标准答案,而是通过结合具体案例讨论得到解决问题的方法。

2.2 问题式教学法 问题式教学法(Problem-Based Learning)是以问题为导向的开放式教学模式[5],主张让学生自主学习去解决问题,培养学生的学习主动性,加深学生对理论知识的理解和应用。其特点是将教材的知识点以问题的形式呈现在学生的面前,让学生在探索解决问题的过程中展开探索,教师和学生一起协作寻找解决问题的方法,从而掌握课本中的知识。在研究活动中,学生可以充分利用身边的资源,比如图书馆的文献检索系统、网络学习软件以及多媒w等多种形式进行自主学习。问题式教学模式营造了一种轻松快乐的学习氛围,提高了学生相互合作的团队意识,为以后步入社会工作打下坚实的基础。比如,在BLAST软件使用教学中,可以先给学生提出如何对两条DNA序列进行比对的问题,让他们通过自学与相互讨论的方式掌握BLAST的使用方法并将2条DNA序列利用BLAST进行比对并对比对结果加以阐述。

2.3 项目式教学法 项目式教学法(Program-Based Learning)是以项目为主线,在老师的指导下,将一个相对独立的项目交由学生处理,包括对信息的收集、方案的设计、项目的实施及最终评价[6]。学生通过对该项目的进行,了解并把握整个程及每一个环节中的基本要求,以此来培养学生独立分析解决问题的能力,让学生提高自己的动手能力、组织协作能力和综合概括的能力,拓展学生思考问题的深度和广度。这种教学法应用非常广泛,尤其是在职业教育中。

3 应用于生物信息W课程的创新教学模式

那么采取哪种教学方式才能够让学生顺利掌握知识点,并且能应用到实际当中去呢?一般的生物学课程,只要在理论课后加入实践课的内容,就可以解决这个问题,例如细胞生物学,只要再加入细胞生物学实验,那么学生对这门课的理解就会加深很多,对这门课的应用也会有一定的了解。然而笔者在实际的教学过程中却发现,这样的方式并不适合生物信息学这门课程,这是由于多数学生在上机实践之后,仍然不是太理解课上讲的一些概念,也不知道如何将这些方法运用到实际中。造成这种情况的原因主要有两点,一个是生物信息学这门课程所要求的数学和计算机方面基础,绝大多数学生物的学生都比较薄弱,甚至有部分同学在计算机编程方面是零基础。这使得他们在理论课上,对一些概念只是强行记住,并没有真正理解。而在上机实践环节中,他们又只是走马观花地将整个流程给过了一遍,并不知道这些操作是用来做什么的。另一个原因则是生物信息学与其他生物学的课程之间有脱节,这使得生物信息学的知识点很难融入到学生的现有知识体系当中去,这样就导致了学生不知道这些知识点的用途。因此,必须在激发学生学习兴趣的基础上,深入剖析生物信息学的基本概念,并且结合生物学中的实际问题,引导学生对其进行解决,才能让学生真正掌握这门课。而传统的老师讲、学生听的授课方式显然是不能满足这一要求的。

案例式教学法起源于美国哈佛商学院,最早应用于商业管理课程。其重点在于对一些热门且有争议的问题进行反复讨论,加深学生对知识点的理解。而生物信息学课程的内容大多比较确定,比较前沿有争议的话题又离日常生活较远,极少出现热门话题。因此,笔者认为案例式教学法目前可以偶尔用作课堂教学穿插,不适合全面应用于本科生物信息学课程。

问题式教学模式与项目式教学模式在本质上是相同的,均是以学生为主体,让学生带着问题或者有明确的目标的去主动利用身边资源查找相关知识解决问题完成目标,使学生在探索过程不仅掌握了知识,同时萌生自主学习的动机和欲望,提高了自主学习能力。两种教学模式的区别在于问题式教学法是将书本中的知识点凝练为问题再分析问题并解决问题,而项目式教学法则是根据老师提出的项目要求,以收集信息、设计方案、实施项目、最终评价为线索进行教学。问题式教学提出的问题与书本知识更为接近且较为零散,学生在针对问题进行分析和解决的过程中,容易对教学内容缺乏整体认识,即难以将知识点连成线,也很难结合实际问题。而项目式教学法是目前最适合提高学生能力的教学方法。然而在实际教学过程中,笔者发现大多数学生对项目式教学并不适应,很多学生在理解项目时就遇到了困难,在项目设计时感到无从下手。

因此,笔者在对两种教学方法进行研究归纳之后,将问题式教学法与项目式教学法相结合,总结出一套适合本科生物信息学教学的方法。具体为:首先教师根据课程安排制定一个可扩展的课题,明确课题要求,并根据课题内容将知识点拆分,以问题形式展现给学生,教师先就这些问题讲一些例子,学生查找资料。在此基础上,学生既对课题内容有整体认识,又在分析、解决一系列小问题时学习到知识点、收集了项目信息。随后通过参与定期分组讨论,与老师进行沟通的方式,学生最终可以拟定项目的方案并付诸实施。这种教学模式让学生了解实际工作的流程,培养基本的工作能力。在与教师的交流讨论中收获更多的专业知识,与同学之间的合作交流中查漏补缺,完善自己的不足,达到相互提高的作用。例如,在教学中,教师可以设计一个题为“构建一个可以预测乳腺癌患者生存时间的基因模型”的项目,并将项目拆解为:如何查找潜在包含乳腺癌患者信息的数据库?如何筛选与生存时间相关的基因?如何构建模型?如何评价模型的好坏四个问题?同时,为了让学生在实践中更好下手,可以依次为各个问题举例加以说明。如查找数据库环节,可以列举NCBI中的GEO数据库与美国政府发起的癌症和肿瘤基因图谱计划涉及的TCGA数据库两个例子,让学生先从这两个数据库获取相关的数据,对数据本身有所认识,再利用校园网资源查找更多的数据库。在此过程中,学生全程参与项目实现的各个流程,不仅学会了自主查找资料与学习,还提高了同学间的优势互补与团队协作的能力,提高学生学习的积极性,获得独立思考的能力。

参考文献

[1]龚乐君,杨荣根.浅谈计算机交叉学科――生物信息学教学中的探讨[J].新教育时代电子杂志(教师版),2014(19):123-124.

[2]徐培杰.生物信息学研究现状[J].科技信息,2013(10):268-269.

[3]刘念.案例教学法在《生物信息学》本科教学中的应用[J].考试周刊,2016(78):152,191.

[4]张俊河,董卫华,王芳,等.案例教学法在医学生物化学教学中的应用[J].山西医科大学学报(基础医学教育版),2010(02):139-142.

第3篇:生物信息学的概念范文

一、整合生物信息学的研究领域

尽管目前一般意义上的生物信息学还局限在分子生物学层次,但广义上的生物信息学是可以研究生物学的任何方面的。生命现象是在信息控制下不同层次上的物质、能量与信息的交换,不同层次是指核酸、蛋白质、细胞、器官、个体、群体和生态系统等。这些层次的系统生物学研究将成为后基因组时代的生物信息学研究和应用的对象。随着在完整基因组、功能基因组、生物大分子相互作用及基因调控网络等方面大量数据的积累和基本研究规律的深入,生命科学正处在用统一的理论框架和先进的实验方法来探讨数据间的复杂关系,向定量生命科学发展的重要阶段。采用物理、数学、化学、力学、生物等学科的方法从多层次、多水平、多途径开展交叉综合研究,在分子水平上揭示生物信息及其传递的机理与过程,描述和解释生命活动规律,已成生命科学中的前沿科学问题(摘自:国家“十一五”生命科学发展规划),为整合生物信息学的发展提供了数据资源和技术支撑。

当前,由各种Omics组学技术,如基因组学(DNA测序),转录组学(基因表达系列分析、基因芯片),蛋白质组学(质谱、二维凝胶电泳、蛋白质芯片、X光衍射、核磁共振),代谢组学(核磁共振、X光衍射、毛细管电泳)等技术,积累了大量的实验数据。约有800多个公共数据库系统和许多分析工具可利用通过互联网来解决各种各样的生物任务。生物数据的计算分析基本上依赖于计算机科学的方法和概念,最终由生物学家来系统解决具体的生物问题。我们面临的挑战是如何从这些组学数据中,利用已有的生物信息学的技术手段,在新的系统层次、多水平、多途径来了解生命过程。整合生物信息学便承担了这一任务。

图1简单描述了生物信息学、系统生物学与信息学、生物学以及基因组计划各个研究领域的相关性。可以看出基因组计划将生物学与信息学前所未有地结合到了一起,而生物信息学的兴起是与人类基因组的测序计划分不开的,生物信息学自始至终提供了所需的技术与方法,系统生物学强调了生物信息学的生物反应模型和机理研究,也是多学科高度交叉,促使理论生物学、生物信息学、计算生物学与生物学走得更近,也使我们研究基因型到表型的过程机理更加接近。虚线范围代表整合生物信息学的研究领域,它包括了基因组计划的序列、结构、功能、应用的整合,也涵盖了生物信息学、系统生物学技术与方法的有机整合。

整合生物信息学的最大特点就是整合,不仅整合了生物信息学的研究方法和技术,也是在更大的层次上整合生命科学、计算机科学、数学、物理学、化学、医学,以及工程学等各学科。其生物数据整合从微观到宏观,应用领域整合涉及工、农、林、渔、牧、医、药。本文将就整合生物信息学的生物数据整合、学科技术整合及其他方面进行初步的介绍和探讨。

二、生物数据挖掘与整合

生物系统的不同性质的组分数据,从基因到细胞、到组织、到个体的各个层次。大量组分数据的收集来自实验室(湿数据)和公共数据资源(干数据)。但这些数据存在很多不利于处理分析的因素,如数据的类型差异,数据库中存在大量数据冗余以及数据错误;存储信息的数据结构也存在很大的差异,包括文本文件、关系数据库、面向对象数据库等;缺乏统一的数据描述标准,信息查询方面大相径庭;许多数据信息是描述性的信息,而不是结构化的信息标示。如何快速地在这些大量的包括错误数据的数据量中获取正确数据模式和关系是数据挖掘与整合的主要任务。

数据挖掘是知识发现的一个过程,其他各个环节,如数据库的选择和取样,数据的预处理和去冗余,错误和冲突,数据形式的转换,挖掘数据的评估和评估的可视化等。数据挖掘的过程主要是从数据中提取模式,即模式识别。如DNA序列的特征核苷碱基,蛋白质的功能域及相应蛋白质的三维结构的自动化分类等。从信息处理的角度来说,模式识别可以被看作是根据一分类标准对外来数据进行筛选的数据简化过程。其主要步骤是:特征选择,度量,处理,特征提取,分类和标识。现有的数据挖掘技术常用的有:聚类、概念描述、连接分析、关联分析、偏差检测和预测模型等。生物信息学中用得比较多的数据挖掘的技术方法有:机器学习,文本挖掘,网络挖掘等。

机器学习通常用于数据挖掘中有关模式匹配和模式发现。机器学习包含了一系列用于统计、生物模拟、适应控制理论、心理学和人工智能的方法。应用于生物信息学中的机器学习技术有归纳逻辑程序,遗传算法,神经网络,统计方法,贝叶斯方法,决策树和隐马尔可夫模型等。值得一提的是,大多数数据挖掘产品使用的算法都是在计算机科学或统计数学杂志上发表过的成熟算法,所不同的是算法的实现和对性能的优化。当然也有一些人采用的是自己研发的未公开的算法,效果可能也不错。

大量的生物学数据是以结构化的形式存在于数据库中的,例如基因序列、基因微阵列实验数据和分子三维结构数据等,而大量的生物学数据更是以非结构化的形式被记载在各种文本中,其中大量文献以电子出版物形式存在,如PubMed Central中收集了大量的生物医学文献摘要。

文本挖掘就是利用数据挖掘技术在大量的文本集合中发现隐含的知识的过程。其任务包括在大量文本中进行信息抽取、语词识别、发现知识间的关联等,以及利用文本挖掘技术提高数据分析的效率。近年来,文本挖掘技术在生物学领域中的应用多是通过挖掘文本发现生物学规律,例如基因、蛋白及其相互作用,进而对大型生物学数据库进行自动注释。但是要自动地从大量非结构性的文本中提取知识,并非易事。目前较为有效的方法是利用自然语言处理技术NLP,该技术包括一系列计算方法,从简单的关键词提取到语义学分析。最简单的NLP系统工作通过确定的关键词来解析和识别文档。标注后的文档内容将被拷贝到本地数据库以备分析。复杂些的NLP系统则利用统计方法来识别不仅仅相关的关键词,以及它们在文本中的分布情况,从而可以进行上下文的推断。其结果是获得相关文档簇,可以推断特定文本内容的特定主题。最先进的NLP系统是可以进行语义分析的,主要是通过分析句子中的字、词和句段及其相关性来断定其含义。

生物信息学离不开Internet网络,大量的生物学数据都储存到了网络的各个角落。网络挖掘指使用数据挖掘技术在网络数据中发现潜在的、有用的模式或信息。网络挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。根据对网络数据的感兴趣程度不同,网络挖掘一般还可以分为三类:网络内容挖掘、网络结构挖掘、网络用法挖掘。网络内容挖掘指从网络内容/数据/文档中发现有用信息,网络内容挖掘的对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。网络结构挖掘的对象是网络本身的超连接,即对网络文档的结构进行挖掘,发现他们之间连接情况的有用信息(文档之间的包含、引用或者从属关系)。在网络结构挖掘领域最著名的算法是HITS算法和PageRank算法(如Google搜索引擎)。网络用法挖掘通过挖掘相关的网络日志记录,来发现用户访问网络页面的模式,通过分析日志记录中的规律。通常来讲,经典的数据挖掘算法都可以直接用到网络用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。

网络数据挖掘比单个数据仓库的挖掘要复杂得多,是一项复杂的技术,一个难以解决的问题。而XML的出现为解决网络数据挖掘的难题带来了机会。由于XML能够使不同来源的结构化的数据很容易地结合在一起,因而使搜索多个异质数据库成为可能,从而为解决网络数据挖掘难题带来了希望。随着XML作为在网络上交换数据的一种标准方式,目前主要的生物信息学数据库都已经提供了支持XML的技术,面向网络的数据挖掘将会变得非常轻松。如使用XQuery 标准查询工具,完全可以将 Internet看作是一个大型的分布式XML数据库进行数据浏览获取、结构化操作等。

此外,数据挖掘还要考虑到的问题有:实时数据挖掘、人为因素的参与、硬件设施的支持、数据库的误差问题等。

一般的数据(库)整合的方法有:联合数据库系统(如ISYS和DiscoveryLink), 多数据库系统(如TAMBIS)和数据仓库(如SRS和Entrez)。这些方法因为在整合的程度,实体化,查询语言,应用程序接口标准及其支持的数据输出格式等方面存在各自的特性而各有优缺点。同时,指数增长的生物数据和日益进步的信息技术给数据库的整合也带来了新的思路和解决方案。如传统的数据库主要是提供长期的实验数据存储和简便的数据访问,重在数据管理,而系统生物学的数据库则同时对这些实验数据进行分析,提供预测信息模型。数据库的整合也将更趋向数据资源广、异质程度高、多种数据格式、多途径验证(如本体学Ontology的功能对照)、多种挖掘技术、高度智能化等。

三、生命科学与生物信息学技术的整合

生物信息学的研究当前还主要集中在分子水平,如基因组学/蛋白质组学的分析,在亚细胞、细胞、生物组织、器官、生物体及生态上的研究才刚刚开始。从事这些新领域的研究,理解从基因型到表型的生命机理,整合生物信息学将起到关键性的作用。整合生物信息学将从系统的层次多角度地利用已有的生物、信息技术来研究生命现象。另外,由其发展出的新方法、新技术,其应用潜力也是巨大的。图2显示了生命科学与生物信息学技术的整合关系。

目前生命科学技术如基因测序、QTL定位、基因芯片、蛋白质芯片、凝胶电泳、蛋白双杂交、核磁共振、质谱等实验技术,可以从多方面,多角度来分析研究某一生命现象,从而针对单一的实验可能就产生大量的不同层次的生物数据。对于每个技术的数据分析,都有了大量的生物信息学技术,如序列分析、motif寻找、基因预测、基因注解、RNA分析、基因芯片的数据分析、基因表达分析、基因调控网络分析、蛋白质表达分析、蛋白质结构预测和分子模拟、比较基因组学研究、分子进化和系统发育分析、生物学系统建模、群体遗传学分析等。整合生物信息学就是以整合的理论方法,通过整合生物数据,整合信息技术来推动生命科学干实验室与湿实验室的组合研究。其实践应用涉及到生物数据库的整合、功能基因的发现、单核苷酸多态性/单体型的了解、代谢疾病的机理研究、药物设计与对接、软件工具以及其他应用。

在整合过程中,还应该注意以下几方面内容:整合数据和文本数据挖掘方法,数据仓库的设计管理,生物数据库的错误与矛盾,生物本体学及其质量控制,整合模型和模拟框架,生物技术的计算设施,生物信息学技术流程优化管理,以及工程应用所涉及的范围。

四、学科、人才的整合

整合生物信息学也是学科、教育、人才的整合。对于综合性高等院校,计算机科学/信息学、生物学等学科为生物信息学的发展提供了学科基础和保障。如何充分利用高校雄厚的学科资源,合理搭建生物信息学专业结构,培养一流的生物信息学人才,是我们的任务和目标。

计算机科学/信息学是利用传统的计算机科学,数学,物理学等计算、数学方法,如数据库、数据发掘、人工智能、算法、图形计算、软件工程、平行计算、网络技术进行数据分析处理,模拟预测等。生物信息学的快速发展给计算机科学也带来了巨大的挑战和机遇,如高通量的数据处理、储存、检索、查询,高效率的算法研究,人工智能的全新应用,复杂系统的有效模拟和预测。整合生物信息学的课程设计可以提供以下课程:Windows/Unix/Linux操作系统、C++/Perl/Java程序设计、数据库技术、网络技术、网络编程、SQL、XML相关技术、数据挖掘,机器学习、可视化技术、软件工程、计算机与网络安全、计算机硬件、嵌入式系统、控制论、计算智能,微积几何、概率论、数理统计、线性代数、离散数学、组合数学、计算方法、随机过程、常微分方程、模拟和仿真、非线性分析等等。

生物学是研究生命现象、过程及其规律的科学,主要包括植物学等十几个一级分支学科。整合生物信息学的课程设计可以提供以下课程:普通生物学、生物化学、分子生物学、细胞生物学、遗传学、分子生物学、发育生物学、病毒学、免疫学、流行病学、保护生物学、生态学、进化生物学、神经生物学、基础医学、生物物理学、细胞工程、基因工程、分子动力学、生物仪器分析及技术、植物学、动物学、微生物学及其他生物科学、生物技术专业的技能课程。

作为独立学科的生物信息学,其基本的新算法,新技术,新模型,新应用的研究是根本。课程涉及到生物信息学基础、生物学数据库、生物序列与基因组分析、生物统计学、生物芯片数据分析、蛋白质组学分析、系统生物学、生物数据挖掘与知识发现、计算生物学、药物设计、生物网络分析等。另外,整合生物信息学的工程应用,也需要了解以下学科,如生物工程、生物技术、医学影像、信号处理、生化反应控制、生物医学工程、数学模型、试验设计、农业系统与生产等。

此外,整合生物信息学的人才培养具有很大的国际竞争压力,培养优秀的专业人才,必须使其具备优良的生物信息科学素养,具有国际视野,知识能力、科研创新潜力俱佳的现代化一流人才。所以要始终紧跟最新的学术动态和发展方向,整合学科优势和强化师资力量,促进国际交流。

五、总结及展望

二十一世纪是生命科学的世纪,也是生物信息学快速不断整合发展的时代,整合生物学的研究和应用将对人类正确认识生命规律并合理利用产生巨大的作用。比如进行虚拟细胞的研究,整合生物信息学提供了从基因序列,蛋白结构到代谢功能各方面的生物数据,也提供了从序列分析,蛋白质拓扑到系统生物学建模等方面的信息技术,从多层次、多水平、多途径进行科学研究。

整合生物信息学是基于现有生物信息学的计算技术框架对生命科学领域的新一轮更系统全面的研究。它依赖于生物学,计算机学,生物信息学/系统生物学的研究成果(包括新数据、新理论、新技术和新方法等),但同时也给这些学科提供了更广阔的研究和应用空间,并推动整个人类科学的进程。

我国的生物信息学教育在近几年已经有了长足的进步和发展。未来整合生物信息学人才的培养还需要加强各学科有效交叉,尤其是计算机科学,要更紧密地与生命科学结合起来,共同发展,让我们的生命科学、计算机科学和生物信息学的教育和科研走得更高更前沿。

作者简介:

第4篇:生物信息学的概念范文

关键词:个性化习题;生物信息学;QQ群

中图分类号:G811.4 文献标志码:A 文章编号:1674-9324(2016)48-0171-02

生物信息学是生物学、计算机科学和信息技术等支持的,包括存储、组织和生物数据检索的一个现代交叉学科。随着分子生物学和信息技术的不断突破,各种生物数据的获得变得非常容易,但是如何对这些数据进行组织、分析和处理,并从中发掘出能用于解决生物科学问题的信息,成为目前生命科学的难点和热点。生物信息学因此应运而生,其本身不仅是研究现代生物学,也是研究其对工业、医疗等重要领域影响的一门实践性学科(Bloom,2001)。

一般认为,生物信息学主要渗透到统计数学、计算机和生命科学,尤其是生命科学的组学领域(郭丽等,2014),因此在教学中,生物信息学的教学内容往往因学生背景不同而会有不同的侧重。这就需要教师根据学生的背景及知识结构的需求来合理安排教学。本文根据近年来对生物信息学教学的经验,从教学方法、个性化练习题对学生上机的促进及QQ群投票功能在教学中的应用等方面进行了总结,对如何能够提高生命科学学院的学生学习此门课程的兴趣进行了探讨。

一、现代教学方法的利与弊

随着计算机科技的不断进步,教学已经从传统的板书模式进入到现代多媒体教学模式中。多媒体技术应用的初衷是提高学生的参与度,满足教学手段更民主、多元化及个性化的教学目标,其优点为表现力丰富,可以通过动画、视频、图像、音频等效果将抽象难懂的问题直观化。其次,节省了大量的板书时间,同时教师可将教学的重点、难点链接,以益于学生直观地了解并进行思维拓展(张林,2011)。多媒体最明显的一个特点就是教学容量加大,但正是这些优势也伴随相应的问题:(1)重形式而忽视教学内容。很多学校在进行教学管理及评价时,过分关注多媒体课件的形式以及学生的感受,导致有些教师过分注重多媒体的表现形式而忽视了教学的主要内容。(2)教学容量和学生的吸收量之间反差较大。由于教学内容和容量的增大,教师并没有根据授课对象的具体情况合理安排和讲授学科内容,而被动的成了多媒体的播放员和解说员。总之,多媒体教学利大于弊,因而成为教学改革和发展的必然产物,虽有缺点,但不能因噎废食,需通过其他方法来克服弊端才能达到完美的教学效果。

二、个性化习题是学生实践提高的强力推动器

生物信息学是一门实践性非常强的学科,为了加强学生的实践能力,教师要综合应用启发式、运用式及讨论式等多种教学方法来激发学生的兴趣。笔者在课堂实践中,充分发挥个性化习题的作用,将教师的科研渗入到课堂,注重理论与实践相结合,努力提高学生解决实际问题的综合能力。比如,在讲授第五章内容电子克隆部分,此章节目的是通过一段表达序列标签(EST),综合应用Blast、序列比对、步查法等方法查找各种数据库,通过软件的应用进行拼接、预测、去除内含子等方法,最终获得可能的全长cDNA序列并加以注释。在以往的教学练习中,全班同学的任务一样,难以知道学生是否真正掌握所教授的内容,为此,笔者将学生分组,每组自行通过阅读文献获得一条其感兴趣的EST序列,或者利用他们的毕业论文中涉及的EST序列去进行电子克隆练习,通过这种个性化习题的随堂练习,能显著强化学生的计算机应用能力和实践能力,同时也能提高学生在教学中的积极性、主动性和创新性。

三、发挥QQ群的投票功能在教学练习中的作用

生物信息学是一门交叉学科,对于非生物信息学专业的生命学院的学生而言,虽然教学大纲只要求学生掌握一些基本软件的原理及数据库的熟练使用。但是,这需要学生具有扎实的生物化学、遗传学、细胞学及分子生物学的基础知识。比如,在讲授第三章“核酸序列的分析”时,会要求学生利用已知的EST序列去Blast查找与之有同源性的基因组序列,进行序列比对,预测并利用Bioedit软件找出此基因的启动子、终止子和剪接点。这首先要求学生必须明确这些分子生物学的概念,否则在有限的生物信息学课堂上,会变成分子生物学或遗传学的复习课。而课外QQ群就起到了非常重要的交流促进作用。笔者在将QQ群的功能应用到课外教学辅助平台的基础上,充分发掘QQ群的投票及评论功能为教学所用,例如教授第三章前,将课件放到QQ群的文件中,让学生去预习。为激发学生预习的主动性,要求学生在评论中列出对本章的主要知识点或难点,并对课件中涉及的名词进行解释。为进一步加强理解,对投票功能进行设置,相应的对投票选项1、2、3、4分别设置成A、B、C、D,这样教师可根据需要将知识点转化成练习题,以加强学生的学习。同时,也可鼓励学生将一些新的感兴趣的话题或问题置于QQ群。总之,QQ群的投票功能可以成为教师与学生课下交流的一扇窗口,成为生物信息学的一种及时且重要的学习工具。

四、建议与展望

生物信息学是一门新兴学科,但我国无论是在对学科的重视还是发展程度上,与国外都存在一定的差距。在美国,计算生物学国际协会教育委员会一直致力于将生物信息学整合到高中生物教材中,学生在高中即接触生物信息学,而且高校对高中生物信息学的教学提供相应的培训课程和网上资源,生物信息学和其他分子生物学、植物学等一样较早的深入到学生的知识体系中。而我国由于该学科产生的历史较短,课程的开设集中在“985”、“211”重点院校的生物信息学专业,尽管近十年来,各大高校也意识到此学科的重要性,且课程也在逐步在开设,但由于学时短,很多教学仅限于学生掌握基本的数据库的查询。为使生物信息学能在普通院校的生命科学学院能很好的开展,各个高校应建立合适的课程教学内容。虽然近年“生物信息学”课程在各高校纷纷开设,但由于生物信息学是一门发展中的学科,它的理论及内容尚在不断完善与更新中(郭丽等,2014)。因此,对于教材的选择,不能只追逐信息量充足、内容新颖、知识选材前瞻性好的教材(杨娥等,2014)。作为普通院校的非生物信息学专业的本科生,想在较短的时间内(36课时)很好掌握如此大信息量的知识较为困难(刘宏生等,2010)。因此,需要依据学生基础及院校的人才培养目标和现今生物信息学发展的现状建立合理的课程内容体系。另外,由于缺乏合适的专业人才,生物专业的生物信息学的师资力量薄弱,无法建成高水平的教学队伍。因此,加大生物信息学教师的培养力度,建成一支专业的、年龄和知识结构合理的师资队伍,是提高本科院校生物信息学教学的关键问题之一。

参考文献:

[1]Bloom,M. Biology in silico:The bioinformatics revolution[J]. The American Biology Teacher,2001,63(6):397-403.

[2]郭丽,赵杨,娄冬华,等.生物信息学实践课教学改革探索[J].南京医科大学学报(社会科学版),2014,(2):165-167.

[3]张林,柴惠.现代教学手段在生物信息学教学中的应用[J].新课程研究,2011,(219):156-157.

第5篇:生物信息学的概念范文

21世纪是生命科学的时代,也是信息时代。随着分子生物学、测序技术以及人类基因组计划的深入展开,各种生物医学数据已达到海量级别。在后基因组时代,一方面是巨量的数据,另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量。这就构成了一个极大的矛盾。如何从海量生物医学数据中获取新的知识呢?1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上学者们提出了生物信息学的概念。1987年,林华安博士正式为这一领域定下生物信息学( Bioinformatics)这个称谓,一门新兴学科——生物信息学应运而生。

一生物信息学的学科特点

生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象、组织和分析呈现指数增长的生物医学数据的一门学科。它主要包括两重含义:一是对海量数据的收集、整理与服务,即管理好这些数据;二是从中发现新的规律,即利用好这些数据。生物信息学的实质就是利用计算机科学和网络技术来解决生物学问题。它的出现极大地推动了分子生物学等相关学科的发展。它不仅是一门新学科,更是一种重要的研究开发工具。生物信息学几乎是今后所有生物(医药)研究开发所必需的工具。

生物信息学与其他的生物医学学科相比,有很大的不同,主要有以下三大特点:

第一,以生物医学数据库为基础,数据极其庞大复杂。随着组学时代的来临与深入,生物医学数据正呈现指数级别的增长。根据权威的《Nucleic Acids Research》统计,截止2014年,全球共有约2100个主要的生物医学数据库,涵盖了生物医学研究的诸多领域。从研究层次上看,包括核酸、蛋白质、结构、基因组、蛋白质组、人类基因和疾病、细胞器官、免疫学等14类数据库。从研究种类上说,包括动物、植物、真菌、原核生物、病毒等30余万种生物。仅登录在美国GenBank数据库中的核酸序列就超过1亿条,DNA序列总量超过1000亿碱基对;在UniProt中,共收录蛋白质序列约1000万条;在PDB中,共收录蛋白质结构数据超过8万个。

第二,生物信息的操作分析主要以计算机为工具,在互联网环境中运行,通过网络强大的搜索功能完成数据收集、储存、管理与提供。

第三,生物信息学是一门生物医学、数学、信息科学以及计算机科学等诸多学科综合交叉的前沿产物,与其他学科相比,综合交叉性强、难度大、发展时间短、还在不断完善与更新中。因而目前还没有成熟的生物信息学教学模式,各高校,尤其是医学院校,尚处于摸索探讨的阶段。 二生物信息学现有教学模式的不足之处 目前,国内的生物信息学教学基本沿用以“教师讲授为主”的传统教学模式。以课堂为中心、以理论教学为主,进行“满堂灌”式教育,“照本宣读”的方式也比较常见。缺乏与生物信息学交叉前沿性特点相适应的新型教学模式。同时,实验教学方式比较单一,常以验证性为目的,有些甚至成为了“文献检索”课程,缺乏和专业相适应的综合性、设计性实验,结果出现了理论和实践相脱节的现象。 三关于PBL应用于生物信息学教学的探索 1PBL教学法的优势 “基于问题的学习(Problem based leaming)”,简称PBL,是美国广泛采用的一种探究性、任务驱动式学习模式。此方法与传统以学科为基础的教学法有很大的不同,强调以学生的主动学习为主,而不是传统教学中强调的以教师讲授为主,比如将学习与更大的任务或问题挂钩、使学习者投入于问题中、设计真实性任务、鼓励自主探究、激发和支持学习者的高水平思维、鼓励争论、鼓励对学习内容和过程的反思等。在医学教育中,PBL教学强调以设置问题的方式为学生创造一种特定的疾病发生的情境和诊治的氛围,通过学生的相互协作来共同解决实际问题,最终实现培养学生独立处理和解决实际问题的能力的目标。这种教学模式很好地解决了理论与实际脱节的矛盾。

2 PBL教学法在生物信息学教学中的实际应用

(1)分组。根据能力和兴趣分组,选择能力互补且有共同兴趣的学生组成不同学习小组,一般以3—4人为一组,对于总体能力特别强的小组可以适当减少人数。

(2)提出教学目标,布置真实性任务。首先,布置基础性教学任务,这类教学任务的目的是为了巩固学生的基础知识,培养学生的基础能力。例如,该类任务可由四个子科目组成:“生物医学数据库识别与理解”、“通过Entrez和SRS系统进行生物医学数据的检索利用”、“blast序列比对”、“clustalw多序列比对”。这是必选任务,每个个组都必须完成,为下一步实行探究性任务打下基础。

然后,根据不同小组的兴趣和特点,分配不同的探究性任务。例如,“新基因的发现与鉴定”、“某某疾病基因的分析与鉴定”等。这类问题并无现成答案,学生必须自己查阅资料、进行归纳分析、确定实验步骤、完成任务。例如,对于“新基因的发现与鉴定”这项任务,最终可由如下步骤组成:①利用EST数据库获得基因重叠群;②新基因的拼接获得;③所得基因的性质分析;④启动子分析;⑤编码区分析;⑥新基因的人工翻译;⑦所得蛋白质的功能分析。这些步骤和每一步的实现方法都将由学生在已有的知识基础上,通过查找文献、互相讨论、探索获得,最终完成该项任务,写出任务报告。

(3)定期讨论。定期安排学生集中讨论。每次讨论主要完成两方面工作:一是对任务进展进行报告,二是对所遇到的问题进行互相交流。教师全程参与,对疑难问题作出提示和建议。

(4)成果汇报。任务完成后,进行集中汇报。让学生对任务期间所做工作、获得的结果进行汇报。

(5)教师评价、反馈。由指导教师对任务完成过程及结果进行点评,对学生掌握知识的程度及学生的科研、应用能力进行评价,并提出进一步的提高方向。

(6)延伸阶段。鉴于生物信息学都是在临近毕业时进行教学,对于有兴趣的学生,可以将探究性任务扩展成毕业设计,进行模块化分流教学。

3在生物信息学中运用PBL教学法的优势

(1)生物信息学的学习是一个运用生物医学、数学、信息科学以及计算机科学等诸多学科知识进行分析、判断、推理、综合的实践过程,PBL教学法的应用可充分调动和发挥学生的主观能动性,着重培养学生解决实际问题的综合分析、判断及实践动手能力。

(2)在保证教学质量的前提下,可明显减少传统的灌输式教学工作和学习的负担,同时能让学生在短时间内熟悉多种生物医学数据库、掌握多种生物信息软件的使用方法、了解生物信息手段在生物医学中的各种应用。

(3)在相互合作的过程中,学生不仅学到了获取知识的方式,更重要的是提高了学生的兴趣、交流意识和团队责任感等科研必备素质和能力。

(4)在完成真实性任务的过程中,可让学生熟悉完成科研工作的方法步骤,培养学生完成科研任务的能力。

第6篇:生物信息学的概念范文

【关键词】生物技术;计算机;应用

【中图分类号】Q50 【文献标识码】A 【文章编号】1672-5158(2013)01―0046-01

进入二十一世纪以来,由于研究的深入,对知识的进一步认识和了解,许多学科之间都有了一些交叉,尤其是一些新兴学科之间的相互交叉,广泛渗透更是对科学的发展起了很大的促进作用,人们进一步提升对自然界的认识,对人类本身也有了进一步的了解。随着科学技术的不断发展,尤其是计算机技术的飞速发展,计算机在其中的应用范围也日益扩大,计算机和药学两者互相影响、互相渗透、互相结合,密不可分。

1、生物技术与信息技术的关系

信息技术和生物技术都是高新技术,二者在新经济中并非此消彼长的关系,而是相辅相成,共同推进21世纪经济的快速发展。信息技术为生物技术的发展提供强有力的计算工具。在现代生物技术发展过程中,计算机与高性能的计算技术发挥了巨大的推动作用。如今,人们越来越清醒地认识到,超级计算机在创造新品种的药物、治愈疾病以及最终使我们能够修复人类基因缺陷等方面是至关重要的,高性能计算可以为人类作出更大的贡献。生物技术推动超级计算机产业的发展。随着人类基因组计划各项任务的完成,有关核酸、蛋白质的序列和结构数据呈指数增长。面对如此巨大而复杂的数据,只有运用计算机进行数据管理、控制误差、加速分析过程,使得人类最终能够从中受益。然而要完成这些过程,并非一般的计算机力所能及,而需要具有超级计算能力的计算机。因此,生物技术的发展将对信息技术提出更高的需求,从而推动信息产业的发展。生物技术将从根本上突破计算机的物理极限。运用数学、计算机科学和生物学的各种工具,来阐明和理解大量基因组研究获得数据中所包含的生物学意义,生物学和信息学交叉、结合,从而形成了一个新的学科。生物信息学或信息生物学,它的进步所带来的效益是不可估量的。

2、计算机在生物技术中的应用分析

生物医学工程运用现代自然科学和技术科学的原理和方法,从工程学的角度研究人体的结构、功能及其相互关系以及其他生命现象。其目的是解决医学问题,即研究和开发为防病、治病以及人体功能辅助等医学应用的装置和系统。用技术科学的概念和方法来解释和描述人体各层次的成份、结构和功能,以及人体各种正常生理功能和病理状态之问的差异,这些内容形成了这个学科的基础部分。而防病、诊断、治疗及功能辅助的具体技术和设备则形成这个学科的应用部分。

2.1 计算机技术在生物信息学中的应用

生物信息学在今后的无论是生物医药科研还是开发中都具有广泛而关键的应用价值;而且,由于生物信息学是生物科学与计算科学、物理学、化学和计算机网络技术等密切结合的交叉性学科,使其具有非常强的专业性,这就使得专业的生物医药科研或开发机构自身难以胜任它们所必需的生物信息学业务,残酷的市场竞争及其所带来的市场高度专业化分工的趋势,使得专业的生物医药开发机构不可能在自身内部解决对生物信息学服务的迫切需求,学术界内的生物医药科研机构也是如此,而这种需求,仅靠那些高度分支化和学术化的分散的生物信息学科研机构是远远不能满足的。可见,在生命科学的新世纪,生物信息学综合服务将是一个非常重要的也是一个极具挑战性的领域。

2.2 计算机在微生物学中细菌生化反应上的应用

细菌学的计量检验是医学检验现代化的种重要手段。此检验技术是通过收集已确证的统计资料,并将系列生化反应试验的反应结果数值化,按照一定的数学模型进行多元分析,利计算机的运算速度和记忆能力,检验标本作出规范化的定量鉴定。实现这一计量鉴定,我采用了计算机辅助编码捡索系统(CAIS)菌科细菌系列生化反应机辅检索程序(CAE-15)、(eAE-I)输入微机。通过各项生化反应结果及增补试验结果所得的编码数经过人工查询,从计算机编程的“缩码检索手册”中直接查找指定编码的细菌概率分布和相应的补充试验。计算机在微生物中的应用,不仅节约了时间和人力,而且鉴定结果准确可靠,避免主观误。

2.3 计算机在破译遗传密码和管理基因数据方面的应用

计算机在破译遗传密码和管理基因数据方面的潜力,在加利福尼亚大学圣迭分校的生物化学教授杜利特尔及其同事的工作中得以体现。他们在年进行的工作中只通过分析计算机打印输出的数据就获得了一个重要的生物学发现。杜利特尔教授的研究小组比较了两个由计算机打印输出的蛋白质序列,发现一种与癌症发生有关的序列和一种与细胞生长有关的序列完全一样,揭示出癌基因引起了细胞的不正常生长。这一发现在没有进行过任何一实验的情况下就获得了。

2.4 计算机在创造生物的虚拟环境方面的应用

计算机还正被用于创造一个虚拟的生物环境,以便对复杂的生物网络和生态系统进行模拟。这种虚拟环境创造不同的情境,帮助研究人员产生新的假说,并在实验室里被用于检测新的农业和制药产品以及医学活体实验。在虚拟世界里,生物学家敲敲键盘就可以产生新的合成分,而在实验室经常需要几年时间才可能合成一个真正的分子。有了三维的计算机模型,研究人员可以在屏幕上将各种基因和分子进行组合,然后观察它们的相互作用情况。年,宾夕法尼亚州立大学和位于加利福尼亚拉霍亚的斯克里普斯临床研究所的研究人员,通过使用最先进的计算机首次设计了一种极有价值的合成分子。这种被命名为的化合物是在计算机屏幕上构想出来的,几家生物技术实验室正在进行该化合物的批量生产。科学家们打算通过使用新的信息时代的计算技术造出多种多样的新分子。

2.5 计算机在生物医学工程中的具体应用

生物医学工程运用现代自然科学和技术科学的原理和方法,从工程学的角度研究人体的结构、功能及其相互关系以及其他生命现象。其目的是解决医学问题,即研究和开发为防病、治病以及人体功能辅助等医学应用的装置和系统。用技术科学的概念和方法来解释和描述人体各层次的成份、结构和功能,以及人体各种正常生理功能和病理状态之间的差异,这些内容形成了这个学科的基础部分。而防病、诊断、治疗及功能辅助的具体技术和设备则形成这个学科的应用部分。

3、发展前景

计算机在生物医学工程中应用的例子还很多,并且发挥着越来越重要的作用,同时对计算机技术水平的要求也越来越高。比如在生物医学信号处理方面,普通的计算机已经很难胜任实时处理的能力,使人们转向研究处理速度更快的专门处理器件DSP芯片。在人工智能方面,往往还需要功耗更低、存储更大的微计算机。因此,生物医学工程在利用计算机的同时也促进了计算机的发展。二十一世纪是生物技术的世纪,信息生物学是自然科学中发展最迅速、最具活力和生气的领域,并且为人类带来了很大的便利与贡献。不难看出,生物计算机研制成功以后,又会带来一次革命,它将会给人类带来更多的福祉,世人将以期盼的心情等待它的出现。随着科技的发展,随着生物技术的发展,它将越来越离不开计算机。不但如此,计算机和生物技术更越来越紧密结合。将更快地促进两者的发展。

参考文献

[1]张宜,汤韧.计算机单机及局域网在药学领域应用发展回顾及现状[J].武汉总医院杂志,2005,13(4):12

第7篇:生物信息学的概念范文

【关键词】计算机应用;人工智能;生物信息学;数据挖掘技术

【中图分类号】TP391

【文献标识码】A

【文章编号】1672—5158(2012)10-0078-01

一、生物信息数据库的现状及问题

在生物信息学的发展过程中,逐步建立起了大量基于网络的生物数据库,而且开发了众多检索工具,从而实现了生物信息数据的智能处理和综合分析。生物信息数据在具有增长迅猛、更新及时、种类繁多等特点的同时,更表现出高度的复杂性、多样性和不一致性。

随着生物信息数据量的激增以及数据处理能力的复杂程度不断提高,现有的生物信息数据库已经逐渐暴露出许多问题。三大核酸数据库依靠传统方式交换数据,无法及时反应出其他专用生物信息数据库的变化情况以及非核酸类数据信息。网上所提供的大部分数据分析工具采用面向问题的搜索方法,搜索效率随着问题规模的扩大而降低,并且无法智能地对数据中存在的未知知识进行发掘。为此,在后基因组时代,需要将数据仓库思想及智能数据挖掘技术运用到生物信息学领域中。

二、基于生物信息数据仓库的数据挖掘技术

(一) 生物信息数据库中的算法工具

在生物信息学中,基因比对是最常用和最经典的研究手段。在核酸序列或蛋白质序列之间进行两两比对,比较两个序列之间的相似区域和保守性位点,寻找二者的相似形、同源性,进而探寻可能的分子进化关系,揭示序列中蕴涵的结构、功能等信息。数据挖掘主要存在以下几种经典分析模式:关联模式分析、序列模式分析、分类分析、聚类分析,其中关联模式分析应用最为广泛。

(二) OLAP和数据挖掘技术

传统的针对数据库的开发工具多为联机事物处理模式,它主要是面向具体的查询和统计,有着较为具体的应用目的。然而随着越来越多数据库的出现,数据量的迅猛增长,OLTP在数据资源的充分利用、为用户提供有效支持和帮助等方面,则显得力不从心。因此,基于数据仓库的联机分析处理以及数据挖掘引起了日益广泛的关注和应用。OLAP是一种自上而下、不断深入的分析工具。用户提出问题或假设,OLAP则负责从上而下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。DM是一种决策支持过程和挖掘性工具,它主要基于人工智能、机器学习、统计学等技术,高度自动化地对原始数据进行分析,发现隐藏在数据中的模式,做出归纳性和预测性的推理。

(三) 基于生物信息数据仓库的数据挖掘技术

实现数据挖掘的前提条件是必须具有海量数据,而这恰恰是数据仓库的基本特点之一,二者紧密结合可以有效解决大量应用中出现的问题。在生物信息学领域,使用数据挖掘技术可以大幅提高研究人员的工作效率,改变原有的预测法;数据挖掘算法还可以结合生物信息专业领域的公式算法,根据研究人员的设想,对数据进行全面高效的分析。

基于数据挖掘等技术发展起来的智能决策技术具备了在生物信息学领域中大展身手的天赋,特别是基于海量数据的数据挖掘和开采技术更具有广泛的需求和应用背景。另一方面,目前生物信息学的研究方法和发展情况,已经形成了较为完善的智能决策系统,成为数据仓库和数据开采较为成功的应用案例。另外,现有各种生物信息应用分析软件从一定程度上讲,已经反映并且实现了数据仓库及数据挖掘的思想和技术。

三、实现生物信息异地多源数据库的综合利用

(一) 建立基于Web的生物信息数据仓库

基于现有的生物信息数据库,运用数据仓库思想,利用OLAP和数据挖掘技术,建立生物信息数据仓库,是一种不需要大幅增加硬件设备以及物理装置的前提下,实现基于Web平台的生物信息集成与处理平台的可行方案。设计一个基于Web的生物信息数据仓库,其主要结构由五部分组成:外部数据源;基于Web的数据调度、传输;数据的变形整合;元数据规则、元数据管理;基于Web的综合管理平台。

DWBW以DDBJ/EMBI/GeneBank作为主要数据源,同时以其他主要的生物信息数据库作为整个数据仓库的基本数据源。通过分析数据库结构和数据结构类型,建立DWBW的元数据规则。这样,基于上述各种数据库就可以建立起一个基于Web的虚拟数据仓库,由于不存在一个物理上位于某地的存储中心来保存这些数据,用户面对的只是基于网络的分布式虚拟的数据仓库。其模型、算法的运行由专用的分析工具服务器来完成,而对于数据的调用和整理都是在源数据库上进行的,根据不同用户提交问题的不同,具体分析过程则由分配服务器交给服务器去完成分析,只是最终将结果返回请求分类服务器,显示给用户。

DWBW将通过统一的基于Web的页面与用户进行交互,在后台则主要由请求分类服务器、Web服务器及专用分析工具服务器共同完成对问题的提交和分析,实现对数据仓库元数据规则的理解,然后根据分类的结果,与相关分析工具进行匹配,将问题提交到相应的分析工具服务器进行处理。处理完成后返回给请求分类服务器,进而返回给提交问题的用户。

(二) DWBW的关键技术

生物信息学元数据的抽取。数据的整理和抽取,是开发所有数据仓库时所遇到的最难解决也是最具挑战性的问题之一。将不同时期生成的大量历史数据中的数据结构、字段的定义以及对象之间的关系等一系列的描述信息整理出来,并制定一套通用可行的规范,本身就是一个工作量巨大、难度极高的问题。因此,数据仓库元数据的抽取整理,成为建立DWBW的关键问题。数据抽取、清洗、转换和装载过程与一般数据仓库建立过程中的数据整理不完全相同,其数据具有规范性强,存储结构相对简单,转换、装载容易等特点。

虚拟生物信息数据仓库的建立。虚拟生物信息数据仓库实现对生物信息平台相关数据的组织和集成,并且将不同主题的数据对象分别存储到各个数据集市中,同时还将建立起部分有价值数据的在线OLAP数据库。虚拟数据仓库采用中间件充当数据中心,提供信息的访问接口,对存贮在不同数据源的生物信息数据进行存取操作。由于虚拟生物信息数据仓库一般不是针对实时数据进行分析统计,所以对于时间效率的要求不如一般查询统计那么高,这就确保了开发处于不同物理位置数据源的虚拟DWBW具有可行性。同时,对于一般性的查询比对等基本操作,不会影响其工作效率和准确性。

基于Web面向用户的综合平台的开发设计。此平台主要提供一个用户操作的平台,除了集成基因比对、功能预测、序列分析、基因提交等传统的操作以外,还允许用户对虚拟数据仓库中的数据运用数据挖掘技术,提供更多的分析支持工具。

第8篇:生物信息学的概念范文

本书共有38章:1.G.N.Ramachandran的学术遗产与印度结构生物学的发展;2.胶原三螺旋结构研究综述;3.Ramachandran先生丰厚的学术遗产;4.“相图”扩充:更多数据、更多维度、更多用途;5.拉氏图和蛋白质结构验证;6.拉氏图的非参数统计分析;7.拉氏图封闭区的非甘氨酸残基及其邻位偏好性;8.蛋白质相似结构的二面角变异性分析;9.α碳原子示踪与扭矩角分析α螺旋几何量:一个比较;10.拉氏图不同区域对蛋白质中氨基酸残基的倾向性;11.多肽构象粗晶分析的立体化学;12.多蛋白组装:靶向蛋白-蛋白相互作用以调控细胞生化活性;13.蛋白-蛋白复合物结构的预测;14.抗体特异性研究的新范式:种系抗体识别的结构生物学;15.蛋白质组,蛋白折叠盒自关联:NMR技术最新进展;16.用计算方法研究蛋白质复合物识别机制;17.蛋白质三级结构的普遍性:一些新概念;18 冷休克结构域――单链RNA结合和重塑与分子模块的多变性;19.DNA蛋白质复合物中的DNA螺旋转换;20.D氨基酸:产生、立体化学和翻译机制规避;21.多肽设计中用构象性限制残基诱发折叠结构;22.环β-氨基酸作为构象限制剂;23.蛋白质二硫键分析与设计;24.强扭曲和卷曲β-发卡结构及其在蛋白质折叠中的作用;25.负责结构域交换的蛋白质铰链区的鉴定和构象分析;26.内生性异常蛋白:结构-功能范式的重读;27.内生性异常蛋白:调控与疾病;28.T细胞赖氨酸激酶ZAP-70调控的结构基础;29.模拟蛋白功能调控的构象动力学控制;30.σ因子-抗σ因子复合物的构象特征;31.Ⅱ型 5-磷酸吡哆醛依赖的酶:结构、底物识别与催化;32.分子内同构多肽键:菌毛和细胞表面粘附中新的翻译后修饰;33.结构生物信息学解析次生代谢物的生物合成密码;34.加速化分子动力学:生物分子模拟的效应提高取样法;35.E.coli胆色素原去氨基酶四聚体化时的结构动态;36.抗凋亡MCL1和A1蛋白憎水沟的可塑性;37.用不规则维度法研究蛋白质结构的有效性;38.MOLS技术检测甲硫氨酸-脑啡肽景观结构的内生性。

作者Manju Bansal是位于班加罗尔的印度科学理工学院的教授,N Srinivasan是此校的副教授。Manju Bansal研究领域是核酸结构、原核和真核生物启动子结构,DNA结构稳定性,DNA构象柔性,DNA配体结合动力学,蛋白质二级结构。N Srinivasan的研究主要用计算方法研究蛋白质结构、功能及相互作用,细胞信号传导和生物通路。

本书适合结构生物学、计算生物学、分子生物学和生物化学、生物信息学、药物化学领域的专家、学者和研究生阅读。

第9篇:生物信息学的概念范文

关键词:生物学;信息;支持向量机

中图分类号:R392

在免疫学[1]中认为,表位才是抗原刺激机体免疫系统产生特异性免疫应答的真正部位。B细胞表位预测是表位预测的一个重要组成部分,大多数的研究是针对线性B细胞表位预测,通过组合抗原蛋白物理化学性质、结构性质、统计显著性度量等特征属性进行表位预测,并取得一定的研究成果。

1 抗原表位[6]的大小与相应抗体的抗原结合部位相适合

一般情况下,一个多肽表位含5~6个氨基酸残基;一个多糖表位含5~7个单糖;一个核酸半抗原的表位含6~8个核苷酸。一个抗原表位的特异性由组成它的所有残基共同决定,但其中有些残基在与抗体结合时比其它残基起更大作用,这些残基被称为免疫显性基团。免疫应答过程中,T细胞的TCR和B细胞的BCR所识别的表位具有不同特点,分别被称为T细胞表位和B细胞表位。

2 基于SVM的线性B细胞表位预测采用贝叶斯特征提取方法[2]

B细胞表位的抗原-抗体之间的相互作用机制,在疾病的预防和诊治中发挥了极大的推动作用。实验方法通常是费力和耗时的,在硅片方法进行预测这些免疫原性的区域是关键的。这样的努力,已经显著以高阻碍可变性的抗原表位序列的长度和组成,使得初治建模方法难以适用。结果:分析了两个标准数据集,发现线性B细胞表位具有鲜明的残基保守性和特定位置的残留物倾向性这可能被利用在硅片表位识别中。开发了一种支持向量机(SVM)预测模型,采用贝叶斯特征提取预测多种不同的长度的线性B细胞表位。最好的SVM分类器实现了准确度为74.50%和AROC为0.84在一个独立的测试集中,并证明优于现有的线性B细胞表位预测算法。

3 UniProt[3]

全球蛋白质资源(Universal Protein Resource,UniProt)这个数据库是全球有关蛋白质方面信息最全面的资源库,是蛋白质序列以及功能信息的集中资源,且其具有最小的冗余。UniProt是对PIR、TrEMBL以及SwissProt的信息进行组合而构成的。UniProt提供了完全分类的、有丰富且准确注释信息的基于知识的蛋白质序列信息,且有广泛的交叉引用以及多种查询界向。出于方便序列查询,UniProt同样提供了多个非冗余序列数据库。

UniProt由三部分内容组成,分别是UniProtKB、UniRef和UniParc,每个部分偏向于不同的用途。

3.1 UniProtKB(the UniProt knowledgebase)是基于知识的UniProt,通常也简称为UniProt[7],它汇聚了蛋白质的主要信息,包括蛋白质功能、分类以及交叉引用。UniProtKB包含两个部分:一部分是人工注释的记录,这部分注释信息是来自于文献信息和在专家监督下进行计算机分析而得到的(记为UniProt,SwissProt);另外一部分是直接利用计算机程序获得的记录信息。

3.2 UniRef即UniProt非冗余参考数据库,它把紧密相关的序列信息进行组合并记录到一个记录条目中去,这样一来便于加速序列搜索。前面提到的UniProtKB中的数据是严格根据某一物种的可靠而又稳定的序列信息资料而得到的,而UniRef100则是将UniProtKB中不同物种的序列信息进行交叉合并处理后的条目,它包含了UniProtKB中的所有记录信息。UniRefl00还包含了UniParc的记录,UniParc中的序列被认为是过度表达的以及不包含在一些已知数据库中的序列信息,比如说DDBJ/EMBI,/GenBank中的全基因组短枪法数据(WGS)编码蛋白的翻译产物,Ensembl中从不同生物体内翻译得到的蛋白质以及国际蛋白质索引(International Protein index,IPI)数据。

3.3 UniParc即UniProt档案库(UniProt Archive),它广泛存储所有公开发表过的蛋白质序列,只包含唯一的标识符和序列。大多数蛋白质序列数据是从DDBJ/EMBL/Geni3ank中的核酸序列翻译过来的,而大量由蛋白质测序实验直接得到的初级蛋白质序列数据又直接上传到其他资源库中去。

4 机器学习方法简介

4.1 决策树。实际上是将空间用超平面进行划分的一种方法,每次分割的时候,都将当前的空间一分为二,这样使得每一个叶子节点都是在空间中的一个不相交的区域,在进行决策的时候,会根据输入样本每一维特征值,一步一步往下,最后使得样本落入N个区域中的一个(假设有N个叶子节点)。

4.2 随机森林。用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为哪一类。每一棵决策树就是一个精通于某一个窄领域的专家,这样在随机森林中就有了很多个精通不同领域的专家,对一个新的问题(新的输入数据),可以用不同的角度去看待它,最终由各个专家,投票得到结果。

4.3 支持向量机。一种有坚实数学理论基础的小样本学习方法,支持向量机被广泛应用在统计分类和回归分析领域中,最终的决策函数只由少数的支持向量所确定,而不是样本空间的维数,避免了训练样本数量对分类速度的影响。但是经典的支持向量机给出的只是二类分类问题的解决方法,而在实际应用中,这种情况非常好,大多数都是多分类问题。

4.4 隐马尔可夫。我们知道,马尔可夫模型中每个状态对应一个可观察的输出符号,它们的关系是一一对应的,但是很多实际问题往往是复杂的,每个状态可观察到多个观察符号之一。因此,这时的马尔可夫模型的可观察的输出符号序列是状态的一个函数,也就是说该模型是由两个随机序列组成,一条是隐藏起来的状态序列,简称为隐状态序列,另一条是由该隐状态序列产生的可观察的输出符号序列。HMM在20世纪60年代末70年代初提出,是一种典型的统计方法,是一种用参数表示的、用于描述随机过程统计特征的概率模型。1970年左右,Baum等人建立起HMM的理论基础。Rabiner详细地对HMM做出了介绍,才使得各国的学者渐渐了解并熟悉该模型,进而成为了公认的研究热点。

5 线性B细胞表位的应用

5.1 猪带绦虫六钩蚴 TSO45-4B 抗原 FnⅢ结构域相应的线性 B 细胞表位肽免疫原性研究[4]。其目的是观察载体蛋白偶联的TSO45-4B抗原FnⅢ结构域相应的线性B细胞表位肽诱导的体液免疫反应。方法:人工合成TSO45-4B抗原FnⅢ结构域2条预测表位肽,偶联钥孔血蓝蛋白免疫小鼠,采用 ELISA 法检测小鼠血清中预测表位肽特异性抗体滴度。结果:免疫小鼠血清中检测到1条预测表位肽特异性抗体,其效价达到1∶1280。结论:设计的1条TSO45-4B抗原FnⅢ结构域线性B细胞表位肽可诱导小鼠产生体液免疫反应。

5.2 HBeAg 的 B 细胞线性表位预测及鉴定[5]。预测并鉴定乙型肝炎病毒e抗原(HBeAg)的B细胞线性表位,为乙型肝炎的诊断和治疗提供新的依据。方法采用生物信息学分析技术,利用NCBI数据库和免疫表位数据库提供的相应软件预测HBeAg的B细胞线性表位,采用人工合成法合成相应表位肽并分别将与血蓝蛋白(KLH)偶联,作为免疫原,免疫大白兔制备抗HBeAg抗原表位抗体,ELISA法鉴定抗体的特异性。结果发现了1MDIDPYKEFG10、37LYREALESPEHCSP50、74SNLEDPAS81、127RTPPAYRPPNAPIL140等4条新的HBeAg蛋白B细胞线性表位肽,其与KLH的偶联物作为免疫原免疫大白兔,获得特异性高效价抗体,抗体滴度大于1∶512000,ELISA 实验证实上述抗体均可与HBeAg发生特异性免疫反应。结论采用生物信息学技术成功确认了4个HBeAg蛋白B细胞线性表位肽,为深入研究HBeAg的功能和作用以及乙型肝炎的治疗提供了新依据。

6 结束语

线性B细胞表位的预测是用于疫苗设计的重要,开发诊断试剂,以及解释抗原-抗体相互作用在分子水平上。在近年来,随着各种组学的发展和构象的生物信息学,相关的实验数据线性B细胞表位已经被迅速地提出。建全相关数据库促进线性B细胞表位的预测发展,在这项研究中,我们总结了生物信息资源和机器学习方法的线性B细胞表位的预测。基于机器学习方法的线性B细胞表位的预测极大地降低线性B细胞表位定位的时间成本和人工成本,提高工作效率,智能搜索算法可以提高的方法的有效性,以及预测性能。

参考文献:

[1]冯新港.免疫信息学原理及其应用[M].上海:上海科学技术出版社,2009,6:1-5.

[2]Alix,A. (1999) Vaccine,18,311314(314).

[3]http:///[DB].

[4]王媛媛,陶志勇.猪带绦虫六钩蚴TSO45-4B抗原FnⅢ结构域相应的线性B细胞表位肽免疫原性研究[J].蚌埠医学院学报,2013,05.

[5]Jun Yang,Ni Liu.Prediction and identification of B-cell linear epitopes of hepatitis B e antigen.J South Med Univ,2013,33(2):253-257.

[6]黄艳新,鲍永利,李玉新.抗原表位预测的免疫信息学方法研究进展[J].中国免疫学杂志,2008,09-20.

[7] http://ncbi.nlm.nih.gov/genbank/[DB].

[8]Fattovich G,Bortolotti F, Donato F. Natural history of chronic hepatitis B: Special emphasis on disease progression and prognostic factor[J].JHepatology,2008,48(2):335-52.

[9]Liaw YF.HBeAg seroconversion as an important end point in the treatment of chronic hepatitis B[J]. Hepatol Int,2009,3(3):425-33.

[10]Lau GK, Wang FS. Uncover the immune biomarkers underlying hepatitis Beantigen (HBeAg) seroconversion:a need for more translational study[J]. JHepatol,2012,56(4):753-5.

[11]Roseman AM,Berriman JA., Wynne SA., et al. A structural model for maturation of the hepatitis B virus core[J]. Proc Natl Acad Sci USA, 2005,102(44):15821-6.

[12]Yasser EL-Manzalawy, Vasant Honavar.Recent advances in B-cell epitope prediction methods[J]. Immunome Res,2010,6(Suppl 2):S2.