公务员期刊网 精选范文 生物信息学的定义范文

生物信息学的定义精选(九篇)

前言:一篇好文章的诞生,需要你不断地搜集资料、整理思路,本站小编为你收集了丰富的生物信息学的定义主题范文,仅供参考,欢迎阅读并收藏。

生物信息学的定义

第1篇:生物信息学的定义范文

>> 民族信息学的研究范式与发展方向探析 生物信息学在农学研究领域中的应用 协作学习在信息学奥赛辅导中的实践研究 中医药信息学的发展与应用 医学信息学课程的发展与思考 发展中的医学影像信息学 癌症研究的生物信息学资源 中医神经信息学研究趋势 生物信息学方法在蛋白质―蛋白质相互作用研究中的应用 社区信息学的主要方法 中日美企业文化的比较研究 云计算及其在生物信息学中的应用 关于化学信息学及其课程教学 生物信息学在生物学研究领域的应用 在信息学辅导中培养学生的信息素养 我国医学信息学教育的历史与发展现状 美国健康信息学技术的发展现状及作用 中医大数据下生物信息学的发展及教育模式浅析 人才成为国外医学信息学发展原动力 自建在线评测平台在中学信息学奥赛教学中的应用 常见问题解答 当前所在位置:l.

[4] 野田五十洌山下央,副田俊介.新しい情笱В3.暮η笱[J].情I理,2010,51(6):649-655.

[5] Subedi J.Disaster Informatics:Information Management as a Tool for Effective Disaster Risk Reduction[J].Advanced ICTs for

Disaster Management and Threat Detection:Collaborative and Distributed Frameworks,2010:415.

[6] 庞宗礼.关于建立灾害信息学的建议和农业灾害信息初探[J].农业信息探索,1989(1):27-30.

[7] 庞宗礼.灾害信息学的基本构架[J].科学管理研究,1991(5):74-78.

[8] 刘艺林.灾害信息的采集及其成果积累[J].灾害学,1999(1):70-75.

[9] 田中 淳.暮η笳の展望:p膜蚰恐袱筏疲学gv演会|京大学t合防那笱芯骏互螗咯`O立浈伐螗荪弗Ε啵[J].生b研究,2008,60(4):19-26.

[10] 孙庚.日本灾害信息学研究的历史与现状[J].国际新闻界,2010(1):111-116.

[11] 民政部灾害信息管理项目建设考察团,王振耀,方志勇,等.加快灾害信息管理系统建设──美国、日本灾害应急管理系统建设启示[J].中国减灾,2004(5):49-51.

[12] 宋丹,高峰.美国自然灾害应急管理情报服务案例分析及其启示[J].图书情报工作,2012,56(20):79-84.

[13] Asimakopoulou E.Advanced ICTs for Disaster Management and Threat Detection:Collaborative and Distributed Frameworks:Collaborative and Distributed Frameworks[M].IGI Global,2010.

[14] Weichselgartner J,Pigeon P.The Role of Knowledge in Disaster Risk Reduction[J].Int J Disaster Risk Sci,2015,6(2):107-116.

[15] Takahashi B,Tandoc E C,Carmichael municating on Twitter during a disaster:An analysis of tweets during Typhoon Haiyan in the Philippines[J].Computers in Human Behavior,2015(50):392-398.

[16] Svoboda M D.,Fuchs B A.,Poulsen C C,et al.The drought risk atlas:Enhancing decision support for drought risk management in the United States[J].Journal of Hydrology,2015(526):274-286.

[17] Lindell M K,Prater C S,Gregg C E,et al. Households'immediate responses to the 2009 American Samoa Earthquake and Tsunami[J].International journal of disaster risk reduction,2015(12):328-340.

[18] Steelman T,Mccaffrey S,Velez A-L.,et al.What information do people use,trust,and find useful during a disaster?Evidence from five large wildfires[J].Nat Hazards,2015,76(1):615-634.

[19] Ryan B.Information seeking in a flood[J].Disaster Prevention and Management:An International Journal,2013,22(3): 229-242.

[20] Su Y,Zhao F,Tan L.Whether a large disaster could change public concern and risk perception: a case study of the 7/21 extraordinary rainstorm disaster in Beijing in 2012[J].Nat Hazards,2015,78(1):555-567.

[21] 郭松玲.试论灾害信息的特征与分类[J].中国减灾,1992(3):25-27.

[22] 彭姚.国内自然灾害信息分类与组织研究综述[J].科技创新导报,2014(30):26-30.

[23] 崔鹏飞.我国灾害信息管理现状与发展分析[J].教育教学论坛,2014(30):243-244.

[24] 陈祖琴,苏新宁.基于情景划分的突发事件应急响应策略库构建方法[J].图书情报工作,2014,58(19):105-110.

[25] 蒋勋,毛燕,苏新宁.突发事件驱动的信息语义组织与跨领域协同处理模型[J].情报理论与实践,2014(11):114-119.

[26] 蒋勋,苏新宁,刘喜文.突发事件驱动的应急决策知识库结构研究[J].情报资料工作,2015(1):25-29.

[27] 吴小兰,章成志.基于DTM-LPA的突发事件话题演化方法研究――以H7N9微博为例[J].图书与情报,2015(3):9-16.

[28] 邵健,章成志.文本表示方法对微博Hashtag推荐影响研究――以Twitter上H7N9微博为例[J].图书与情报,2015(3):17-25.

[29] 邓三鸿,刘喜文,蒋勋.基于利益相关者理论的突发事件案例知识库构建研究[J].图书与情报,2015(3):1-8.

[30] 林曦,姚乐野.我国突发事件应急管理的情报工作现状与问题分析[J].图书情报工作,2014,58(23):12-18.

[31] 徐占品,钟健.灾害信息传播的研究对象、方法和意义[J].防灾科技学院学报,2010(3):125-129.

[32] 徐占品.灾害信息传播者类型及其传播特点[J].新闻界,2013(21):28-33.

[33] 徐占品,刘利永.新媒体时代灾害信息的传播特点――以北京7.21特大暴雨山洪泥石流灾害为例[J].新闻界,2013(5):48-53.

[34] 刘晓岚,刘颖,迟晓明.我国灾害信息传播的研究现状与展望[J].防灾科技学院学报,2010(1):132-136.

[35] 刘伟,刘晓岚.移动互联网语境下的灾害信息传播研究[J].东南传播,2015(3):5-7.

[36] 刘雯,高峰,洪凌子.基于情感分析的灾害网络舆情研究――以雅安地震为例[J].图书情报工作,2013,57(20):104-110.

[37] 刘波.公共突发性事件中微博舆论场域的生成与引导――从北京“7・21”特大自然灾害到事件[J].中国党政干部论坛,2013(4):76-80.

第2篇:生物信息学的定义范文

准确地说:自20世纪80年代以来,我们已是处在一个信息爆炸的时代、一个知识经济的时代。有人还更形象地说:这是一个一“网”情深的时代;一个“网”事如歌的时代;一个无“网”而不胜的时代。的确,进入20世纪的后期,我们已实实在在地处在了一个信息网络化的时代中。未来学家们又进一步预言说:21世纪将是生物科技的时代,或者说是生命科学的时代。因为生物技术和信息技术的迅猛发展已向人们展现出了更加诱人前景,并使得将生物学和信息学结合起来的生物信息学的研究成为可能。运用生物信息学的原理或机制去提示生命的奥秘,认识和探讨人类疾病的发生和发展及至康复等医学问题,将是一个全新的课题,并有望开启一个崭新医学时代。生物信息医学的时代。这是一个将“物质、能量和信息”三基元的思想用来指导医学的研究和发展的新阶段,是对现代医学仅从人体的物质结构和功能(能量)或者注重从生物物理和生物化学的角度去认识疾病和防治疾病方法的一种进步和完善。换句话说:我们将从生理、生化和生物信息三方面去看待机体和生命,去认识和防治疾病。这不正是我们传统中医学的“形、气、神”理论的现代体现吗?所以,我们认为,21世纪的医学发展趋势将是以生物信息为主导的医学新时代。

下面我想从4个方面来分析和探讨一下,我们所提出的“生物信息医学”形成的可能性或可行性。即:①现代高新科技发展所提供的时代科技背景;②信息时代新的哲学思想原则为之提供的认识论和方法论;③生物信息医学已存在的历史和发展现状;④生物信息医学未来的发展前景展望。

1生物信息医学形成的时代背景――现代高新科技

现代医学科学的每一个新进展都与当时的科学研究和技术的支持是分不开的,在当今蓬勃发展的医学背后有现代高新技术强有力的支撑。

现代高新科技来自现代尖端科学的研究,所谓尖端科学就是人类探索自然界规律,攀登科学知识高峰的前沿。当前,科学研究的最前沿主要可以归结为以下几个方面的问题,即物质的组成或结构,生命的本质和演化,人类生存的环境,宇宙的起源和人类智力的奥秘。正是对在这些问题探索研究的过程中,人们不断获取尖端科学知识,并应用这些知识,又进一步开发出了如下高新科学技术,即:①生命科学技术(或称生物科学技术)――对生命的本质和演化的探索;②信息科学技术――对人类智力的探索;③软科学技术(或称管理科学)――对人类智力的探索;④海洋科学技术――对生存环境的探索;⑤空间科学技术(或称航空航天技术)――对宇宙空间的探索;⑥环境科学技术――有益于环境的高新技术;⑦新材料科学技术――对物质的组成或结构的探索;⑧新能源和可再生能源科学技术――对物质的组成或结构的探索。

这高新技术中,其中信息科学技术、生命科学技术和软科学(管理科学)是与人的生命和智力的探索直接相关的。自然也是与医学是密切相关的科学和技术。海洋科学和空间科学及环境科学,主要研究人类生存空间的拓展和生存环境的保护,也是以人为本的。新材料科学和新能源及可再生能源科学则主要是为人类寻找更好的使用工具和动力资源,提高人类劳动效率和生存生活质量。同时,其新材料科学技术还将会为我们的医学提供更精细和精密的诊疗仪器或技术手段。例如:纳米技术可使我们造制出更加精细的检测仪器,如:纤维镜、胃镜等,也可提供更精细手术器械等。

在现代高新科学技术的基础上,现代医学科学研究方法的特点:一是研究更为深入,利用现代生物学先进技术,在核酸、蛋白质等生物大分子水平上阐述生命体的结构和功能特征,并且利用基因技术使人们能够设计和改变生物体特征;二是研究技术的综合应用,以往各学科单一的研究方法、系统正在被跨学科多水平的实验体系所取代,高水准的研究一般都在整体、离体组织、细胞、分子多种水平上证实一种论点;三是高新技术的发展完善,使得元损伤非侵入式研究越来越广泛被采用,不仅可以在实验动物上得出与人更接近的结果,还能直接用于人体的研究;四是信息科学技术又为现代医学科学的研究提供了新的思路和方法。它使我们对生命体的认识不再只考虑其物质结构和能量代谢两个方面的问题,而是将生命体内物质、能量和信息三个基本要素都考虑进来。目前,对于人体信息系统的组成、信号转导及有关的分子家族、信号转导过程、细胞内信号转导、细胞间通讯、神经信息的传递、大脑信息的加工、处理等有了前所未有的详细认识。

因此,在这里我将重点介绍一下信息科学技术和生物科学技术。因为,这两项技术与我所提出的生物信息医学是紧密相连的。

1.1信息科学技术

1.1.1信息的定义及本质的讨论:从20世纪中叶开始,对于信息的定义及其本质的问题在世界范围内已引起了非常广泛的讨论,但仍未有一个定论。

其实,信息现象十分古老,早在人类历史发端以前,信息已存在于物质世界。如阳光普照,星光灿烂,就是宇宙天体发出的信息,在人类社会诞生以后,信息不仅来自物质世界,而且来自精神领域。人类认识和改造客观世界的过程,实质上就是一个信息过程。所以,人类自诞生以来,一直是在不断地进行信息的加工、传递、交流和利用等过程。

人类虽然很早并一直在接触和利用信息,但对信息进行有意识的科学阐析,都是20世纪以后的事。在此之前,我们对信息的认识和理解,主要是指一些通知、报告、新闻消息、报道、情报、知识见闻、资料等,进一步指思想、事实、思维、意念、资讯等,在通信科学发展的时代中是指信号、指令、代码、数据、图像等等。这些都是我们的日常可能接触到的一些信息。。然而,从哲学的角度去深究信息的本质,是相当艰难的,在学术上也一直是争论不休的。这些争论,始终是围绕着信息同物质、能源的关系,同认识、意识的关系问题展开的。由于人们认识上的差异以及观察角度和采用方法的不同,各国学者在探索过程中,给“信息”下的定义已有四五十个之多,每种定义都有理性的面,但还没有一个是定义在世界范围内得到公认。不过,从这些讨论中可以肯定的是:信息与物质和能量一起共同构成了人类可利用的三大基本资源要素。换句话说:整个世界(包括人体)是由物质、能量和信息三大资源构成的。信息论的创始人之一,美国学者唯纳说过一句有名的话,他说:信息就是信息,它不是物质也是能量;不承认这一点的唯物论,在今天就不能存在下去。

随着信息科学和技术的发展与完善,相信人们一定会对信息的本质作出一个比较全面的科学阐析。目前,对信息的单位已确定了用“比特”来表示。所谓的信息流也就是比特流。美国麻省理工学院媒体实验室主任尼古拉•尼葛洛庞帝先生说过:信息社会的基本要素不是原子,而是比特。比特与原子遵循着不同的安全法则。比特没有重量,易于复制,可以以极快的速度传播。它在传播时,时空障碍完全消失。而原子只能由有限的人使用,使用的人越多其价值越高。尼葛洛庞帝还说:“我觉得我们的法律就仿佛在甲板上吧达吧达挣扎的鱼一样。这些垂死的鱼拼命喘着气,因为数字世界是个截然不同的地方。大多数法律都是为了原子的世界而不是比特的世界而制定的”。可见信息与物质和能量有着本质的不同。另外信息网络带来的挑战,可能会更超出我们所有人的想象。所有这些都将有助于我们对“信息”的进一步理解。对于信息的定义值得一提的有:《中国新闻实用大辞典》(人民日报出版社)从“实用”的角度,把“信息”表述为:一切事物的状态和特征的反映。它普遍存在于自然界、人类社会以及人们的认识和思维过程中。人类生活的世界是一个充满信息的世界。另有一个比较通俗的说法:即认为凡是人和动物通过眼睛、耳朵、鼻子、舌头、身体、大脑接受到的外界事物及其变化,统统都含有信息。如五彩滨纷的图画、火车的鸣叫、香水的芬芳、苹果的酸味、棒击的疼痛、灵感的触发等等。据专家统计,一般来说,人类通过视觉获得的信息占83%,通过听觉获得的信息占12%,而其余6%的信息通过嗅觉、触觉和味觉获得。然而,这些也只不过是指人体从外界接收或获取的体外信息,只是机体信息中一个方面。而另一方面在生物体内自身还有其信息的加工、处理、发出、传输、储存和利用等过程。如大脑的思维、心理活动、神经反射、激素调节、体液传导、遗传变异、气功意念、经络传感、细胞、组织的新陈代谢等等,都是一些重要的生物信息过程。可见,“生物信息”的过程要比现在我们了解的“电子信息”处理的过程更为复杂。

现代医学是建立在分子生物学、细胞学、组织胚胎学、解剖学、生理学和生物化学的基础上的。它注重的是机体不同部分之间的差异性,即每发现一个部分在结构和功能上的不同,就给予这个部分一个命名,就成为一种新发现。这也正是科学界历来所信奉的“结构决定功能”的理论观念。由于这种思想观念的指导,使人们对机体内部各个部分都有了深刻的研究和了解,便于得到各部分之间的结构方式和本质差别,进而了解其功能特征。然而,这种只从物质结构状态和功能(或能量)特征去认识机体是不全面的,它忽视了生物体不同部分之间还有其信息的联系和控制调节等特点,即生物体内的“信息调控机制”问题。因而,现代医学也就遇到了许多理论难题和临床疑点问题,这些问题也正是影响医学和生命科学全面发展的主要因素。因此,未来医学则必须是建立在生物物理学(物质结构功能,即分子生物学、细胞学、组织胚胎学、解剖学、生理学等)、生物化学(物质和能量代谢)和生物信息学的基础上。

1.1.2信息技术的发展历程:在人类诞生之初――即最原始的人类,其信息交流可能主要是靠叫声和动作手势,进而就有语言的产生,最后又有了文字符号,并进一步又有印刷术的出现。紧接着又有书报、信件、邮递员、信鸽等信息传播工具或媒体,这些是古代信息传播技术发展的一个基础过程。到了近代,随着电的发明和发展,利用电来传递信息的技术得以研究和发展。最初是电报、电传,到了1876年3月10日,贝尔运用电声转换技术发明了电话,随后又是有了无线电广播、电影、电视的发睨。这些使人类的信息传播技术产生的一个飞跃,是一次信息革命

进入20世纪后,电话、无线电广播、电影和电视得到了极大的发展和应用。更有意义的是:20世纪上半叶又有了电子计算机的出现,计算机改变了人类对信息储存、加工、处理和复制的基本方式,也使传统的印刷术发生了一场革命。使之告别了铅与火,代之以光和电。进入20世纪90年代以后,以Intemet为代表的计算机网络得到了飞速的发展。它从最初的教育科研网络,逐渐发展成为商业和民用网络,并正在改变着我们工作和生活的各个方面。可以毫不夸大地说,Intemet是自印刷术以来人类通信方面最大的变革。目前,Intemet与电话和电视并称为三大通信网络。从计算机网络(Intemet)的发展速度和趋势来看,有可能以它为核心将“三网合而为一”。

1993年9月15日,美国政府了一个在全世界引起很大反响的文件,其文题是“国家信息基础结构行动计划”。后来人们又通俗、生动而形象地把这个“行动计划”称作“信息高速公路”。紧接着全世界所有的工业发达国家和很多发展中国家都纷纷研究和制订本国建设信息基础结构的计划。这就使得计算机网络(Intemet)的发展进入了一个新的历史阶段。应该说,这正是我们进入信息化时代的一个标志。当然,这个时代是经历了由信息科学研究一信息技术革命一信息产业化、商品化一信息的社会化一信息化时代的过程,也差不多是经历了一个世纪的发展历程。

在这个信息化时代,我们所有的人都可以感受它给我们带来的快捷和便利。也更惊叹它的发展速度以及其社会变化竟是如此变幻莫测。有一个著名的定律是美国贝尔电话实验室的穆尔提出的,叫穆尔线性定律:他说一个硅片上的晶体管数量,按每18个月增加1倍的集成度的速度增长。目前,一块计算机芯片上晶体管的集成度已达几亿个以上。据估计,到2007年将达到2000亿个晶体管。所以,有些学者说,在信息化时代,我们只能预测到5年(最多10年)以内的发展情形,10年以后是很难以预料的,因其发展太快了。如果说20世纪末的信息时代是那么地变幻莫测,那么21世纪的生物科技时代,就更难以预测了。因为,21世纪人类的生存、生活、婚姻、家庭以及伦理、道德等方式都将有可能被重新定义或定位。你想想,可以将人进行复制,并使生命延续的克隆技术已予示着将打破一切条条框框(这正是下面我将要介绍的生物科学技术的发展及态势)。

1.2生物科学技术的发展态势:生物技术应该说不完全是一门新兴学科,它包括传统生物技术和现代生物技术两部分。传统的生物技术是旧有的制造酱油、醋、酒、面包、奶酪、酸奶及其他食品等传统工艺。现代生物技术则是指20世纪70年代末80年代初发展起来的,以基因工程为核心,以DNA重组技术的建立为标志的新兴学科。目前我们所提的生物技术基本上是指现代生物技术。

现代生物技术包括:基因工程、细胞工程、酶工程、发酵工程、蛋白质工程以及生化工程等。.不久的将来也许还将有生物信息工程的诞生。

1.2.1基因工程:1944年Averg等科学家阐明了DNA是遗传信息的携带者;1953年Wats。n和Crick提出了DNA的双螺旋结构模型,阐明了DNlA的半保留复制模式,从而开启了分子生物学研究的新纪元;1961年M•Nirenberg等破译了遗传密码,揭示了DNA编码的遗传信息如何传递给蛋白质这一秘密;1972年Berg首先实现了DNA体外重组技术,这标志着生物技术的核心技术――基因工程技术的开始,它向人们提供了一种全新的技术手段,使人们可以按照意愿在试管内切割DNA,分离基因,并经重组后导人其他生物或细胞,藉以改造农作物或畜牧品种;也可以直接导人人体内进行基因治疗。基因治疗主要包括制备正常基因取代遗传缺陷的基因,或者关闭异常表达的基因,或者降低异常基因的表达强度。这样可以对一些由于基因突变、缺失和异常表达所引起的疾病,如遗传病、恶性肿瘤等有望达到较理想的治疗效果。

根据基因工程技术而进行的基因工程药物的研究自20世纪70年末也已经开始,如人工胰岛素、干扰素、生长素类、白细胞介素类和肝炎疫苗等。一还有转基因技术对人工选育优良品种也取得了成功。其中克隆羊的成功为动物转基因研究揭示了广阔的前景(有关克隆技术在下面的细胞工程中介绍)。

1.2.2细胞工程技术:所谓的细胞工程是指以细胞为基本单位,在体外条件下进行培养、繁殖,或人为地使细胞某些生物学特性按人们的意愿发生改变,从而达到改变生物品种和创造新品种,加速繁育个体,或获得某种有用的物质的过程。在这里我重点介绍一下细胞核移植技术-克隆技术。进入20世纪90年代,利用幼胚细胞核克隆哺乳动物的技术接近成熟。世界上许多国家和地区,如美国、英国、新西兰、中国、台湾等纷纷报道成功克隆猴子、猪、绵羊、牛、山羊、兔等。不过最让生物学家和全世界震惊的重大突破是英国PPL生物技术公司罗斯林(R。slin)研究所的维尔穆特(Wilmut)博士于1997年2月27日在世界著名权威杂志《Nature》上宣布的用乳腺细胞的细胞核克隆出一只绵羊“多莉”(D。lly)的消息,“多莉”的诞生,既说明了体细胞核的遗传信息的全能性,也翻开了人类以体细胞核竟相克隆哺乳动物的新篇章。仅仅过了一年半,1998年7月5日,日本人就喜迎来了叫作“能都”和“加贺”的两头克隆牛犊的降生。它们是用母牛输卵管细胞的细胞核克隆成功的,几乎与此同时,一组科学家在美国檀香山宣布,他们已经采用卵泡细胞的细胞核克隆成功的小鼠“卡缪丽娜”再克隆出了下一代。祖孙三代22只克隆鼠组成的大家庭具有完全一致的遗传基因和信息。随后,德国和韩国的科学家也相继宣布用体细胞成功克隆出哺乳动物的消息。可见,几个世纪以来人类梦寐以求的快速、大量繁殖纯种动物的夙愿,在20世纪快要结束之前正在变成现实。

如果说1997年2月克隆“多莉”羊的新闻轰动了世界,一些人还是持怀疑态度的话,那么随着“能都”和“加贺”等多头克隆牛的问世以及克隆老鼠的再克隆成功,用体细胞而不是用早期胚胎细胞的细胞核克隆的哺乳动物,已经成了广为科学界和普通群众接受的事实。在此基础上,克隆人已经不再是科幻小说中的故事了。1998年初,美国哈佛大学的理查德•希德宣布了他的克隆人计划,立即招来了全世界一浪高过一浪的反对呼声,紧接着欧洲19国联合签署了禁止克隆人的协议,我国政府以及美、英、德、日也已明确表示反对。然而这位69岁的博士称:克隆人“只不过是人类生育的另一项先进技术”。他计划把自己的体细胞核与捐献者的卵相结合后,再将这个胚胎植入他妻子格洛丽亚的子宫中,以期生下他的复制品。目前全世界都以关切的目光注视着希德的举动和美国政府的一些反应。另据报道,韩国科学家已于最近克隆成功了人的早期胚胎,但摄于法律的约束,又主动将她销毁了。正象核能的开发具有截然相反的作用那样,人类对克隆自身已采取了十分慎重的严肃态度。

但是,科学的发展是无法阻挡,即便是法律最终也可能无能为力,它也只能为顺应科学的发展而变化或制订新的条文,以此来对新生事物加以规范或约束,强制阻挠是愚蠢的。正如信息时代一样对信息犯罪必须重新修订法律条文。所以,克隆人最终还是会变成现实的。据了解,目前在医学领域是允许可以克隆器官的,以便提供被人体易接受的一模一样的器官移植。

总之,这项技术必将对21世纪的医学科学、生命科学以及农学等诸多领域产生重大的影响和变革。如果一旦被允许可以克隆人时,那么,整个社会的形态,生存和生活的方式都将发生变化,人与人之间的关系、婚姻、家庭和伦理道德等概念都将会被重新改写或定义,因为,一种新的生育方式将改变这一切。因此,21世纪的生命科学时代的确是人们难以预料的。

1.2.3生物信息学的萌生:随着人类基因组计划等大型国际项目的实施,以及生物技术和信息科学技术的进一步研究和发展,一门新兴的边缘学科――生物信息学已应运而生。因为,生物科技和信息科技等高新技术的发展已为生物信息学的研究、开发和利用提供了可能,并已成为当前一个前沿领域和研究的热点。

生物信息学是以核酸(DNA分子)、蛋白质等生物大分子的信息密码;细胞间的通讯;脑科学和神经网络;内分泌激素的信使作用和免疫调节,以及中医的经络学说和精气神理论为主要研究对象。以数学、信息学、计算机科学和仿生学为主要手段,以计算机硬件、软件和通信网络为主要工具,对浩如烟海的原始数据和纷繁复杂的生命信息进行存储、管理、注释、加工、解读,使之成为具有明确生物意义的生物信息。通过对生物信息的查询、搜索、备份、比较、分析,从中获取基因编码、基因调控,核酸和蛋白质的翻译和其结构功能关系,大脑的信息加工、处理机制、神经信息的传输原理等等知识。在弄明白这些大量的生物信息的基础上,再结合已有的生理、生化知识去探索生命的起源、生物的进化、生命信息的传输调控机制、大脑的思维和神智;人类的疾病与康复,以及细胞、器官和个体的发生、发育、衰亡等生命科学中的重大问题,搞清楚它们的基本规律和内在联系,是完全可能的。因此,生物信息学对21世纪的医学科学和生命科学具有不可估量的奠基和推动作用。

高新技术的重要特征之一是学科的横向渗透、纵向加深、综合交错、发展迅速。所以,我们所提出的生物信息学也正是在现代多学科发展的基础上横向结合而产生的。它是生物学与信息学,信息学与生物医学工程学等学科之间的相互交叉、相互渗透的一门边缘学科。同样,生物信息学又将与生命科学和医学科学进行交叉和渗透,并进一步形成生物信息医学这门新兴分支学科。它将促进医学科学的发展,并有可能引发一场医学革命,使我们步入生物信息医学时代。虽然,我们目前尚不能作出一个比较完善的定义或解释,但是,今天我们大家大概都不会否认,信息过程是生物体(人体)的一个重要过程。这一过程从根本上来说,是个体为了适应机体内、外瞬息万变的各种环境。事实上,现代生物遗传工程、转基因技术、细胞工程学和克隆技术,还有现代医学的脑科学研究、神经生理学、内分泌激素、免疫学、心理医学和思维医学,以及我们祖国传统医学中的针灸学、经络学说、气功和推拿按摩学等等,这些都已不同程度地揭示了机体内的一些信息过程中内涵。这些探讨生命过程中的信息问题,对于了解生命的本质、演化以及疾病的发生、发展和转归等无疑是十分重要的。因此,我们有理由相信,生物信息医学将成为21世纪医学科学研究和发展的主流。

2信息时代的哲学思想原则与方法

19世纪和20世纪初,我们把它称为工业化的时代。在工业化时代,牛顿力学有力地支撑了对立统一的哲学思想原则,也使我国古代就已形成的“物生有两,体分左右,皆有二也”的朴素“二元论”辩证法观念找到了近代科学的解释。然而,牛顿力学观察的是两个物体之间的相互作用,是以质量和能量作为物质的两个本源特质的。人们很容易理解,任何事物都有正反两个方面,非此即彼,非我即敌的机械认识论观点就是这种思想方法的极端体现。

进入20世纪后半叶,现代科学技术发展把人们推进到了信息化时代,人们遇到的诸多问题已经不可能在牛顿力学的单一因果链的思维平台上获得满意的答案,除了对立双方之间的力学作用之外,还必须考虑介质或者环境变化的信息作用问题。对立双方长期斗争的结果并不总是一个吃掉另一个,而往往是两败俱伤,由第三者或第三态主导局面。因此,信息时代的哲学思想原则应该是至少要考虑三个最基本的要素而不是两个。比如:物质、能量和信息;元序、有序和自序;整体、局部和媒介;主体、对象和环境;正态、负态和零态;宏观、微观和中观等等。现已知晓:物质、能量和信息是人类可利用的三大基本的战略资源。整个世界包括我们的人体,是由物质、能量和信息三者所共同构成的。因此,一位美国科学家曾经说过这样一首诗,他说:“没有物质的世界是一个虚无的世界;没有能量的世界是一个死寂的世界;没有信息的世界则是一个混乱的世界”。可见,物质、能量和信息这三者是缺一不可。物质可以被加工成材料,为工具准备形体;能源可以被转换为动力,为工具注入活力,驱动机器运转;信息则可以被提炼成为知识和智慧,为工具和机器提供智能指令。在这三种资源之中,物质相对直观;信息资源相对抽象;而能量资源则介于两者之间:人类认识世界的规律是由直观而至抽象,这就决定了一个极为有趣的生产力发展进程。在农业时代,人们主要利用物质一种资源来制造人力工具(称为一维工具、死工具),这种“物质”又全部取之于自然环境;在工业时代,人类进一步学会了高效地利用能量资源,并把它与材料结合起来制造动力工具(称为二维工具、活工具)物质和能量大显身手、大出了风头,使我们看到了电灯代替油灯,汽车代替了马车。到了信息化时代,人类又学会了利用信息资源,并把它与物质和能量结合起来制造智能工具(称为三维工具、聪明工具),也使我们看到计算机代替生产线上的工人。也因此在信息时代,大量的下岗和失业是在所难免的。

由此可见,人类的生产活动,实际上是通过能源的开采、运输和变换,作用于各种物质,使之发生物理的和化学的种种变化,使之成为人们所需要的各种产品。这种能量流和物质流的结合程度,取决于信息流的注入程度。我们人类的医疗实践活动似乎也遵循了这一发展规律,在原始的农业时代,人们的医疗手段主要是靠自然医疗和天然药物医疗。那时只能凭借自然界的现有条件来同疾病作斗争。到了工业时代,人类也就掌握了运用化学药物和切开手术医疗手段来战胜疾病,这些正是将物质和能量的结合利用。那么,到了信息化时代,人类也将会把信息导入医疗实践活动,并把他作为一种新的诊断和治疗手段,或与药物和手术结合起来应用,使其医疗手段更加先进和完善。在工业化时代,人类对自然资源的过度开采和大量索取,造成了有些资源短缺、物种的灭绝和环境的严重污染或破坏等,已使人类饱偿大自然对人类的惩罚。同样,现代医学由于大量使用化学药物和手术切除或置换修补,致使药源性和医源性疾病的发生和泛滥。也使人们也偿到苦头,并感到了恐慌。把生物信息资源导入医疗实践,将很有可能改变这一不利局面。

我们知道,在生产力体系中,物质、能量为实体因素,而信息是非实体因素。信息对物质和能量起着结合和控制作用。没有信息的参与,物质和能量无法正常发挥作用,生产就混乱而无法进行,除了这种“结合”和“控制”作用外,信息还起到放大或倍增作用――即信息可以凭借它“携带”的科技和经济知识、管理智慧,使物质和能量十倍、百倍甚至千倍地产生效益。一旦人们掌握了新的技术信息和管理知识,就可以创造发明新的工具;利用新的能源,掌握控制先进的生产程序,就可以十倍、百倍地提高劳动生产率。同样的道理,将信息作为一种诊断和治疗手段或要素参与医疗实践,无疑将可以降低化学药物的用量和手术的创伤使疗效成倍的提高;甚至可以免去不必要的手术和化学药物的应用,使治疗效果更加稳定、可靠,副作用也更小。

总之,在信息时代,人们对信息的本质和作用的认识也越来越深刻。并受到广泛的重视,传统哲学的二元论思想原则已受到挑战。一种以“物质、能量和信息”三基元的哲学指导思想正在起着主导作用。这种新的哲学思想认为:任何事物都是由三个具有正交完备性的最基本的要素构成的,比如热力学有三定律,机械学有三定律,生物学也有三定律(遗传、变异、自然淘汰),现代交叉科学有老三论(控制论、信息论、系统论),新三论(协同论、突变论、耗散结构论),有三个基本原理,彩色电视中有三基色原理,任何事物可能都是由物质、能量和信息三个基本要素的完整体现,任何事物(包括机体)的组织形态也可能都存在着无序、有序和自序这三种极端模式等等。这种“三基元论”的哲学指导思想原则,无疑将改变我们对所有自然科学的研究方法和认识论观点。

我们知道,西方近、现代自然科学受英国启蒙科学家培根(R.Bac。n,1220~1292)的巨大影响,抛弃了古代科学家习惯使用的思辩方法,强调“实验方法”和“数学”的伟大作用,倡导一种直观形象的思维方法或模式,采用一种实证方法来进行验证。也就是我前面所提到的科学界所信奉的“结构决定功能”科学思想观念。因此,在18世纪以来,实验和观察成为所有自然科学的主要研究途径和人类认识客观世界的第一位的最重要实践活动。并进而将现代科学技术推进到一个很高的水平。

现代医学(西医)正是在这种哲学指导思想和科学发展的背景下得以取得了巨大发展的。其思维模式是以具体(个体)的形象思维为主导的,即将其分割后进行验证,运用形象的逻辑推理的方式,来找到或发现有可能的因果关系。因此现代医学(西医)较偏重于局部的组织结构和功能的研究,而对于整体的宏观信息调控的考虑则相对较少,如解剖学、细胞学、组织胚胎学、分子生物学、病理学、细菌学、生物化学等,这些学科都是从不同的角度,通过实验方式进行研究和观察。它注重和强调具体的人体物质结构和形态的存在形式。与此正好相反,我们传统的中医学却仍然坚守着古代哲学的思辩方法,即是从复杂的整体环境和现象中寻找规律,通过比类取象的方法,对物质世界进行一种抽象的概括或综合归纳。因此,中医学偏重于整体的宏观研究和经络信息网络的调节机能,是以整体的、运动的、辩证的观点在活的机体上来认识人体,依据“天人同理” 原理,采取比类取象的方法,以自然和社会的规律及现象来类比观察人体与疾病。如中医的阴阳五行学说、形气神理论、天人合一理论、五运六气和脏象学说等,都是我国劳动人民在长期的生产和生活实践中测天观地、比类取象,并引伸到人体的生老病死中,以整体的抽象思维方式概括而成的。同样,针灸学中的经络学说也是古人根据人体复杂的“气”感和穴位效应等机体信息变化现象而抽象概括描述出来的。

这两种不同的思维模式也就导致中西医两种截然不同的理论体系。现代医学因抛弃了抽象的思辩方法,因而在认识上就不够全面了,这也是现代医学不能完全取代传统中医学的原因。信息时代的“物质、能量和信息”三基元论的哲学指导思想原则将使我们重新调整对人体的认识方法和医学的研究方法。前面说过,物质是具体而形象,而信息相对抽象;能量则介于两者之间。因此,西医的形象思维和中医的抽象思维模式都只能是认识论的一个方面的,都有一定的片面性或局限性。如果将它们结合起来作为医学的一种新的认识研究方法,即形成第三种思维方法――维象思维模式,我想我们医学的发展就会有较大的突破,中西医两种医学也就可能真正结合到一起。我们所提出的生物信息医学正是以这种新的哲学指导思想原则和维象思维模式为指导,它将会使我们传统中医学的一些抽象理论和神奇的治疗方法得以挖掘和科学的阐析。因此可以说,信息科技时代将是我们传统中医学得以振兴和科学解析的时代。

3生物信息医学存在的历史和发展现状

3.1传统中医学中的信息医疗方法和思想:《灵枢•官能篇》日:“语徐而安静,手巧而心审谛者,可使行针艾……缓节柔筋而心和调者,可使导引、行气”。这就是说在传统的针灸和按摩治疗中,已体现出了一种朴素的信息医疗思想观念。它对从事针灸的施术者(医生)提出了要修心养性,语言和蔼,施术时要安静,注意意念集中,以便达到最佳的信息调节治疗效果。对从事气功推拿的要求是:应加强修炼,使动作柔缓、心理调和,这也是强调意念信息的调理作用。还有针灸针的针柄也给了我们一个很好启示,针柄上的“线圈”不应单单只是为提插捻转的方便而设计。这种金属“线圈”还当然具有接收和传导生物信息的功能,它可接收术者的意念信息或外界环境的某些信号并传导给被施术的病人体内。从而达到一种生物信息的调节治疗,因此针灸疗法实质上是一种信息刺激调节疗法。所以,我们可以这样来认为:药物治疗主要是给机体补充“能量”以增强机体的抗病能力,是一种“能量”治疗,而手术的切除、修补或置换是对机体物质结构形态的改变,是一种物质治疗方法。那么,针灸、推拿治疗则主要是运用信号刺激和传输而达到调节生物“信息”节律为目的的信息医疗思想和方法。这也正是这类疗法的抽象神奇之所在,因信息的调控机制尚未被揭示,所以,只知其然而暂时不知其所以然。尽管针灸早已引起世界各国科学家的关注并成为研究的热点,但从信息论的角度来研究还只是近几年的事。例如:随着山东大学张颖清教授对生物全息律的发现和全息生物学的创立。针刺疗法的信息映射传输反应也从一定的程度上得到一些提示和发展,随之也就有全息胚针灸学的出现。我们坚信,随着生物信息学的研究深入,针刺的治病和镇痛机制将会得到科学的解释和进一步的发展。

不仅仅如此,我国劳动人民在医疗养生保健活动中,还积累和创造了其它很多宝贵的“信息疗法”。如:心理疗法、思维疗法、物境疗法、生物钟疗法、生理饥饿疗法、睡眠疗法、想象疗法、信念疗法、静思疗法、善美疗法、阅读疗法、技艺疗法、音唱疗法、笑骂疗法、暗示疗法、音乐疗法、幽默疗法、认识行为疗法、精神分析疗法。还有在临床上经常使用的气功疗法、埋线疗法、刮痧疗法、灸法等等。另外,在中医诊断学中的切脉就是一种很抽象的“信息”诊断法,它是通过对脉搏的动态信息变化来进行分析、推测和辩证诊断的。在中药治疗学中,是很强调中药性味的归经和配伍的,其中药味的甘、辛、苦、寒,其实就是一种可以传输给机体的信息,并通过经络信息网络传递给所要治疗的脏腑器官。而现代的中成药几乎是完全去掉了中药的味,只取其性,因而其效果大打了折扣,所以对中药进行化学提纯或深加工,并不一定是很理想的选择。

中医的经络学说一直是科学界关注和广泛研究的课题,科学家一直试图想找到它的物质结构形态。可最终所得到的不是神经,就是血管,要不就是网织的胶原纤维组织,根本没有属于经络自身的物质结构或组织,其实,如果我们按照中医学“天人同理”思想,将经络与现代的信息网络类比,就不难明白,现代通信网络是由不同的地域(局域网)、系统网、有线网和元线网等通信子网互联而成的一个很大而且开放的通信网络。并且还有电信网、广播电视网和计算机网等三大异质网络系统。它们的传输途径和媒介有光纤传输、电缆传输、卫星传输、地面微波接力传递等等,还可以互相转换信号,如:模数或数模转换等。我们的神经系统、血液循环系统,就如同有线通信子网,机体还存在一个无线通信子网,如:内分泌激素、免疫系统等。这些机体通信子网的互联通讯就构成了一个人体完整的信息网络系统。所以,我们可以把经络系统理解为神经系统、血液循环系统、内分泌激素、免疫系统、细胞间的联系等组织、器官和系统的信息子网的互联,即人体信息的互联网络。

中医的相生相克理论认为,机体的五脏六腑、四肢百骸都存在着相互化生和相互制约的关系。中药的配伍也存在其相生相克的关系。世界的万事万物都存在着相生相克的关系。所以,机体(个体)与机体之间也有一个相生相克的关系。这种相生相克其实就是一种生物信息的相互生成或互相冲突(干预)。因而,在临床医疗过程中,我们可能会发现这样的一个现象:对同样一个人,两个针灸师采用的是同样的施针方法,选择的也是同样的穴位,可是达到的效果却不一样。这种情况一般认为是由于针灸师的临床经验不同而造成的。其实这里面也应该存在一个机体之间生物信息的相生相克机制问题。如果一个针灸师的生物信息场与病人的信息场是相克的关系,那么他对病人进行针刺信息调节治疗,其效果肯定是不理想,甚至可能还会加重病情。同样,施行气功导引和推拿的医师也存在这种现象。还有,同一名医师,他在不同的时期行医,也可能表现出在不同时期虽然采用的诊治方法一样,但临床诊治效果却不同。这可能是这名医师在不同时期,因自身的身体状况和精神因素变化而造成的生物信息动态变化所致。其一定时期的生物信息可能刚好与那些病人的生物信息场相生,所以治疗效果好。而另外某一个时期的生物信息场不好,正好与病人相克,所以治疗效果不佳。其实,这也反应了中医学要求行医者必需注意个人修练,保持心静、气调、神清的医德思想境界。

中医的脏象学说中的“象”是指什么?所谓“象”就是脏腑所表现出的动态的时空信息变化,即“时空信息花样”。中医学的“形、气、神”正好与我们所说“物质、能量和信息”是一一对应的。只是中医学缺乏对现代科学知识的引入,加之信息科学发展较晚,以致无法揭示“神志”的内涵致使中医学显得有些神秘摸测,甚至有的人还对他的科学性表示怀疑。随着生物信息学的研究和发展并逐步引入中医学的研究中,相信一定会使中医学重新大放光彩。

中国的气功科学尽管还有不少疑点,但确能强身治病,这是举世公认的。气功强调“调心”、“调神”、“调息”、“以意领气”、“意念观想”等。这可能都是强调用意念和精神因素来调节或控制神经、免疫、内分泌等信息经络系统,使其达到健身、治病和提高生活质量的目的。在气功文献和气功医学实践中,有迹象表明(当然还不是证实)大脑中想象的愿望、状态、图景、符号、口决、童趣,以及想象的动作、行为、刺激、过程等,都可通过经络信息系统的调控作用而影响人体生理活动,并可强身治病。这与西方医学和心理学中的“摸拟情绪”影响免疫和内分泌功能有着异曲同工之妙。

3.2现代医学中所体现出的信息医疗思想和方法:过去人们流行的观点是“生命在于运动”,并把死亡的标志确定为以呼吸的停止、心脏的停跳为标志。随着近几十年来脑科学的研究与发展,人们对于脑在整个机体中的重要地位的认识已日益深刻。脑是人体的信息中枢,人体的各个组织、器官和系统都受它的调节和控制。科学研究显示,人类大脑工作时,大脑的神经细胞会从大脑以外的细胞那里搜集信息,并把这些信息综合起来作出判断,然后再输出指令,让人体的某些部位做出相应的反应。对于端起一杯咖啡这一简单的动作,就需要几百万个神经细胞的协调工作。美国国立老年研究所使用计算机控制的电子显微镜测定,经常用脑的老年人脑细胞比一些中年人还多。国外学者通过调查5000名已故的运动员后发现,他们当中多数人的寿命短于一般人。美国学者马劳斯在研究不同职业者的寿命时也发现,超级球星和优秀拳击运动员的寿命比学术上有成就的学者、专家平均短8~83岁,究其原因是因为长时间进行剧烈运动会使人体的新陈代谢长期处于旺盛状态,缩短了人体细胞分裂的周期,从而加快了机体器官组织的磨损与衰老。而经常使用大脑的人,由于大脑的信息调控作用,使机体各部位的协调运动,保持动静平衡,进而达到延年益寿。据此,有人将“生命在于运动”的命题引伸为“生命在于脑运动”。并且现代医学对死亡标志作了新的认定,即脑死亡是人死亡的主要标志。因此,人体健康首先是应该脑的健康和运动。

现代医学也已充分地注意到了心理、精神和社会因素对健康和疾病的影响,例如:心理和精神因素对心脏病、高血压、胃溃疡、糖尿病和癌症等均有很大影响。于是,就有了心理医学、思维医学和身心医学的提法,并运用心理疗法来配合这些疾病的治疗。对癌症的病人一般不直接告知患者本人的患病情况,只告知其家人――这在医学上称为“善意的谎言”,目的是不要让患者的心理负担过重,否则,精神就会夸掉。身心医学就是研究社会、心理和精神等因素与疾病发生与发展关系的一门医学新学科。国外已有人证明,心理刺激可通过氧化自由基而损伤DNA。

人类文明在进步的同时也给人类带来了许多新的文明病。其中以“大脑信息”失控或失调所致的精神心理障碍性疾病最为突出。据世界卫生组织的统计数字,全世界约有5亿人患者有不同程度的精神错乱,有5200万人患有严重精神病,约有1.5亿人患神经官能症,3000万人患癫痫。加上患有精神过敏症和其它心理障碍的人数,估计已占到总人口的20%以上。对于这些精神心理性疾病,现代医学的药物或手术疗法已显得力不从心了,只能采用心理疗法或思维疗法等信息调适方法,也有人把目光投向传统的中医、针灸、气功等信息疗法。从而也使我们看到了这些朴素的信息医疗方法对于现代文明病的攻克,显示出了广阔的发展前景。

在现代医学的诊断学中,心电图和脑电图的检测技术,其实就是一种探触大脑和心脏动态信息的检测技术;现代分子生物学已揭示了基因遗传信息的编码和控制蛋白质合成的信息链板;脑科学的研究也从一定程度上揭示了大脑进行信息搜集、加工、分析、处理并发出信息指令的部分原理;神经生物学、内分泌和免疫学则揭示了一部分机体信息交换、传输和产生反应的机制。随着生物信息学的研究和发展,现代医学在上述这些研究领域一定会取得更大突破和进展。

4生物信息医学的发展前景

“电脑”是人们对电子计算机的俗称,表现了人们的一种愿望――使计算机像人类大脑一样工作。这种仿生技术的发展和应用,必将对脑科学和机体信息调控机制的研究产生巨大促进作用。

迄今为止,科学家们已经模拟出了神经系统的一连串的活动规律,并据此编制出了相应的计算机程序;美、英科学家已合作成功研制出了世界上第一个硅神经元――一种能够模仿生物大脑细胞信息处理功能的微型芯片。这种面积只有01平方毫米的芯片的工作速度,比同样大小的生物神经细胞的工作速度还要快l00万倍;与此同时,日本三菱电机公司也已开发出了每秒可达800亿次的神经元芯片,这一成果把神经元芯片记忆一个字符所需的时间缩短到了万分之三秒。神经细胞是神经系统的基本单元,它采用电子工作方式。硅神经元在模拟神经细胞时,其电子特性和神经细胞一样能够独立运行,有自己的“行为规范”,不受控制者的“指挥”。因此,从理论上说,几百万个芯片就可以组成一个功能强大的“人造大脑”,科学家还研制成了生物芯片,生物芯片传递信息的速度比人类大脑还要快l00万倍。同时,当芯片出现故障时,它可以自我修补,成为一种半永久性的器件。

神经元芯片和生物芯片的获得,为生物计算机――仿生电脑研究带来了勃勃生机。而与之相关的神经元网络研究上的突破,更使生物计算机的研究大大向前推进了一步。神经元网络是科学家们在神经科学、心理生理学研究的基础上发展的,它具有联想记忆、相似性识别和分类、误差较正、时序保留和概括等功能。当神经元网络之间高度连接时,会引起并行机制而使神经元集团具有独特的计算性质,如同人脑的一些高级思维和信息处理或控制功能。试想,生物计算机技术对揭示人类的大脑和生物信息节律的调控机制将会起到多么关键的作用,对于大脑疾病、神经官能症、精神和心理障碍以及癫痫等疾病的有效诊治,其为期难道还远吗?

如今人们常常是,“谈癌色变”因为癌症的确困扰医学很久了,尽管有了很多新药的研究开发以及手术的改进,但这些并非是医治癌症的良方或万全之策。在生物信息医学时代,我们很有可能找到医治它的良方,比如:依据生物信息原理,我们可以研究“修复”癌细胞缺损或变异的信息密码技术,也就是对癌细胞进行“重新教育”使之“改邪归正”,或者是恢复对癌症等病灶的正常生物信息指令控制。这就好比怎样平息一个“地区”的“独立判乱”一样,其武力解决(病灶切除)并非是上策,通过说服教育,使人心归顺,才能算得上对该地真正收复。另外,对于一些组织器官或系统的功能紊乱,可以使用模拟相应的生物信息(信息编程)仪器或电子信息药丸,并设法让它进入该信息系统进行调节控制,使之恢复其生物信息节律的平衡。这种同疾病作斗争的方式的确如同“现代战争”(大家可能看过电视剧《突出重围》……)。在现代战争中,“电子信息战”已越来越突出而重要,与常规武器和生化武器等的协同作用威力也是越来越大。《孙子兵法》中云:“不战而屈人之兵,乃上之上策也”。这不正是信息战的伟大之处吗。同样,我们未来的医疗实践,也必将是以生物信息调节为先导,或将信息调控、药物治疗及手术治疗结合起来以达到协同作战的最佳效果。所以,我们不难预想21世纪的医疗实践将是一个更加先进和完美的生物信息化的医疗时代,或者可以简称之为“信息医学”时代。

第3篇:生物信息学的定义范文

【关键词】转录因子结合位点 计算机技术

近年来随着基因组计划的执行,海量的基因序列原始数据被发现。为了阐述数据的生物意义,数学、计算机学等学科被广泛结合运用,在研究过程中决定基因在生命工程中意义的基因表达就成了生物信息学主要的研究课题之一。基因表达是指基因在生物体内的转录、剪接、翻译以及转变成有生命意义的蛋白质分子的过程。

其中转录调控是基因表达的关键步骤,调控基因转录是由转录因子通过特异性结合调控区域的DNA序列来完成的,转录因子结合位点是与转录因子结合的长度通常在5~20 bp范围内的短小DN断,一个转录因子往往同时调控若干个基因,而它在不同基因上的结合位点具有一定的保守性,但又不完全相同。对经过生物实验验证的已知位点进行分析可知,转录因子结合位点往往是在相关基因序列中具有保守性,可以表现出特定的模式,所以也被称作模体。与其它常见的序列模体信号相比,转录因子结合位点模体除了长度较短以外,其碱基组成也更加灵活,容许较多的变体。识别转录因子结合位点模体问题在业内通常简化成为模体识别。

解决模体识别问题,需要运用生物学、数学和计算机学等学科的综合研究成果,在数学和计算机学的作用下,模体识别可以形象的认为是在庞杂的复杂的背景信号中找到具有相对保守性的微小特征信号的模型。

而这类微小特征信号因为模体的片段较短,而较短的序列在规模较大基因组中重复出现的次数很多, 另外模体又现实存在一定的模体变体, 这使得背景中的噪音信号对所关注的信号有着很大的干扰,减少这种干扰就是模体识别问题的难点

1 模体的表示方法

在生物信息学领域,通常用三种模型来表现模体。分别是:一致序列(Consensus)模型、权值矩阵模型(Weight Matrix Model, WMM)、可视化模型。

1.1 一致序列(Consensus)模型

一致序列模型是指取各个模体实例中同一位置出现次数最多的碱基作为一致序列该位置的碱基,这样组成的序列就被称作一致序列。这样一致序列模型是对模体的一种大致性表示,一致序列模型的结果并不一定存在于被表示DNA序列中。以表1作为例子来说明:

1.2 权值矩阵模型

由一致序列模型表示的模体除了简单直观在精确性上与实际要求相差很远,随着算法的发展,人们发现用权值矩阵矩阵更能表现出模体的特性。

矩阵的行代表了不同的碱基,矩阵的列代表了碱基序列的位置。假设该矩阵为 W, 那么 W(i,j)表示第 i 个碱基在碱基位置 j 出现的概率。以上表为例可以得出矩阵W(4,5),如图1所示。

可以在权值矩阵模型下用似然函数来评价生物序列模体的保守程度。

1.3 可视化模型

logo模型是可视化模型的典型代表,它依据信息论用形象直观的图形方式来表示结合位点的特征。

在logo模型中,每个位上的值是所有在该位置上出现的碱基叠加生成,该位置上值的高度等于该位置上碱基出现的信息量之和,该位置上碱基的排列按照信息量的大小从上向下排列。例如我们把已在真实数据库公布的模体用logo模型表示,如图2。

logo模型可以用直观图形地表示出结合位点的保守度,以及碱基在具置上的分布和影响。

2 转录因子结合位点识别研究历程

根据转录因子结合位点在相关基因序列中的保守性,近年来人们开发了很多识别它们的算法。

较直观使用的研究主要是基于字串枚举的方法 ,其原理是:在给定的共表达基因上游区域中,模体序列的出现频率比其背景序列片段现的频率要高。因此,通过穷尽列举输入序列中所有可能的候选模体,计算出每个候选模体的实际现次数与其期望出现次数进行比较衡量,选择具有显著统计特性的候选模体。

其中1984年Helden等人提出的Oligo-analysis方法;1992年 Pesole等人提出的模式驱动列举(WordUp ) ;这两种方法虽然简单直观但有两个明显的不足:时间复杂度高、仅适用于模体较小的情况,同时不能允许模体出现变体。接着,Helden对Oligo-analysis进行了扩展,2000年提出了dyad-analysis算法。该方法对两端保守的模体识别率较高, 但当模体保守区域长度定义后,搜索到的模体不能有变化,两端保守区域也不能有变体的存在,因此只能应用于某些特定结构的模体识别。

2002年,Sinha,S等人提出了YMF法,即基于三阶马尔科夫链的简单穷举法。与之前算法不同,YMF可以用于预测的模体种类较多,但仍然有着枚举法的通用弱点--如果模体较长则时间复杂度变得很差,识别精度也降低很快。为了能够对结果更复杂,特征不明显的较长(十几至几十碱基)模体进行识别,2002年Eskin和Pevner提出了前缀树法(Mitra)使用前缀树描述搜索空间,通过分割搜索空间,删除弱表达子空间,修剪完成后获得的树中各路径即是显著性模体。这种方法可以有效地减少搜索空间,能够搜索较长的模体和组合型模体,缺点是模体长度需要预先设定,搜索空间较大。随后在MITRA基础上,Pavesi等人提出了后缀树法(Weeder)方法。Weeder法对候选模体集并不是通过直接修剪搜索空间来获得最终结果,而是通过对各候选模体在序列中实际现判定条件的严格限制,减少符合设定条件的模体数来得到。和Mitra方法相比Weeder方法不需要对模体长度进行预先设定。

在直观的基于字串枚举方法发展的同时,其他领域取得进展的算法也在不停地被借鉴到模体识别问题中来。基于局部搜索的算法渐渐成为主流。此类算法是首先构建一个模体的初始模型,例如相似度矩阵模型,然后对该模型在每次迭代中进行相应的调整,使其更接近真实的模体。经过数次的迭代后,该模型最终收敛到一个局部最优解。

其中:1990年La wrence等提出用EM 算法来解模体识别,但是它只能识别一个模体类型。于是在1995年Bailey和Elkan提出了改进了的EM算法--ME ME算法, 通过拟合一个二元混合模型 ,优化EM算法的初值来识别一个或多个模体的类型 。1999 年 , Hertz结合贪婪算法和E M算法编写了CONSENSUS。 由于EM 算法常会陷入局部最优解,在1993年La wrence等率先把吉布斯采样法引入模体识别领域,吉布斯采样算法是一种特殊的马尔柯夫链蒙特卡罗方法。此后又现了很多基于吉布斯采样算法的模体识别算法。如今已经成为应用最广最成功的motif识别方法之一。

2000年,Pevzver和Sze 提出了植入(l,d)-motif模型,这具有里程碑的意义,i因为以上各个方法都不能完全解答这个模型,需要寻找一个全面系统的同时能够展示出基因序列间的拓扑结构、联系、功能及进化的模型。 这样就把早在1969年Kau ffman就利用布尔关系构建了那个原始的具有猜测性质的基因网络,具现到(l,d)-模体识别这个问题上了。同时图论的思想也被大量引入到模体识别领域。

3 转录因子结合位点识别算法的分类

根据识别策略和搜索对象的不同,模体识别算法大致可分为三类:

第一类是de novo模体识别算法,该类算法是在没有转录因子及其结合位点的先验信息的情况下,完全依靠计算方法在一系列共表达或者共调控基因的上游区域中识别未知模体;我们在第2章转录因子结合位点识别研究历程中所介绍的算法均属于这一类。

第二类是结合ChIP-chip等高通量实验数据的预测算法;这种方法非常高效,以至于业内称之为下一代模体识别算法。

第三类是系统发育足迹分析法(Phylogenetic Footprinting),该类算法通过比较不同物种的DNA序列来搜索在多个物种之间保守的模体。

下面分别对上述三类算法进行具体介绍:

3.1 de novo模体识别算法

de novo模体识别算法是指以一组共调控的基因作为输入,用计算的方法查找在这些基因的上游调控序列中富集的模体。从策略上分可细分为穷举型和比对型。在上一章中所介绍的Oligo-analysis方法、模式驱动方法、dyad-analysis方法、YMF方法、Mitra方法和Weeder方法等等均属于穷举型;而EM方法、MEME方法、吉布斯采样方法引申出的各种方法等等均为比对型。

两种方法各有优势也各有弱点,穷举法的弱点是所识别模体不可过长,否则耗费时间过长,比对法的弱点是容易陷入局部最优解。同时由于de novo模体识别算法依赖共调控信息使得二者都局限于只能对单物种进行识别。

de novo模体识别算法一直以来都是模体识别领域的主要组成,各种经典算法层出不穷,是这一领域的核心研究力量,近几年来图论和聚类算法的进入,又给此类算法带来新的活力。同时由此类算法向下一代算法引申变化以期更好解决模体识别问题的研究也一直在进行中。

比如我们接下来介绍的基于染色质免疫共沉淀技术的ChIP-seq算法。有很多方法是源自de novo算法。另外侧重进化层面的系统发育足迹分析法也大量借鉴了de novo算法的思想。

3.2 基于染色质免疫共沉淀技术的ChIP-seq算法

染色质免疫共沉淀技术(ChIP)的出现带来了基因技术上的革命,CHIP-chip技术是ChIP技术和基因芯片技术的结合,带来了大量的调控实验数据,它可以间接确定DNA序列与转录因子结合与否,以及结合的强度。ChIP-chip技术的分辨率在800bp左右,远大于转录因子结合位点的长度,这样就需要算法对其进行进一步的加工,在ChIP-tiling利用叠片式芯片进一步增加了基因组的覆盖率。将ChIP与第二代测序技术相结合的ChIP-Seq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。ChIP-seq

技术的分辨率可以达到100bp甚至更高。

ChIP-Seq算法是这样工作的:首先将测序得到的短序列片段匹配到参考基因组序列上;考虑到有一部分短序列不能匹配到参考基因组上,有可能是未知的基因组序列;另一部分是能够匹配到基因组上的短序列,通常要对这些段序列进行覆盖度计算;继而从匹配到基因组上的短序列中进行富集区域的扫描。通常扫描到的富集区即被认为是蛋白质与DNA相互结合的区域。此时已得到我们所关注的结果,至于将计算数据转变为真实数据库数据则是另一层面的问题。

和以往的de novo模体识别算法不同的是,以往的算法面对的是长度普遍在以千为数量级的,同源条数以几十以内的序列数据,而ChIP-Seq算法面对的是长度为100左右而条数以十万为数量级的序列数据,这样以往的算法就没法照搬使用,针对这种情况,MEME算法、吉布斯采样算法等经典算法均做出了相应的调整,形成了对ChIP技术的新变化。同时模式驱动和聚类求精之类的算法在ChIP技术的要求下形成了新型的算法...多种算法的形成不胜枚举,在近一、两年几乎每天都有突破。可以说ChIP-Seq算法的下一代模体识别算法的地位已经奠定。

3.3 系统发育足迹分析法

随着测序技术的发展,越来越多的基因组被测序,系统发育足迹分析法在转

录因子结合位点预测中变得越来越重要。它的基本假设是,转录因子结合位点有调控功能,在进化中应该相对保守,进化速度要慢于其它没有功能的非编码序列,因此预测转录因子结合位点就是搜索同源基因在多个物种中的对应基因序列上的保守模体。

2003年, Kellis、Cliften分别用此方法在酵母属基因组中找到保守的模体, 2007 年,Kheradpour等对12个果蝇属物种的全基因组进行比较分析, 预测出若干保守模体存在于ChIP-Seq算法预测的有效富集区。均取得相应的成果。

大部分此类算法思想是将共调控和进化上保守两种因素综合起来,在de novo 预测算法的基础上开发的,同时研究者将刻画物种间进化关系的进化树以及进化距离等信息都添加到预测算法中,作为算法调控机制。以增加算法准确率。其结果可以通过特定的ChIP-Seq算法验证。

和前两种算法不同,系统发育足迹分析法面对在更宏观背景下的模体识别问题,de novo算法与ChIP-Seq算法的每次进步总是要对其产生促进,同时它的发展也对前两者提供了验证信息和新的思路。最终生物信息学对生命的解读将由这三类甚至更多、更新层级方法共同完成。

4 总结

可以看出转录因子结合位点识别研究历经简单枚举、局部搜索、网络模型、 与DNA芯片技术结合、与物种进化结合等等过程,逐步形成了研究体系,各个过程中间不是简单的技术换代,而是在新的技术条件下各种经典的方法的延伸和发展。也就是说我们不能简单地认为局部搜索就优于枚举,或是ChIP-Seq算法优于de novo算法等等,它们各阶段的发展都是对彼此的促进。在相互促进融合的过程中,新的更适合当下技术条件的算法会逐步被人们发现。只有通过各种数据的融合和相互校正,才能挖掘出可靠的转录因子结合位点和它对DNA序列转录调控关系。

通过对各类算法的分析,可以看出今后一个阶段的研究仍是围绕着减少序列背景中的噪音信号对所关注的模体信号的干扰,以及提高算法的时间效率来进行的,新的实验技术和更多的同源序列信息被发现,必将带来更高效的转录因子结合位点识别算法。

参考文献

[1]Patrik D'haeseleer,How does DNA sequence motif discovery work? Nature biotechnology volume 24 number 8 August 2006.

[2]Helden etc,Extracting regul atory sites from the upstream region of yeast genes by computational analysis of oligonucleotide frequencies. Journal of Mol ecular Biology, 1984, 281(5):527-842.

[3]Pesole etc,WORDUP:an efficient al gorithm for discovering statistically significant patterns in DNA sequences.Nucleic Acids Research, 1992,20(11):2871-2875.

[4]Helden etc,Discovering regulatory elements in non-coding sequences by analysis of spaced dyads.Nucl eic Acids Research,2000,28(8):1808-1818.

[5]Sinha,ect,Discovery of novel transcri ption factor binding sites by statistical overrespresentation. Nucleic Acids Research,2002, 30(24):5549-5560.

[6] Pavesi,G.,Mauri,G.ect Analgori thm for finding signals of unknown length in DNA sequences.Bi oinformat i cs,2002,17(1):207-214.

[7]Bailey,T.,L.and El kan,C.Fitting a mixture model by expectation maximizat i on to discover motifs in Bopolmers.Proc.of the 2th International Conference on Intelligent Systems for Molecular Biology,1994,pp28-36.

[8]Bailey ect,Unsupervised learning of multiple motifs in biopolymers using expectation maximization. Machine Learning.1995,21(1-2):51-80.

[9]Lawrence ect,Detecting subtle sequence signals:a gibbs samling strategy for multiple alignment. Science.1993,262:208-218.

[10]Pevzner PA,Sze SH(2000) Combinatorial approaches to finding subtle signals in DNA sequences. In: Altman R,Bailey TL,eds.Proceedings of the Eighth International Conference on Intelligent Systems for Molecular Biology.California:AAAI Press.269-278.

[11]Ren B,Robert F,ect Genome-wide location and function of DNA binding proteins.Science,2000,290(5500): 2306-2309.

[12]Johnson DS ect Genome- wide mapping of in vivoprotein-DNA interactions. Science,2007,316(5830):1497-1502.

第4篇:生物信息学的定义范文

[关键词]中药复方;组方设计;新药研发

Drug design ideas and methods of Chinese herb prescriptions

REN Jun-guo, LIU Jian-xun*

(Institute of Basic Medical Sciences of Xiyuan Hospital, China Academy of Chinese Medical Sciences,

Beijing Key Laboratory of Pharmacology of Chinese Materia, Beijing 100091, China)

[Abstract]The new drug of Chinese herbal prescription, which is the best carrier for the syndrome differentiation and treatment of Chinese medicine and is the main form of the new drug research and development, plays a very important role in the new drug research and development. Although there are many sources of the prescriptions, whether it can become a new drug, the necessity, rationality and science of the prescriptions are the key to develop the new drug.In this article, aiming at the key issues in prescriptions design, the source, classification, composition design of new drug of Chinese herbal prescriptions are discussed, and provide a useful reference for research and development of new drugs.

[Key words]Chinese herbal prescription; prescription design; new drug research and development

doi:10.4268/cjcmm20151716

中药复方是中医临床用药的主要形式,也是中药复方新药研发的源泉。从目前中药新药的研发的现状来看,由于中药复方新药不仅体现了中医辨证论治的特点,还与国际上新药研发的“鸡尾酒疗法”<sup>[1]</sup>或“固定剂量组合”<sup>[2]</sup>的研发趋势一致,中药复方新药的研发在中药新药领域占据着比较大的比例,据统计,占2008―2013年中药新药注册数量的85.76%<sup>[3]</sup>。2008年国家食品药品监督管理局(SFDA)颁发的《中药注册管理补充规定》第5条规定:中药复方制剂应在中医药理论指导下组方,其处方组成包括中药饮片(药材)、提取物、有效部位及有效成分<sup>[4]</sup>。因此,中药复方新药的关键是组方,即如何在中医药理论指导下,组成一个有效、安全、质量可控的复方,则成为中药复方新药研发的关键科学问题。

1中药复方新药的分类

目前,有关中药复方新药的分类有许多种不同的提法,其主要的是2002年SFDA颁布的《中药、天然药物分类及申报资料要求》中的注册分类标准,在实际研发过程中,也有专家学者根据中药复方新药的某种特点提出了新的分类方法。

1.1SFDA中药复方新药注册分类2002年SFDA颁布的《中药、天然药物分类及申报资料要求》中明确指出复方新药主要指“未在国内上市销售的中药、天然药物制成的复方制剂”<sup>[5]</sup>,主要包括3类:①传统中药复方制剂;②现代中药复方制剂;③天然药物复方制剂。由于③完全脱离了传统中医药学的理论指导,中药只是作为活性物质的来源,该类复方已失去了中药的内涵,因此,仅①和②属于中药复方新药的范畴。

传统中药复方制剂是指在中医药理论指导下的组方,如古方、经典方、经验方等,其功能主治用传统中医术语表述,药材必须具有法定标准,其主治病证必须是国家中成药标准中未收载的,并以传统工艺(保持传统的治疗疾病的物质基础不变的工艺)制成的复方制剂。

现代中药复方制剂是指在中医药理论指导下组方,功能主治用现代医学术语表述,药材可以是传统或非传统药材,且以非传统工艺制成的复方制剂。其中非传统药材包括天然药物、有效成分或化学药品。

1.2依据主治的中药复方新药分类辨证论治、病证结合是目前中医临床治疗疾病的主要模式,相应产生了以证候为主或病证结合为主的2种中药复方组方方法,反映在中药复方新药研发上,就形成了根据主治的不同,形成了中药复方新药的分类方法。主要有证候中药复方新药和病证结合中药复方新药2种<sup>[6]</sup>。

证候中药复方制剂(新药)是指在中医药理论指导下,用于治疗中医证候的中药复方制剂,包括治疗中医学的病或症状的中药复方制剂。

病证结合中药复方制剂(新药)是指中医药理论指导下,结合现代医药学理论,针对现代医学的疾病与中医的证候为治疗对象的中药复方制剂,其功能用中医专业术语表述、主治以现代医学疾病与中医证候相结合的方式表述。

1.3依据药效成分组成的中药复方新药分类中药复方发挥药效的物质基础是其组成中药含有的与其主治相关的有效成分,由于中药复方新药的提取、制剂工艺不同,中药复方新药所含的有效成分的种类与含量存在明显的差异,据此,有学者在组分中药的基础上提出复方组分中药的概念,其他则与此区分。

第418次香山科学会议“组分中药研讨会”上对组分中药的定义是:组分中药是指以中医药理论为基础,遵循中药方剂的配伍理论与原则,由有效组分或有效部位配伍而成的现代中药<sup>[7]</sup>。可以是单味药的组分,也可以是复方的组分。复方组分中药则是将2种或多种中药材的有效组分提取出来,在中医药理论指导下,将这些有效组分组方配伍并制备成复方中药制剂<sup>[8]</sup>。由于组分中药的药效成分基本明确,作用机制相对清楚,临床适应症比较确切,而且针对性强、安全有效,质量可控,成为中药复方新药的一个新的研究方向。

2中药复方新药的组方来源

中药复方新药的组方来源途径比较多,但分析归纳后,主要有以下几种:有些来源于古方、经典方,有些源于中医临床应用经验的验方,有些源于药理研究的科研方等。

2.1源于古方、经典方的中药复方制剂古方、经典方是指数千年来中医临床所沿用的经典方、古方,该类复方有长期临床应用的历史和经验,其疗效相对确切,但其临床应用多是加减方,固定组成的古方、经典方的临床疗效仍有待确证。

2.2源于验方的中药复方制剂验方是指中医临床实践检验的确有疗效的复方,有些是在古方的基础上化裁而来,有些是祖传经验方,有些在是中医药理论指导下并经临床应用的基础上组成的经验方。此类处方的有效性有一定的临床应用基础,但临床验方的组成不确定,中药的剂量变化浮动较大。

2.3源于科研方的中药复方制剂此类复方多是指在中药有效部位(有效成分)的研究基础上,依据现代药理学的研究成果,结合疾病发病机制的研究进展进行的组方。此类处方的组方依据多缺乏中医药理论及临床应用经验的支持。

2.4源于数据挖掘的中药复方制剂此类复方主要是指采用数据挖掘技术,对数据库中名老中医医案、验方、古方等进行数据挖掘,从数据中寻找复方的组方配伍规律,确定相应的复方。此类处方的组方多缺乏临床应用经验与实验数据的支持。

3中药复方新药组方设计思路

中药复方新药的最大特点就是配伍,就是体现“方有合群之妙用”,就是减毒、增效。因此,中药复方新药组方设计就是在中医药理论指导下,结合现代医学理论,在中医古方、经典方、验方、科研方等不同复方来源的基础上,以中药复方新药的研发为导向,发现并优化中药复方,最终得到新的有效的中药复方,为下一步的新药研发奠定良好的基础。

为此,作者在中药复方新药的研发过程中,依据中医临床理、法、药、方的辨证论治过程,提出了中药复方新药组方设计的思路<sup>[9]</sup>,见图1。此研究思路,不仅适用传统的中药复方新药,也适用于现代中药复方新药,对于复方组分中药同样适合。

4中药复方新药组方设计方法

中药复方新药与其他新药研发一样,最关键的就是有效、安全、质量可控,在上述研究思路的指导下,笔者针对新药的具体要求,提出了几种中药复方新药组方的设计方法,具体如下。

4.1中医临床循证的中药组方设计近年来,中医循证医学的研究越来越多,但以中药新药为研究对象的研究多集中于中药新药的临床疗效评价(GCP)或中药上市后再评价,而以中药新药处方筛选优化为研究目标的中医临床循证医学研究比较少。作者所在团队在进行国家重大新药创制项目降糖消脂颗粒的研究中,以中医临床循证医学研究为指导,开展了中药处方-循证研究-组方优化等反复的临床组方筛选优化,建立了基于中医临床循证的中药新药组方的方法。此方法主要适合源于古方、经典方、验方的中药复方新药研发。

4.2中药药效循证的中药组方优化随着中药药理学研究的不断发展,通过正交设计、均匀设计等数理方法,以药效学指标为评价标准的中药组方优化的研究不断涌现。但此种研究技术多以单一或多目标的药理学指标为标准,忽视了中医药的理论特征,筛选优化的中药新药复方在动物实验中具有非常好的药效,但在临床试验中往往没有理想的结果。为此,以治疗冠心病痰瘀互结证的祛瘀化痰通脉颗粒的研发为范例,以中医药理论为指导,与中医临床紧密结合,以中药药效循证研究为手段,建立了以中药药效实验为主的中药组方优化方法<sup>[9]</sup>。此方法主要适合源于数据挖掘、科研的中药复方新药研发。

4.3中医药生物信息学的中药组方优化生物信息学技术的飞速发展使中医药信息学的发展也进入了一个新的时期,以历代中医文献数据库、当代临床数据库、现代生物信息数据库等为数据源,采用关联规则、复杂网络、复杂系统熵聚类等数据挖掘技术,研究中医组方用药规律、中药组方组效关系,开展中药组方优化研究,成为目前中药新药研究中的亮点<sup>[10-11]</sup>。但此类方法最大的缺点是虚拟技术,必须与临床、实验紧密结合,才能获得验证,同时,此类研究技术获得的组方太宽泛,目标性不强。

4.4靶位筛选的中药组方优化紧密结合中医临床用药规律,以病变部位为研究靶位,运用中药有效成分组织分布分析技术,发现进入靶位的中药有效成分,结合中医临床辨证论治理论,按照中药复方新药技术要求,依据中药组方原则组成候选复方,进一步结合药效学实验,开展中药组方优化研究,开展中药靶位筛选的组方优化研究<sup>[12]</sup>。此法在作者所在团队承担的国家重大新药创制专项“基于靶位筛选的中药新药――通络清脑注射粉针的研发”得到了应用。

总之,中药复方新药作为中药新药研发的重要组成部分,是当前乃至今后中药新药研发的重点,它极大体现了中医的优势与特色。中药复方组方是中药复方新药研发的第一步,是决定中药复方新药研发成功与失败的关键。中药复方组方本身是一个复杂的系统工程,涉及中医临床、中药药理、中药化学、中药药代、生物信息学等多个学科,已经引起了人们的关注<sup>[13]</sup>。今后,相信以中药复方新药研发为导向,不断创新思路,充分考虑中药复方的特点和我国中药复方新药的研究现状,以中医药理论为指导,结合现代医学理论,中药复方组方设计的研究会不断深入,必将进一步促进中药复方新药的研发。

[参考文献]

[1]汲军,庞振英,于翠萍.“鸡尾酒疗法”与中医[J].医学信息,2009,22(12):2808.

[2]孙忠实.药物降压新潮流――固定剂量组合剂[J].中国药房,2010(42):3941.

[3]张晓东,周跃华,刘璐,等.近年我国中药新药注册申请情况分析[J].中国新药杂志,2014,23(24):2845.

[4]国家食品药品监督管理局.中药注册管理补充规定[S]. 2008.

[5]国家食品药品监督管理局.中药、天然药物分类及申报资料要求[S].2002.

[6]王少卿,高颖.从证病结合模式探讨证候类中药新药的临床研究方法[J].环球中医药,2014(9):724.

[7]组分中药:建立起现代中药走向世界的桥梁[J].中医药导报, 2012(7):109.

[8]叶祖光.中药复方与组分中药[J].中国新药杂志,2011(16):1487.

[9]马永刚.中药复方组方设计方法研究――祛瘀化痰通脉颗粒的新药研究[D].北京:中国中医科学院,2012.

[10]缪素芬,颜素容,郭维嘉,等.基于药性组合模式的降压组分中药设计[J].中国中药杂志, 2014, 39(13):2389.

[11]贺昱d,孙志一,张燕玲.基于醛固酮拮抗活性和专利检索的降压中药组方设计[J].中国中药杂志, 2014, 39(22):4411.

第5篇:生物信息学的定义范文

中医药学有着丰富的理论知识和临床治病经验,具有重要的学术价值和开发利用的实用价值。但其传统的知识组织方式不能适应现代社会信息获取的需求,阻碍了对中医药学知识与信息的有效利用。随着计算机技术及其相关理论的发展,利用先进的现代科技对中医药知识信息进行重组和利用已得到认同,相关研究也取得一定成果。将计算机领域先进的本体理论与技术引入到中医药知识组织研究中,构建中药本体,实现中药信息的知识化重组,可为中药领域的数据挖掘和知识发现提供数据基础[1]。

中医药学知识信息对现代生物医学的医疗实践和科研都有重要的意义。随着计算机技术的发展,医学信息研究工作也随之逐步深入,例如在数据挖掘领域,医学信息数据挖掘是比较活跃的领域之一,同样在中医领域也受到广泛重视。但目前的医学信息组织方式与数据挖掘之间存在着诸多“瓶颈”,尤其是中医领域的数据挖掘研究,仅仅得到诸如“石膏与知母具有配对相关性”、“六味地黄丸可治疗阴虚”等数据挖掘的结果,只是对简单知识的简单认证,而其结果无法解释。究其原因,“数据整理”是中医药数据挖掘研究的瓶颈。近年来,领域本体构建技术已逐渐成熟,并迅速在各个领域形成研究热点。构建领域本体(Ontology)可以从数据整理与信息组织方面更好地实现数据挖掘与知识发现。在客观需求和条件具备的双重推动下,在中医药领域内开展中药本体构建工作切实可行。

1 本体的概念及特点

Ontology是一个哲学概念,用于描述客观事物的本质,通常译为本体或本体论(在本文中称为“本体”)。本体论与认识论在哲学上是两个相对的理论,认识论指人对客观存在的主观认识,而本体论则指客观存在本身。

自20世纪90年代,Ontology引入计算机人工智能领域后,在计算机及相关领域迅速形成一个研究热点。作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、系统建模、信息处理、数字图书馆、自然语言理解、语义web等领域之中[2]。研究人员从各自的专业角度出发对本体的理论和应用进行了深入研究,取得了丰富的研究成果,本体理论与技术也随之日趋成熟。

目前得到普遍认同的关于本体的定义是:本体是共享概念模型的、明确的、形式化的规范说明[3]。这个定义包含了概念模型、形式化、明确、共享4层含义。即本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的概念或术语,并从不同层次的形式化模式上给出这些概念及概念间相互关系的明确定义。

本体不仅描述概念、术语,而且对概念、术语间的关系描述得更为广泛、细致和全面。即,本体不仅明确了概念,同时也明确了概念间的属性及属性间的关系,它是从“属性”的角度出发去确定一个概念,能够在语义和知识层次上描述信息,从而真正达到知识理解的目的。这也是本体作为知识组织方式的最重要的特点。可以看出,与传统的MeSH表相比,本体描述的概念关系是网状、立体的。在本体中可以描述的概念间关系有反义关系、上位关系、下位关系、整体-部分关系、部分-整体关系、转指关系、近义关系、同义关系、动作关系等,而不仅是传统的信息组织工具MeSH中所描述的参照、用代、隶属关系[4]。

在中医药领域中,中药的概念术语相对较明确,选择中药作为突破点,首先构建中药本体,逐步实现中医药医学信息的知识组织与构建。

2 构建意义

本体建设的目的是应用,这方面的研究遍布人工智能、信息管理、知识管理相关的各个领域:①基于语义的信息检索,特别是网络搜索引擎和数字化图书馆。②基于本体的数据集成、机器学习等。③领域本体的应用,比如,在生物信息学中已建成的GeneOntology,尽管只包括了part of等简单的关系,但是对生物信息学界已经有巨大的影响。④语义Web服务。⑤在线元数据管理和自动信息。⑥非相关文献知识发现[5]。

中药本体作为领域本体的一种,通过概念及概念间的关系全面描述中药的本质,揭示中药本身及中药间复杂的功效与物质关系,澄清中药的知识结构,为中药的知识表达提供数据基础。例如:可以提供基于语义的信息服务,通过语义检索,为用户提供知识层面的语义检索服务;定题服务,进行相关的数据挖掘,帮助人们发现隐含的知识,如通过数据挖掘分析研究,揭示药性、药效、物质基础间的关系,归纳构建基于现代科学语言的中药药性表征理论体系等应用型研究。中药本体既具有专业领域性,亦具有普遍性,可应用于其他信息工程与知识管理等方面。

3 中药本体概念关系体系的构建

3.1 构建原则

领域本体的构建至今没有一个统一的标准, Gruber在1995年提出的5条规则[6]得到较广泛的公认。中药本体的构建同样遵循以下5条原则:①明确性和客观性。Ontology应该用自然语言对术语给出明确、客观的语义定义。②完整性。所给出的定义是完整的,能表达特定术语的含义。③一致性。知识推理产生的结论与术语本身的含义不会产生矛盾。④最大单向可扩展性。向Ontology中添加术语时,通常不需修改已有内容。⑤最少约束。对待建模对象应该尽可能少列出限定约束条件。

3.2 构建方法

目前,利用现有的领域内公认的知识以及领域专家的参与,是一致认同的构建领域本体的最优方式[7]。

构建中药本体,首先需要解决的问题是概念关系体系的确立。在注重知识结构关系的原则上,可借助已有的中药分类法。中药分类方法主要有按药物功能、药用部分、有效成分、药材自然属性和亲缘关系分类等。中药本体概念关系体系的构建采用比较成熟的自然属性分类法(主要参照《中华本草》[8]的现代自然属性分类法),即采用植物学分类法、动物学分类法,能够更好地反映中药之间的内在联系及其变异特征。此外,该分类法还有以下优点:对药物来源、属性、药物部位等一目了然,条理清晰便于查检,便于更新和修改,便于不同专业的人操作中药本体的建设工具。

各个中药类目下设定27个属性,属性设置包括:正名、异名、释名、品种考证、发生发展史、产地、原植(动、矿)物、栽培(养殖)要点、采收加工、贮藏、药材及产销、药材鉴别、化学成分、药理、炮制、药性、功能与主治、应用与配伍、用法用量、使用注意、附方、制剂、现代临床研究、药论、集解、附注、参考文献。中药的属性可以根据需要与新发现进行修改。

通过属性参数,从各个角度尽可能全面地描述中药,更精确、全面地确定概念,并显示概念间的关系。其中,中药药性、药理的研究有助于阐明中药理论的科学实质,为中药药性研究提供数据挖掘的基础资源,实现中药药性的知识发现与理论创新。

4 结语

领域本体的开发和完善是一个反复叠加的过程,没有一种“唯一”的途径或方法,但无论从客观世界具体的角度或者是从逻辑抽象的角度出发,领域本体中概念的设计都应该贴近于研究者要研究的专业领域中客观对象和对象间的关系法则[9]。因此,中药本体构建模式是一种探索,建成之后仍然需要维护和不断进化。据此还可以继续构建中医本体,实现中医药领域内知识信息的知识化组织与利用。

参考文献

[1] 刘 耀,段慧明,穗志方.非相关文献知识发现的数据基础研究——以中医药古文献语言知识库的构建为例[J].情报杂志,2006,(9):21―26.

[2] 曹树金,马利霞.论本体与本体语言及其在信息检索领域的应用[J].情报理论与实践,2004,(6):632―637.

[3] Studer R, Benjamins VR, Fensel D. Knowledge engineering, principles and methods[J]. Data and knowledge engineering,1998, 25(1-2):161―197.

[4] 牟冬梅,崔艳玲.MeSH、本体论在医学知识组织中的作用[J].情报杂志, 2005,(7):120-122.

[5] 袁 媛.领域本体建设的方法论和工具研究[D].中国人民大学硕士学位论文,2004.

[6] Peter D Karp, Thomas R Gruber. A generic knowledge-base access protocol[A]. Proceedings of the international joint conferences on artificial intelligence[C]. Montreal,1995.

[7] 刘 耀,穗志方.领域Ontology概念描述体系构建方法研究[J].大学图书馆学报,2006,(5):28-33.

第6篇:生物信息学的定义范文

[关键词]金融时间序列;相空间重构;预测

[中图分类号]TP311[文献标识码]A[文章编号]1005-6432(2014)43-0100-02

1引言

时间序列的预测问题已在各个领域得到广泛关注,如生物信息学、神经信息学、金融工程、经济学等。时间序列的最优预测非常重要,它会为决策者进行决策提供重要的参考信息。

行业指数与综合指数都是证券市场这个复杂系统产生的时间序列,这些时间序列之间相互作用影响,一段时间内会出现相同趋势的演化而另一时刻则会产生相互背离的演化。这种演化中的背离现象说明多个时间序列中所包含的复杂系统演化信息不同,因此利用多个行业指数时间序列进行证券市场的复杂系统重构应比简单采用单一观测量的重构更加贴近真实系统。

2多元时间序列的定义

现实中,多元时间序列以各种形式广泛存在,现首先给出多元时间序列的数学定义。

一系列按照时间先后顺序记录的值S={vi(1), vi(2), …, vi(t), …, vi(n)}称为时间序列。其中t(t=1,2,…,n)表示时刻,i(i=1,2,…,m)表示变量,vi(t)表示第i个变量在t时刻上的记录值当m>1时,S为多元时间序列(MTS);此多元时间序列为确定性的数值类型的数据,可以用m×n矩阵表示,m为变量数,n为时间点数。

在多元时间序列中由于各变量间量纲等方面的差异,因此需先将数据正则化,以减少随机波动干扰、降低算法计算复杂度。同时,为保证MTS相似的有效性和准确性对MTS数据集也有一定的初始要求,因此这里给出同构的MTS的定义,以限定研究对象范围。

同构的MTS需要满足以下三个要求:①对于MTS数据集,各序列的变量维数相同,变量之间一一对应且表示相同的含义;②对于某一MTS样本,各变量数值的记录时刻对应,且具有相同的时间粒度;③MTS需经正则化处理。

3多变量相空间重构参数的选取方法

在非线性多变量数据分析中,采用虚假邻点法进行相空间重构是一种简单易行的常用方法。该算法具有计算过程简单、计算速度快等特点。虚假邻点法是由 Kennel 等人提出的算法,该方法的基本思想是当嵌入维数m变成m+1时,考察信号xn的邻点中哪些是真实的,哪些是虚假的邻点,当没有虚假邻点时,可以认为几何结构完全被打开,此时的m即为所求的最佳嵌入维数。设xn的最近邻点为xη(n),当m1增大到m1+1时,重新计算两个信号之间的距离并求与原距离之间的比值:

xη(n)+xn(m1…ml+1…mL)-xη(n)-xn(m1…ml…ML)xη(n)-xn(m1…ml…mL)≥σ0

如果距离变化的比值大于σ0,则xη(n)是xn的虚假邻点。对于多维信号(m1,…,ml,…mL)从(1,…,1,…,1)开始,每次ml增加1,直到虚假邻点的比例小于δ,则可以认为吸引子的几何机构完全打开,此时的(m1,…,ml,…mL)为最佳嵌入维数。根据经验通常预定义σ0=10,δ=5%。

4相空间重构

相空间重构理论是研究混沌理论的基础。Takens和Packard 等人认为系统中任意一分量的演化都是由与之相互作用的其他分量所决定的。因此,这些相关分量的信息隐含在任意一个分量的发展过程中,重构系统相空间只需考察一个分量。

设X表示观测到的混沌时间序列,x(t),t=1,2,…,n,根据Takens定理,进行相空间重构,则在状态空间中重构后的状态矢量可以表示为:Xi=(xi,xi+1,…,xi+(m-1)t)T(i=1,2,…,i+(m-1)t),其中i+(m-1)是重构相空间中的相点个数,t是延迟时间,m是嵌入维数。Takens 证明了可以找到一个合适的嵌入维数,即如果延迟坐标的维数m≥2d+1,d是动力系统的维数,在这个嵌入维空间里就可以把吸引子恢复出来。

5复杂非线性时间序列预测

结构复杂的非线性数据,不适宜从数据特性出发分析建模,而唯象预测方法就不关心数据本身所具有的特性,只是利用现存历史数据去逼近模型进而预测未来。1989 年 Billings 等人提出的非线性自回归滑动平均(NARMA)模型,具有形式简洁、高度概括等特点。

主要建模步骤如下:

(1)对时间序列进行零均值平稳化处理。时间序列一般可分为平稳时间序列和趋势性序列。时间序列的趋势又分为线性趋势和非线性趋势。若时间序列为非平稳序列,具有向下或向上的趋势,建模之前需要进行序列平稳化处理,即零均值化、平稳化处理。

(2)逐渐增加模型阶数,拟合ARMA(n,n-1)模型。即一阶、一阶增加模型阶数,模型参数采用非线性最小二乘法估计,具体算法采用最速下降法。选择残差序列最小方差对应的模型作为初选模型。

(3)模型适应性检验。

(4)求最优模型。系统意义上的最优模型不仅是一个适应模型,而且是一个经济的模型。因此还需要检验模型是否包含小参数,若有,可用F检验判断是否可以删去,拟合较低阶模型,进而得到系统意义上的最优模型。

(5)时间序列预测。

6问题与展望

基于非线性动力学的时间序列分析和预测技术的主要支撑理论是20世纪80年代初PTakens和RMane提出的相空间延迟重构技术,这一方法后来由 TSaner等作了完善和推广。实际环境中,对复杂系统的观测时间序列通常是有限长的,甚至很短,具有噪声,而另一方面观测时间序列是同时产生的多维时间序列,这些时间序列中可能包含大量的冗余信息也可能包含着十分有用的复杂系统演化信息。本文研究无疑能为金融机构与投资者深入认识金融市场规律、有效地进行金融管理、提高金融投融资效率等提供新的数量技术支撑,对促进金融市场技术分析理论与方法的创新和发展具有重要的理论与现实意义。

参考文献:

[1]杨璐,高自友基于神经网络的时序预测模型研究[J].北方交通大学学报,1998,22(3):53-56

[2]李爱国,覃征大规模时间序列数据库降维及相似搜索[J].计算机学报,2005,1(9):1447-1475.

[3]王达,荣冈时间序列的模式距离[J].浙江大学学报(工学版),2004,39(7):795-798.

[4]李军,刘君华一种新型广义RBF神经网络在混沌时间序列预测中的研究[J].物理学 报,2005,54(10):4569-4957

[5]张勇,关伟基于最大Lyapunov指数的多变量混沌时间序列预测[J].物理学报,2009,58(02):756-763

第7篇:生物信息学的定义范文

关键词:最大连通子图;最大团;完美匹配

中图分类号:TP18;O157 文献标识码:A文章编号:1009-3044(2008)05-00ppp-0c

1 前言

图论是组合数学和计算机理论科学的重要学科之一,也是数学和理论计算机中近年来发展最快的学科之一,其主要应用除了在计算机领域外,还广泛的应用于其它学科,例如经济、生物、数学等等。这里我们主要介绍其在生物学中的有趣应用。

2 图论在生物学方面即研究蛋白质结构预测方面的有效应用

我们知道蛋白质结构预测问题就是如何从蛋白质的氨基酸序列出发预测它的功能、构象折叠等问题。这是一个人类破译生命奥秘的重大问题。这个问题一旦得到解决,科学家们就可以最终阐明遗传信息传递的全过程,从而大大有助于了解蛋白质空间结构与其功能之间的关系。近年来,“图”的概念已被应用于蛋白质结构预测的相关研究之中,如:寻找图的最大连通子图研究蛋白质的自折叠问题、图的连接矩阵的特征矢量分析研究蛋白质的活性位点和配体结合位点的问题、图的完美匹配方法预测二硫键的问题等,取得了一定的成果,本文主要对这些图论方法在蛋白质结构预测中取得的一些新的研究进展作以综述。

2.1 最大连通子图

若有图G(V,E),如果有另一图G’(V’,E’),且V’和E’分别是V和E的子集,且E’中的一条边e’(vi,vj)必须与E中的一条边e(vi,vj)相对应,称G’为G的子图。如果图G’的任意两个顶点之间均是连通的,则称G’是一个连通图。若G是不连通图,它的每个连通的部分G’称为G的一个连通子图。

1997年我国学者彭征宇在‘蛋白质中的自折叠单元’一文中,把一个蛋白质的结构用一个数学上的“图”来表示。图上的每一个顶点表示一个二级结构,而每一条边则表示两个二级结构单元之间的相互作用。那么,这些相互作用的强度将通过每两个二级结构单元间有多少对重原子(指碳、氮、氧等)之间的距离在0.5nm(5埃)之内来决定。两个相邻的或平行的二级结构单元之间的相互作用将大于距离较远的或垂直的二级结构之间的相互作用。然后,简化“图”:只保留对于每一个顶点最强的相互作用及超过这个最大值60%的那些相互作用。对每一个顶点来说,它的邻点对它的相互作用密度定义为它与邻点的相互作用除以代表这个顶点的二级结构的长度。保留相互作用密度超过整个图中最强相互作用密度20%的那一部分,其余的相互作用所对应的那些边将被舍弃。这样所得到的图将是非对称的,即对某一顶点来说,它的邻点对它来说可能是重要的,而同时这个顶点对它的邻点来说却是不重要的,因为它的邻点与其他顶点有更强的相互作用。在经过简化的图中,寻找具有自折叠能力的部分相当于寻找这个图的最大连通子图。

他们通过对牛胰蛋白酶抑制蛋白(PDB5PTI 58amino acidsresidues)和嗜热菌蛋白酶(thermolysin)用图论的方法进行了预测,这个预测与实验结果相符合。他们认为,总体上,这种方法对于预测已知结构蛋白中的自折叠单元有大约70%的成功率。与以前的方法相比较,他们的方法的最大优点是所预测的自折叠单元不需要由连续的氨基酸序列所组成。强调了理论与实验的比较,以及尽可能少地引入能量参数等优势。

2.2 最大团

若简单图G(V,E)的子图S是完全图,即满足其任意两个顶点之间均有且只有一条边相连,则称S是G的团。1998年Samudrala R和Moult J,把一个蛋白质的同源模建中的3D结构预测问题成功地转换为一个图论中的寻找最大团的问题。

在同源模建中,主链构像的大部分可以从一个或多个相关的母板结构获得,仅仅是那些被认为与母板结构有明显不同的主链和侧链构像,才用于转换为寻找最大团的问题。

在氨基酸序列中的一个残基,它的每一个可能的构象代表图中的一个顶点。边连接两个顶点(残基)。顶点和边根据一些安排好的标准赋权。一旦这个图被构造出来,所有的团中的极大团就可用Bron & Kerbosch提出的CF(clique-finding)算法找到。那些权值最好的团被认为与天然结构最相似。

一个残基的每个可能的构象在图中表示一个顶点。顶点的权根据侧链的原子与局部主链原子之间的相互作用程度赋权。要一直考虑到在代表顶点的残基位置两侧的任意四个残基的主链的原子和这个残基的主链原子,被用来计算权值。边连接一对顶点,边的权根据代表顶点的残基之间的相互作用程度赋权。对于空间彼此碰撞的顶点之间不连边同一残基具有不同的构象之间不连边。顶点和边的权值通过一个全原子距离条件概率赋权。简单地说,要求的概率通过在一个265个高清晰的X-射线测出的非同源蛋白质结构数据库中,计算原子类型对的距离的频数而得到。计算公式如下:

给定一个具有n个顶点和m个边的团,对应构像的分值用这个团上面的边和顶点的和来表示:

他们的方法与传统的方法相比,不合适的构像被提前舍弃,具有搜索适应性构像速度快的优点,团的方法克服了连续能量函数搜索方法遇到能量势垒和过早掉入局部能量最小的

势阱里的缺点。他们用这种图论的方法对同源蛋白质进行了预测取得了令人鼓舞的结果,同时证明,这种方法应用于同源模建的loop区域的预测具有较好的前景。

2.3 完美匹配

在无向图G(V,E)中,对边集E的任一子集MAE,如果M中任意两条边都不相邻,则称M为图G的一个匹配。若G的每个顶点都是M饱和点,则称M是G的完美匹配。2001年Piero Fariselli和Rita Casadio把预测二硫键连接问题等价为一个寻找图的最大权的完美匹配问题。

在蛋白质结构预测中,一个主要的问题是在富含半胱氨酸的蛋白质中准确确定二硫键的位置。在组成蛋白质的20个氨基酸中,半胱氨酸惟一的具有一种属性,即它们之间可以形成二硫键有助于蛋白质三维结构的稳定。它使多肽链的两个不同的区域之间能够紧密地靠拢起来。在蛋白质折叠预测中,确定二硫键可以大大地减少搜索构像空间。氨基酸序列中每一个半胱氨酸残基代表图中的一个顶点V,边E连接一对顶点(Cys-Cys),边依据相应规定赋权W,构成一个赋权的完全图G,应用Edmonds-Gabow的算法,找到G中具有

最大权的完美匹配。则这个完美匹配对应正确的二硫键的连接方式。权值的获得考虑一级结构中半胱氨酸残基位置前后的各5个残基赋权,数据来源于PDB蛋白质结构数据库中的726个高分辨率蛋白质中二硫键的连接模式的统计结果。他们利用这种方法对蛋白质折叠中的二硫键连接进行了预测研究,结果说明二硫键的形成与其序列模式有这重要的联系,通过研究半胱氨酸残基在序列中局部环境因素,可以预测二硫键的结构。对于具有4个二硫键的蛋白质结构,这种方法的预测正确率高于随机预测的17倍。

3 总结以及其他研究(other researches)

图论的方法较早的文献是应用于二级结构的模体比较和折叠片层的拓扑结构的分析;最近二十年,蛋白质折叠问题已经成为了许多理论学家和实验学家极大关注的课题。图论还应用在蛋白质折叠的酶动力学的表达分析上;Bahar等应用Kirchoff’s矩阵去描述在蛋白质中的空间相邻残基并且阐明了几个属性,比如:振动力学和蛋白质中的热波动等。PatraSM和Vishveshwara S用图论的特征参数寻找蛋白质中的主链团,同时发现在团的相似区域蛋白质结构也相似。我们相信,随着研究的深入,图论在生物学中的应用会越来越来广泛和实际。让我们翘首以待!

参考文献:

[1]郝柏林,张淑誉.生物信息学手册[M].上海科学技术出版社,2000.

[2]Krane D E , Raymer M L. 孙啸,陆祖宏,谢建明,译.生物信息学概论[M].北京:清华大学出版社,2004.

[3]彭征宇.蛋白质中的自折叠单元[A].见:郝柏林刘寄星.理论物理与生命科学[M] .上海:上海科学技术出版社,1997.

[4]兰家隆,刘军.应用图论及算法[M].成都:电子科技大学出版社,1995.

[5]肖位枢.图论及其算法[M].北京:航空工业出版社,1993.

[6]来鲁华,等.蛋白质的结构预测与分子设计[M].北京:北京大学出版社,1993.

收稿日期:2007-12-10

第8篇:生物信息学的定义范文

关键词:计算机软件,数据集成,元数据,异构数据源

 

1 引言

随着时代的不断发展,人类对科学领域的研究也在不断地深入。为了应对具体研究领域技术(如生物信息学)高速发展而引发的数据存储、分析等的应用需求,新的数据库不断建立,存储的数据呈指数级增长,研究人员需要的数据也开始不只限于某个单一数据库,而是分散在多个相关数据源中。对高度复杂的海量实验数据进行存储、共享与整合成为了科学研究中最重要的问题之一。目前各个大型数据库是由不同的研究机构在不同技术与科研条件下根据其自身的需要建立的,研究或应用的背景也各不相同,从而形成语法、语义、模式等方面的异构[1]。除此之外,这些数据库大都具有分布、自治和动态的特点,给科研人员的访问和使用带来了极大的影响。伴随着研究发展而新建立的数据库也有类似的问题。诸多的异构数据源严重影响了数据的共享与整合,给研究工作造成了许多困难。

多年来,人们试图通过各种办法来解决数据整合的问题。联邦数据库、中间件和数据仓库等技术在不同的着重点和应用上部分解决了数据共享问题,然而数据源模式的异构问题还是没有从根本上得到解决。元数据是关于数据的数据,是对数据源所存储数据的详细描述,不仅包含了数据的名称、类型等信息,还提供了数据的上下文描述信息,例如数据的来源、取值范围、业务规则等。如果将各数据源的元数据按照一个统一的标准提取出来集中存放在一个元数据库中,并映射到按照用户的查询要求而建立的用户模式上,就能够通过解析用户模式得到对应的各数据源模式查询;对各数据源查询结果进行连接、合并等操作,并按用户模式进行输出,就能够实现数据的共享和整合。基于以上分析,我们提出了基于元数据的数据资源共享与整合方案,本文讨论的内容是整个方案中的一个组成部分,采用了用户模式与数据源模式之间互相映射的方法解决数据集成的问题,主要对建立用户模式、生成用户模式与数据源元数据映射以及生成查询语句完成查询进行阐述。

2工作基础

在引言部分中已经介绍过,元数据包含了对数据源中数据的详细描述。因此,通过抽取各数据源的元数据,可以对要集成的数据源在结构上有一个更直观的认识。与数据仓库的集成方法相比,使用元数据进行数据集成有以下特点:(1)元数据库中存储的是各数据源的结构信息,按照统一的元数据标准进行描述后集中存放在元数据库中,能够保持各数据源的结构特征。。(2)建立元数据库所抽取的多个数据源的元数据与海量的实验数据相比存储压力要小得多,而且由于各数据源的结构相对保持稳定,结构基本不会变化或变化较小,元数据更新频率远低于数据更新频率,同时在查询时是通过元数据直接访问相关的数据源,能够保证查询结果的准确与全面。

公共仓库元模型(Common Warehouse Metamodel, CWM)是一个完整的描述数据仓库和业务分析领域的元模型,提供了构建元数据所需的语法和语义。CWM元模型具有良好的树状层次结构和继承机制,已经获得了广泛的支持,成为了元数据的一个重要标准。刘文杰等设计并实现了一个元数据提取与导入工具MetaPro 1.0[2],提供了一个基于CWM元模型的元数据集成解决方案,能够根据各相关数据源DBMS的SQL脚本生成元数据库,并针对不同DBMS生成的SQL脚本建立了相应的处理模块。由于CWM过于复杂和庞大,因此MetaPro 1.0对其进行了适当的裁减,既保持了该元数据标准在数据整合应用领域的通用型与兼容性,又剔除了CWM中与数据整合无关的部分,缩小了元数据标准的规模,形成了一个适用于多数据源数据集成的公共元数据标准(图1)。该工具是整个整合方案的基础和重要组成部分。通过该工具生成的元数据库可以访问需要进行集成的各异构数据源,为本文讨论的内容奠定了基础。

图1 CWM体系结构及裁减情况(深色区域为裁减后的部分)

3关键技术研究

元数据库的建立解决了数据访问的障碍,而按照用户的查询需求对异构数据进行整合则是最终目标。本节将针对实现数据整合的关键问题进行讨论。

3.1建立用户模式

由于研究的不断深入,数据整合的需求使得相关知识领域内出现了一些公认的规范,例如生物信息学的基因本体(Gene Ontology,GO),使得各数据源对数据语义的描述有了统一的参照标准,方便了研究人员对数据的访问和理解,为数据集成奠定了软件上的基础。但是由于应用目的和背景不同,“同一概念从不同数据源中可得到完全不同的属性信息”[3]。因此对于用户来说,数据集成就是将从各数据源得到的数据按照查询需求进行清理与整合,以GO等规范作为连接的媒介,转换为用户所希望的样式。整合后的数据在概念上依然是按“表”或“视图”的形式存在的,而且每列的数据都来源于各异构数据源,整合时可能会因为类型不同而出现错误。因此,有必要根据用户需求建立相应的用户模式,统一查询的数据类型和名称。。我们借鉴了DBMS对视图的管理形式,用户在建立自己的模式时类似于建立了一个虚拟的表,可以定义并管理“表名”、“字段名”、“类型”和“字段长度”等相关内容,并且按照查询需求的不同可以建立多个虚拟表,根据需要随时可以进行调整。用户模式的“字段”就是用户需要的属性信息,其类型和长度体现了用户对查询结果的要求。这种建立虚拟表的方式相当于定义了用户模式的元数据,因此在存储上与数据源元数据的形式相同,都是整合方案数据库中的数据。这也为建立用户模式与数据源元数据之间的映射做了准备。

3.2生成用户模式与数据源元数据之间的映射

只有用户模式是不够的,它必须与数据源元数据产生关联才能从数据源获得需要的数据。因此,用户模式与数据源元数据之间的映射就成为了一个不可缺少的重要步骤。映射的依据就是以用户模式为参照,由用户选择需要整合的表,将需要集成的具有相同语义的数据源元数据关联到相关的用户模式“字段”上,这时不同的数据源就会以用户模式为媒介相互产生一定的关联,只要对用户模式及相应的映射关系进行分析就能得到各数据源的实际查询语句,实现对异构数据源的查询。。需要注意的是这种映射对已确定的用户模式和数据源来说是唯一的,不能出现用户模式的同一“字段”与数据源表中多个字段对应或数据源表中的同一字段与用户模式的多个“字段”相对应的情况。

3.3生成查询语句完成查询

通过分析用户模式及其对应的映射关系,就能把用户模式的查询分解为对各异构数据源的查询,再把各数据源的查询结果按照用户模式进行整合及清理后,就是用户模式所希望得到的结果。具体步骤如下:

(1)根据需要对用户模式进行裁减,生成用户视图,并选择相应的映射关系

(2)对用户视图进行分析,根据用户视图的“字段”以及相应的映射关系确定每个数据源需要查询的字段,并用用户视图的“字段”作为数据源表的字段的别名;如果用户视图“字段”在数据源中没有映射关系,则数据源字段以NULL或空值进行代替

(3)根据确定的数据源字段生成各数据源的查询语句

(4)按照各数据源在映射中的先后顺序,从头到尾依次对查询语句以存放公认的规范内容的字段为关键字进行外连接操作,并且每次的连接结果都作为新的查询语句与下一个进行外连接并消除重复字段,直到生成一个完整的查询语句

(5)执行生成的查询语句,完成查询,并按用户视图的样式输出

根据设计的构想,集成查询体系的示意图如图3所示。

图3 集成查询体系示意图

4 问题及改进

使用模式映射的方式,通过用户模式连接各异构数据源,在一定程度上实现了数据整合的目的。但是来自不同数据源的数据,在数据内容、数据格式、数据质量等方面有着很大差别,无法保证数据的一致性;数据类型转换是以用户模式为标准的,如果用户模式在建立时不完善,在实施数据整合时可能会遇到数据格式不能转换(例如将VARCHAR型数据转换为INT型)或数据转换格式后丢失信息等棘手问题[4](例如用户模式字段长度不够);由于对事务认识的角度不同,导致用户对数据源模式语义的理解也可能会产生歧义,生成的用户模式无法得到预计的结果。下一步工作将主要用来解决这些问题。由于数据存放于各数据源,内容、格式、质量无法由用户模式修改,所以只能在建立用户模式时通过使用长度足够大的、兼容性较好的数据类型如VARCHAR等尽量保持数据的原貌。语义理解的问题可以通过引入本体的方式来解决。使用本体来标注数据源的元数据后,用户不用在数据源模式和用户模式之间进行反复的映射操作,只要在建立用户模式时对虚拟表的“字段”进行本体术语的标注就能和数据源元数据产生关联,用户模式和数据源模式的语义都由本体来体现,在理解上不会产生歧义;而且可以利用本体进行推理,体现各数据源元数据之间在概念层次上的关系,进一步扩展应用的范围。除此之外,还要进一步完善对用户模式查询语句的分析与重写,改进各数据源查询结果的清理与连接等操作的性能,以提高运行的效率。

5 结束语

本文主要介绍了一种异构数据源集成方案实现异构数据源集成时的主要实现方法。作为基于元数据的集成办法,它通过定义用户模式与各数据源模式的映射解决数据异构的问题,使各数据源中有关联的数据在集成后能够按照用户希望的方式进行展现。相关的工作将在后续文章中进行介绍。

参考文献

[1]黎建辉,佘怀化,阎保平. 基于元数据的关系数据库语义集成方法.计算机工程[J], 2008, 34(6): 54-56.

[2]刘文杰,宁 洪,王 挺,等. 面向蛋白质组学数据库的元数据提取与导入工具[J]. 计算机工程与科学, (已录用).

[3]杨 森,夏 燕,曹顺良,等. 语义异构生物数据源中的数据集成与更新[J]. 计算机工程, 2008, 34(8): 38-40.

[4]丁建华,彭 政,王 飞. 生物数据仓库研究及应用[J].计算机工程与应用. 2005, 12(5): 192-194.

[5]林 毅,宁 洪,王 挺,等.基于本体的生物信息集成研究[C]. 第五届软件工程大会论文集, 2008, 18-20.

第9篇:生物信息学的定义范文

【关键词】 临床免疫学; 免疫检验; 实践; 探索

临床免疫学是免疫学与临床医学的重要连接环节。免疫学检验是以免疫学原理为基础,利用各种具有敏感特性的标记技术,对各种病理和生理的免疫学指标行特异性、超微量地分析,包括细胞的、体液的诊治及预后评估[1]。就免疫学检验进行准确定位,是临床医生依据检验结果对疾病进行诊治和防控的有效技术手段,具有非常重要的研究价值。本文就临床免疫学和免疫检验的相关实施与探索进行综述如下。

1 临床免疫学概念

临床免疫学属重要的免疫学分支部分,为免疫学应用到临床医学的途径。免疫学技术的发展和进步与临床免疫学技术的发展进步有着密切相关性,为临床及时、科学的应用免疫学新技术,在疾病的治疗、监测、确诊、预后中均发挥重要的引导及参考作用[2]。随着医疗科技的不断进步,临床上多种免疫学技术已被普遍开展应用,如流式细胞式和免疫细胞检测及分类技术、血清蛋白电泳技术及各种肽类物质、激素、细胞因子、肿瘤标志的检测技术等[3]。随着目前检验项目在临床的不断增多,临床医务人员及患者自身都对临床检验有更高的期待和要求,各种免疫学技术均需紧跟医疗科技发展步伐,更全面、迅速的发展,以尽快的与临床应用适宜,进而开展临床免疫学技术的崭新局面。

2 临床免疫学促进新技术发展

技术的产生、发展和创新基础均需有相应的理论,如PCR技术、分子克隆技术等均为遗传学或分子生物学重要的具有划时代意义的技术。而这些技巧中,理论基础为DNA的双螺旋。同时免疫学的抗体理论与抗原对多种临床免疫学新技术的产生也起到了推动作用,如标记技术、沉淀、凝集等的发展进展[4]。近年来,受细胞生物学、分子生物学的不断渗透及免疫学的飞速积习难改展,使免疫学在理论上获得了较大的突破。

3 临床免疫学新技术发展特点分析

3.1 多学科交融 临床免疫学经典技术包括免疫标记技术、溶血技术、中和技术、沉淀技术、凝集技术等。以上技术为临床免疫学基础,在临床免疫学传统及现代的理论中均占有较重要的地位。以上技术或其基础上发展创新的技术至今仍在科学研究和临床检验中广泛应用。但生命科学在不断发展,不同学科间渐较难明确区分和界定,形成广泛的渗透和交叉的局面,而遗传学和分子生物学的适体技术、分子杂交技术、PCR技术、染色质沉淀技术等免疫学新技术,使免疫应用范围和理论不断拓展。另外,临床免疫检验中,组织学、细胞学中的显微镜技术也为一项重要的技术手段。如由普通显微镜与免疫组织化学技术联合对抗原进行检测,自身抗体采用荧光显微镜与荧光标记技术联合进行检测。且电子显微镜对细胞间的相互作用和免疫细胞的行为可直接行动态观察。以上技术的应用,使临床免疫学技术得到了较大丰富,为发展提供了动力及方向[5]。同时免疫学检测数据显著多,用日益复杂,有效分析数据和正确应用结果显得较为重要故临床免疫学与生物信息学、医学统计学等学科的合作与交流也渐趋深入。

3.2 高通量、智能化、自动化的免疫新技术 临床免疫学检测具有同步化、智能化、自动化的特点,与传统手工操作有较大的区别,如微粒子酶免疫技术、电化学发学分析技术等,毛细管电泳技术也在临床广泛应用,目的,生物芯片技术使整个检验医学检测实现了大规模、平行化、高通量的要求。同时,组学技术、后基因技术、酶联免疫斑点技术的研究也不断深入,极大的满足了临床免疫学需要。

4 免疫学检验定义

4.1 临床免疫学中免疫学检验为重要组织部分 以基础免疫学理论作指导,临床免疫学对免疫学方法及技术不断创新,在对疾病研究,特别是自身免疫病、肿瘤、传染病、血液病、免疫缺陷病、变态反应性疾病的病发机制、诊治、预后评估中发挥着重要作用,属免疫学分支学科,是基础免疫学内容与临床免疫学内容的中间环节,为临床医师对疾病进行研究的相关技术方法。

4.2 免疫学检验的相关定义 依据免疫学原理,特别是抗体与抗原反应原理,对各种敏感标记进行利用,如荧光素、发光物质、放射性同位素等,特异地、超微量的对各种病理和生理免疫学指标进行分析,包括细胞的和体液应用,行疾病诊治和评估的一组医学临床检验项目[6]。其要点为即对抗原抗体反应原理加以利用,又可对免疫学参数的各种内容进行检测。

5 免疫学检验存在的问题

5.1 定位 目前,有一定数量的医疗单位中,尚未设立免疫学检验专业,无专业的检验设备,无实验室,无固定的专业的检验人员,免疫学检验中的一些项目被分散在微生物实验室和生化实验室进行检验,对专业的发展造成了一定影响。

5.2 质量管理分析 虽免疫学检验中大部分项目在各大医学中已参加了国家卫生部相关室间质量评估活动,但在对室内质量进行控制的环节中,仍较为薄弱。对于大部分免疫学检验项目,在质控品和标准品上,国内尚未做到有效统一,虽部分有供应,但项目不全,价格昂贵[7]。故多数试验室质量控制不达标,导致检验质量不稳定。目前,尚普遍存在试剂缺乏统一的现象,检验结果中的假阴性、假阳性较难杜绝,为质量管理及标准化检查带来了一定难度[8]。同时,专业的免疫学检验人员较少,缺乏高素质、高学历的带头人,同时也缺乏娴熟操作的技术人员[9]。此外,还存在研究内容与临床缺乏有效结合等,在疾病诊治中未发挥有效作用[10]。

6 发展建议

针对免疫检验的重要性,医院领导和检验科需重视免疫学检验专业的设置,设备引进、项目定位和人员配备,加强培训,建全室内质量控制[11],同时成立免疫检验学小组,就相关问题进行分析并制定解决方案,各级质量部分需加强参考品、质控品的管理,以提高检验效果,使临床免疫学作用落到实处[12]。

7 小结

综上,临床检验为临床免疫学的重要组成部分,各项技术的研发为临床检验学发展提供了机遇,有效缩短了检测时间,节约了样本用量,实现了疾病准确、快速、无创的诊断。同时也需正视存在的困难,对复杂的数据行合理和有效的应用,以减轻患者负担,控制成本。同时加强基础研究的合作与交流,让从业者加强各种技术的培养和学习,提高自身综合素质,以满足临床免疫检验的要求。

参考文献

[1] 王松华,罗识奇,周为民,等.28所医疗机构检验免疫学部分指标现场检测调查[J].临床检验杂志,2007,25(2):154.

[2] Beutler B,Casanova J L.New frontiers in immunology.Workshop on The Road Ahead:Future directions in fundamental and clinical immunology[J].EMBO(European Molecular Biology Organization),2005,6(7):620-623.

[3] 武建国.老年人抗病毒螺旋抗体测定的假阳性率偏高[J].临床检验杂志,2006,24(4):241-243.

[4] Hartmann M,Schrenk M,Dottinger A,et al.Expanding assay dynamics:a combined competitive and direct assay system for the quantification of proteins in multiplexed immunoassays[J].Clin Chen,2009,54(1):956-963.

[5] 周镇先,吴玉强,黄茂萍,等.国产抗HBs抗体试剂检测结果的评价[J].临床检验杂志,2007,25(1):70.

[6] Shoshan S H,Admon A.Novel technologies for cancer biomarker discovery:humoral proteomics[J].Cancer Biomark,2007,3(1):141-154.

[7] 叶应妩,王毓三,申子瑜.全国临床检验操作规程[M].第3版.南京:东南大学出版社,2006:559-712.

[8] 史俊敏,吴晓勇.临床检验质量管理的重要性[J].检验医学与临床,2011,12(8):2377-2378.

[9] 张伟民,宋超.落实质量考核与监督措施,促进独立实验室健康发展-对医学独立实验室管理模式的设想与探讨[J].浙江检验医学,2009,7(3):285-287.

[10] 师建国,田玉梅,郭芝芳,等.量子共振检测在精神分裂症诊断中的应用(摘要)[C].中国心理卫生协会残疾人心理卫生分会第八届学术交流会论文集,2010:288-289.

[11] 袁红,黄文芳,杨明清,等.对四川省二级及二级以下医疗机构临床实验室的检查及指导效果[J].现代预防医学,2009,26(18):126.