生物信息学论文范文

2023-03-03

生物信息学论文范文第1篇

[摘 要]计算机技术的发展在很大程度上促进了生物信息学的发展。本文基于生物信息学理论,对生物信息学中计算机技术的应用情况和存在问题等进行了深入的分析和探讨,同时还强调了在生物信息学研究中引入数据挖掘等计算机技术的必要性,为生物信息学的教学和科研工作提供支持。

[关键词]生物信息学;计算机科学;应用

doi:10.3969/j.issn.1673 - 0194.2017.20.092

随着人类基因计划的启动而兴起的学科就是生物信息学,它属于新兴的交叉学科。主要是以计算机为工具,研究DNA和其编码的大分子蛋白质,通过各种软件来分析、研究、整理、收集、储存蛋白质结构、序列和日益增长的DNA,可以更好地了解生命的遗传、起源和发育等问题。生物信息学在当前数据量呈几何级数增长的情况下,需要充分依赖计算机科学的发展。生物信息的获取、存储和处理需要应用大量的数据信息,这就对软件、算法和理论提出了新的挑战和要求。

1 生物信息学研究中计算机技术的应用现状分析

生物信息学和计算机科学及其应用间存在着很大的联系,分子生物学可以通过计算机系统获得高性能的计算平台。计算机系统可以为分子生物学提供可供操作的计算平台,同时还能够为其提供良好的网络应用环境和高带宽的分布式计算,分子生物学应用软件及工具的设计和开发与软件工程和算法研究有着直接的关系,生物学的检索和存储能通过数据库得到保证。此外,对DNA或者蛋白质分子可以通过图像处理技术和计算机图形学理论来进行三维建模,这也是很好的一个应用方向,因为如果仅仅是基因测序,测得的也就是基因中的核苷酸排列的一些线性的信息,还需要将其三维结构弄清楚,以便提供更多的功能信息给研究人员,因为不同的蛋白质分子,其功能也存在很大的差异。国外在这方面的研究发展较快,各种的生物信息部门也在日趋增多。当前,美国、欧洲和日本是蛋白质数据库和大多数核酸数据库的所在地,他们能共享数据库,进行数据交流和更新。其他的一些国家,比如法国、德国和澳大利亚等在资源共享的同时,也将自己的专业数据库建立起来,以便更好地进行开发和研究,这其中有很大一部分服务是面向全世界的。我国当前对生物信息学的研究已经取得了一定的成绩,甚至有的在国际上也占据了一席之地。但是,和国际水平相比,明显存在较大差距。

2 生物信息学研究面临的问题

2.1 专业人才匮乏

当前,对于专业人才的需求日益增加,但是全世界范围内的专业人才培训中心也只有几十个,同时这些培训中心自身还处于恶性循环中,很多经过培训的人才受到高薪诱惑加入了工业部门。因此,培训教育人员的数量日趋减少,甚至出现了断层的情况。对于生命科学工作者来说,分析蛋白质和核酸序列的常规策略是其必须掌握的一项基本技能,但是如果缺乏必要的计算机知识,生物信息学家就很难深入研究生物信息学。另外,随着计算机科学的不断发展,如何让其在生物信息学中更好地发挥出作用,成为了开发人员和计算机研究人员需要面临的难题。对于生物信息学来说,在其发展的过程中首先需要具备高素质的人才,一旦缺乏人才,它的发展势必会受到限制。

2.2 投资力度不足

生物信息学虽然已经得到了初步的发展,但是与之相配套的一些工具、设备和人才等不到位,出现这种情况的最主要原因就是没有充足的资金。很多科研机构虽然已经得到了部分资金投入,但是仍然抱怨投入的资金不到位,政府的资金投入力度不够大,纷纷要求政府加大资金投入。政府虽然加大了对生物信息学的资金投入,但是要想让生物信息学研究始终处于非常完备的状态,在短时间内是做不到的。

2.3 商业竞争激烈

生物信息学产生的社会效益和经济效益是非常巨大的,特别是将该项研究应用于农业食品、医疗卫生和生命科学中,所带来的影响将是非常深远的,因此具有不可估量的商业价值。国际上很多生物工程公司和药业公司都进军该领域,因此各个商业机构间存在着激烈的竞争,在之后的商业研发和应用方面还会出现更加激烈的市场竞争。

3 加强计算机技术在生物信息学研究中应用的对策

3.1 培养专业人才

对于生物信息学来说,它在发展中最需要的就是专业人才。因此,需要先将人才问题解决,这样才能将我国基因工程和人力资源的优势发挥出来,根据我国生物信息学当前的发展现状,制定出符合我国国情的长期战略规划。将和计算机科学发展相关的学科发展起来,可以联合各大院校将一些亟待解决的问题解决掉。在高校计算机专业中可以将生物信息学单独设立出来,或者直接设置和生物信息相关的专业,对相关课题进行研究,这样便于培养出专业的综合性人才。

3.2 加大资金的投入力度

国家可以将专门的行政组织机构设立起来,这样可以更好地研究生物信息学。根据当前的实际情况和我国的战略规划来提报和拨付相应的资金。将完整的激励措施制定出来,这样可以更好地将科研机构的积极性激发出来,确保能顺利实施研究。此外,政府相关部门还需要出台相关的政策,这样可以方便各方面的相互协调和配合。

3.3 提高企业的商业竞争力

在生物信息技术方面,我国企业的参与度还远远不够,因此对生物信息技术的发展造成了很大的影响,这也是生物信息技术缺乏动力的主要原因。我国要及时在这方面出台相應的政策和措施,让企业能积极参与其中并成为其中的重要组成部分。因为企业在这方面的成功做法和成功经验较多,人才也是非常专业的,可以将这些转化成发展的动力,以此来促进生物信息技术在实际生活中的应用。企业也可以据此在激烈的市场竞争中保持自身的优势地位。

4 结 语

在生物信息学的研究过程中,计算机是重要的手段和方法。对于生物信息学来说,它需要研究生命科学,所以,生物学是生物信息学的根本,计算机科学技术是其应用的基本工具。随着生物信息学的不断发展,生物学因为它而带来了巨大的思想和观念改变。这是一个由量变到质变的过程,生物信息学会因此得以不断地进步和发展。

主要参考文献

[1]何洪波,谭晓超,李斌,等.生物信息学对计算机科学发展的机遇与挑战[J].生物信息学,2005(1).

[2]郝柏林,张淑誉.生物信息学手册[M].上海:上海科学技术出版社,2002.

[3]张春霆.生物信息学的现状与展望[J].中国青年科技,2000(6).

[4]孙米.计算机科学与生物信息学教育的关系[J].陕西学前师范学院学报,2004(1).

[5]贺林.解码生命——人类基因组计划和后基因组计划[J].北京:科学出版社,2000.

生物信息学论文范文第2篇

摘要:以黄花蒿(Artemisia annua L.) 1-脱氧-D-木酮糖-5-磷酸还原异构酶基因(DXR)为研究对象,利用美国国家生物技术信息中心(NCBI)网站及生物信息学软件对碱基分布、氨基酸组成、亲疏水性及编码蛋白结构进行预测,用Clustal W进行多序列比对,用MGEA构建系统发育树,用STRING进行蛋白互作网络分析,研究黄花蒿DXR基因特征并预测分析DXR蛋白结构与功能。结果表明:黄花蒿DXR基因mRNA序列长度为1 419 bp,编码蛋白包含472个氨基酸,等电点为6.15;DXR蛋白为疏水性蛋白,无信号肽,无跨膜结构域。多序列比对及系统发育树分析表明,黄花蒿DXR蛋白与杭白菊DXR(BAE79548.1)的相似度最高,为98%,且处于同一分支,亲缘关系较近。蛋白结构分析显示,α-螺旋、无规则卷曲是黄花蒿DXR蛋白的主要结构元件。互作网络分析显示,黄花蒿DXR在2-甲基-D-赤藓糖醇-4-磷酸(2-C-methyl-D-erythritol-4-phosphate,MEP)代谢途径中,可与CMS、DXS、HDS等多个蛋白发生互作。黄花蒿DXR基因在进化过程中相对保守,获得的保守区序列信息为其他物种DXR基因的克隆奠定了基础,深入研究该蛋白酶的结构和功能特征,也为今后提高青蒿素的生物合成量提供理论支持。

关键词:黄花蒿;DXR基因;生物信息学;同源序列;多重序列比对;蛋白结构;蛋白互作网络;青蒿素;生物合成量

黄花蒿(Artemisia annua L.)为菊科蒿属的一年生草本植物,生态适应性非常广,在我国各地均有分布,已入药2 000多年,具有清热解毒的功效,为我国传统中草药之一。其主要有效成分青蒿素在抗疟,治中暑、荨麻疹和灭蚊等方面具有重要功效,是目前世界卫生组织推荐治疗疟疾的首选药物[1-2]。中国青蒿素产量占世界总产量的70%左右[3],由于野生资源的黄花蒿中青蒿素含量较低(0.01%~0.8%),致使青蒿素价格较高,很难满足医药需求[4]。近年来,利用环己烯酮[5]、青蒿酸[6-7]等物质化学合成青蒿素取得一定成果,但因青蒿酸的生产主要依赖黄花蒿叶片,青蒿素的全化学合成几乎不可能[8]。生物合成青蒿素仍是生产青蒿素的主要途径,培育黄花蒿则成为提高青蒿素产量的关键。通过对青蒿素生物合成中关键酶的研究,利用基因工程获得高产转基因黄花蒿植株是解决这一矛盾的有效途径。

青蒿素是含有过氧基团的倍半萜内酯,属于萜类化合物。绝大多数萜类化合物的合成前体是异戊烯基焦磷酸(IPP),植物体内IPP的生物合成主要存在2条不同的代谢途径:一是定位于细胞质中的甲羟戊酸(mevalonate,MVA)途径[9];另一条是定位于质体中的2-甲基-D-赤藓糖醇-4-磷酸(2-C-methyl-D-erythritol-4-phosphate,MEP)途径[10]。1-脱氧-D-木酮糖-5-磷酸还原异构酶(DXR)催化1-脱氧-D-葡萄糖-5-磷酸(DXP)产生异构并还原生产MEP,是MEP代谢途径中最重要的限速反应,也是细胞质体内类异戊二烯化合物代谢中的重要调控稳点[11]。DXR在植物类异戊二烯生物合成过程中发挥了重要作用。Mahmoud等发现,薄荷过量表达DXR,可促进叶片中薄荷油等单萜的合成,使薄荷精油量提高50%[12]。Carretero-Paulet等发现,在过量表达DXR的转基因拟南芥中,叶绿素、类胡萝卜素水平都显著提高[13]。Graham等通过对青蒿基因组测序并对青蒿素合成相关基因进行分析表明,DXR与青蒿素合成呈正相关[14]。

近年来,拟南芥、番茄、水稻、玉米、银杏、橡胶树及喜树等多种植物的DXR基因得到解析[15-16],但尚未有报道利用生物信息学的方法系统研究这些基因,制约了其他物种中该基因的克隆与功能验证。本试验利用生物信息学方法对黄花蒿DXR基因以及GenBank上已发表的其他植物DXR基因进行序列分析和功能预测,利用分子互作技术对黄花蒿DXR基因进行全面分析,旨在为提高黄花蒿青蒿素产量提供新思路,为其他植物DXR基因的克隆、功能验证提供理论和实践参考依据。

1 材料与方法

数据来源于美国国家生物技术信息中心(NCBI)核苷酸和蛋白质数据库中已登陆的黄花蒿DXR基因的核苷酸序列(GenBank登录号:AF182287.2)、氨基酸序列(GanBank登录号:AAD56391.2)[17]。

黄花蒿DXR序列分析:利用NCBI在线工具ORF-Finder翻译蛋白并进行开放阅读框(ORF)查找。利用ExPASy ProtParam预测分析编码蛋白的相对分子量、理论等电点、稳定性等理化性质[18]。用Target 1.1 Server在线软件分析编码蛋白的导肽[19]。用SignalP 4.1在线软件分析编码蛋白信号肽[20]。用TMHMM Server软件对编码蛋白的跨膜结构域进行预测分析[21]。用WOLF PSORT预测蛋白亚细胞定位信号[22]。用ProtScale分析编码蛋白的亲疏水性。用NetPhos 2.0 Server分析编码蛋白潜在的磷酸化位点[23]。利用NCBI BLAST筛选同源序列,用Bioedit软件进行多序列比对分析。利用MEGA 5.2 软件邻接算法N-J(Neihgbor-Joining)[24],选用JTT+I模型运算1 000次构建系统进化树,并利用Bootstraping自展法对其进行评估。

蛋白结构预测及互作网络分析:用NCBI CDD工具对蛋白保守区域进行预测分析;用ExPaSy-SOPMA软件分析编码蛋白二级结构;用SWISS-MODEL自动建模方式来筛选构建三维模型,用X射线衍射结构进行模型修饰;用Swiss-Pdb viewer构建拉氏构象图,对建模准确性进行评估;用STRIG 9.1(http://string.embl.de/)[25]进行蛋白质互作网络分析。

2 结果与分析

2.1 黄花蒿DXR基因分析和蛋白分析

2.1.1 黄花蒿DXR基因序列分析 NCBI上登录的黄花蒿DXR序列是从黄花蒿mRNA中克隆得到的全长CDS(coding sequence)序列。序列全长为1 419 bp,其中包含多个起始密码子(ATG)和1个终止密码子(TGA)。其中A有379个,T有415个,A+T含量较高,为55.95%;C有292个,G有333个,C+T含量较少,为44.05%。

2.1.2 黄花蒿DXR编码蛋白的氨基酸组成及其理化性质分析 通过ORF-Finder软件分析发现,黄花蒿DXR编码蛋白编码472个氨基酸。该预测蛋白原子总数为7 204个,分子式为C2 278H3 634N600O677S15,蛋白相对分子量为50.74 ku;理论半衰期为30 h;不稳定系数为33.53,小于40.0,说明该蛋白属于稳定性蛋白。此外,该蛋白脂肪系数为98.37,亲水性系数为0.020,理论等电点(PI)为6.15。由其氨基酸组分可知,丙氨酸Ala(A)、亮氨酸Leu(L)含量最高,为9.70%;半胱氨酸Cys(C)含量最低,为1.50%;带负电荷总残基数(Asp+Glu)为49个,带正电荷总残基数(Arg+Lys)为44个(图1)。

2.1.3 DXR蛋白导肽、信号肽及亚细胞定位预测分析 用TargetP 1.1 Server预测DXR导肽,结果显示,该序列mTP(定位于线粒体)值为0.030,cTP(定位于叶绿体)值为0.691,SP(信号肽)值为0.022,推测该序列不含有线粒体目标肽、分类途径信号肽,可能为叶绿体转运肽。SignalP 4.1预测显示,黄花蒿DXR蛋白为非分泌蛋白。用WOLF PSORT软件对该蛋白进行亚细胞定位发现,该蛋白最可能定位于细胞质上,可信度高达76%。

2.1.4 DXR蛋白亲/疏水性及磷酸化位点分析 利用ProtScale预测黄花蒿DXR蛋白的亲/疏水性,由图2可见:在黄花蒿DXR蛋白氨基酸中,第167~193位氨基酸区域具有很强的疏水性,在第171位氨基酸处达到最强疏水性峰值,为2.444;第32~44位氨基酸区域具有很强的亲水性,在第40位氨基酸处达到最强亲水性峰值,为-2.224。由于亲水性氨基酸的个数多于疏水性氨基酸,预测黄花蒿DXR蛋白为亲水性蛋白。

用NetPhos2.0 Server预测结黄花蒿DXR蛋白磷酸化位点发现,在DXR有17个丝氨酸(Ser,S)磷酸化位点、6个苏氨酸(Thr,T)磷酸化位点、3个酪氨酸(Tyr,Y)磷酸化位点。在整个氨基酸序列中,第7位氨基酸(S)、第40位氨基酸(S)的磷酸化预测值最高,为0.992,可能受蛋白磷酸化激酶磷酸化。

2.2 多序列比对和系统进化树分析

用NCBI BLAST筛选得到14条黄花蒿DXR同源序列(表1),应用Clustal W进行多重序列比对分析。图3结果发现,中间功能区域的氨基酸序列较为保守,两端区域的氨基酸序列差异较大,且N-端差异大于C-端差异。用MEGA5.2 软件N-J法构建系统进化树。由图4结果可知:16个物种的DXR氨基酸序列聚集成2大分支:黄花蒿、艾菊、杭白菊、甜叶菊聚为分支Ⅰ;千金子、蓖麻、毛果杨等聚为分支Ⅱ。由传统分类学可知,分支Ⅰ中的黄花蒿、艾菊、杭白菊、甜叶菊4个物种均属菊科,分支Ⅱ中的千金子、蓖麻、毛果杨等11个物种不属于菊科。这表明DXR是1种相对保守的蛋白,物种的进化速度与物种DXR蛋白的进化速度是一致的,DXR可以作为生物遗传分析、分子进化研究的重要因子。

2.3 DXR蛋白结构预测及互作网络分析

2.3.1 黄花蒿DXR蛋白保守区预测 利用NCBI CDD在线分析黄花蒿DXR蛋白保守区域。图5结果显示,DXR蛋白含有DXP_reductoisom、DXP_redisom_C、DXPR_C 3个保守结构区域,预测该蛋白属于SDR 超家族、DXP_redisom_C超家族及DXPR_C超家族。

2.3.2 黄花蒿DXR蛋白结构分析 用ExPaSy-SOPMA软件分析DXR蛋白二级结构。由图6可知,该蛋白由37.08%无规则卷曲、28.81% α-螺旋、23.94%延伸链、10.17%β-转角组成,无规则卷曲、α-螺旋是其主要构件,延伸链贯穿于整个蛋白质中。

利用Swiss-MODEL根据同源蛋白构建黄花蒿DXR蛋白的三级结构(图7-A),该蛋白包含28个α-螺旋、25个β-折叠和大量无规则卷曲。通过Swiss-Pdb Wiewer构建拉氏构象图(图7-B)对预测的DXR三维模型进行评估发现,预测模型的二面角位于黄色核心区域,其空间结构稳定,该蛋白利用Swiss-MODEL同源建模得到的三维结构的可信度极高。用VAST Search在线软件预测DXR蛋白的功能位点(图7-C),预测DXR蛋白两端的α-螺旋、β-折叠结合部位为主要的功能位点。

2.3.3 黄花蒿DXR蛋白互作网络分析 根据黄花蒿DXR蛋白质三维结构模型,利用STRING交互式数据库进行蛋白质互作网络分析。结果表明,DXR在催化DXP产生异构并还原生产MEP代谢过程中与多个蛋白发生互作,主要包括:CMS、DXS、eugene3.09030001、gw1.III.2599.1、gw1.171.35.1、gw1.VI.2744.1、estExt_Genewise1_v1.C_LG_XVIII1471、MCS、gw1.I.8813.1、HDS等(图8)。

3 结论与讨论

次生代谢产物是地球上最丰富的有机化合物,由于其功能特殊、用途广泛,现已成为国际上研究的热点、焦点。目前已经有多种萜类化合物被分离提取,应用到医学、农业、工业等各领域。青蒿素作为黄花蒿的1萜类次生代谢产物,因其具有抗疟效率高、速度快、毒性低等优点,已经成为全球抗疟的主要药物。2011年,因对青蒿素的抗疟研究作出贡献,我国的女药学家屠呦呦获得了拉斯克奖[26]。青蒿素的获取主要依赖于黄花蒿的生物合成,全面了解青蒿素生物合成途径关键酶的功能,通过基因工程等手段调控其在植物体内表达,获得大量有用的青蒿素,可为提高青蒿素产量开辟新的思路。

DXR在萜类物质MEP合成途径中具有特殊作用,可将DXP异构化并还原生产MEP。黄花蒿DXR作为青蒿素生物合成的重要限速酶而倍受关注。生物信息学是当今生命科学和自然科学的核心领域,是后基因组时代的重要研究方法。本研究根据NCBI上登录的黄花蒿DXR基因序列,应用生物信息学技术对该基因及编码蛋白进行比对、分析、建模等研究,应用STRING对该基因编码蛋白进行互作网络分析。基因序列分析发现,该基因中A+T碱基含量较高,为55.95%,高于50%,且错配率较低,核苷酸稳定。编码蛋白氨基酸序列分析发现,DXR蛋白不稳定系数为33.53,属于不稳定性蛋白。多序列比对及系统发育树分析发现,黄花蒿DXR与杭白菊DXR同源性最高,为98%,亲缘关系最近。DXR在进化上高度保守,可作为其他物种生物遗传分析和分子进化研究的重要因子。蛋白结构分析显示,无规则卷曲、α-螺旋是其主要结构元件。蛋白互作网络分析表明,黄花蒿DXR可能与1-脱氧木桶糖-5-磷酸合成酶(DXS)互作。本研究结果为深入探讨黄花蒿DXR蛋白功能和萜类生物合成的分子机制提供重要基础信息,为提高黄花蒿青蒿素的生物合成量提供了理论支持,也为其他植物萜类等次生代谢产物的研究提供了一定依据。

参考文献:

[1]Klayman D L.Qinghaosu (artemisinin):an antimalarial drug from China[J]. Science,1985,228(473):1049-1055.

[2]World Health Organization.World malaria report 2010[R]. Geneva:WHO,2010.

[3]White N J.Qinghaosu (artemisinin):the price of success[J].Science,2008,320(5874):330-334.

[4]Liu B,Wang H,Du Z,et al. Metabolic engineering of artemisinin biosynthesis in Artemisia annua L.[J]. Plant Cell Reports,2011,30(5):689-694.

[5]Zhu C,Cook S P.A concise synthesis of (+)-artemisinin[J]. Journal of the American Chemical Society,2012,134(33):13577-13579.

[6]Lévesque F,Seeberger P H.Continuous-flow synthesis of the anti-malaria drug artemisinin[J]. Angewandte Chemie,2012,51(7):1706-1709.

[7]Hao H D,Li Y,Han W B,et al. A Hydrogen peroxide based access to qinghaosu (artemisinin)[J]. Organic Letters,2011,13(16):4212-4215.

[8]Yadav J S,Babu R S,Sabitha G.Stereoselective total synthesis of (+)-artemisinin[J]. Tetrahedron Letters,2003,44(2):387-389.

[9]Newman J D,Chappell J.Isoprenoid biosynthesis in plants:Carbon partitioning within the cytoplasmic pathway[J]. Critical Reviews in Biochemistry and Molecular Biology,1999,34(2):95-106.

[10]马 靓,丁 鹏,杨广笑,等. 植物类萜生物合成途径及关键酶的研究进展[J]. 生物技术通报,2006(Z1):22-30.

[11]Takahashi S,Kuzuyama T,Watanabe H,et al. A 1-deoxy-D-xylulose 5-phosphate reductoisomerase catalyzing the formation of 2-C-methyl-D-erythritol 4-phosphate in an alternative nonmevalonate pathway for terpenoid biosynthesis[J]. Proceedings of the National Academy of Sciences of the United States ofAmerica,1998,95(17):9879-9884.

[12]Mahmoud S S,Croteau R B.Metabolic engineering of essential oil yield and composition in mint by altering expression of deoxyxylulose phosphate reductoisomerase and menthofuran synthase[J]. Proceedings of the National Academy of Sciences of the United States of America,2001,98(15):8915-8920.

[13]Carretero-Paulet L,Cairó A,Botella-Pavía P,et al. Enhanced flux through the methylerythritol 4-phosphate pathway in Arabidopsis plants overexpressing deoxyxylulose 5-phosphate reductoisomerase[J]. Plant Molecular Biology,2006,62(4/5):683-695.

[14]Graham I A,Besser K,Blumer S,et al. The genetic map of Artemisia annua L.identifies loci affecting yield of the antimalarial drugartemisinin[J]. Science,2010,327(5963):328-331.

[15]Seetang-Nun Y,Sharkey T D,Suvachittanont W.Molecular cloning and characterization of two cDNAs encoding 1-deoxy-D-xylulose 5-phosphate reductoisomerase from Hevea brasiliensis[J]. Journal of Plant Physiology,2008,165(9):991-1002.

[16]Yao H,Gong Y,Zuo K,et al. Molecular cloning,expression profiling and functional analysis of a DXR gene encoding 1-deoxy-D-xylulose 5-phosphate reductoisomerase from Camptotheca acuminata[J]. Journal of Plant Physiology,2008,165(2):203-213.

[17]Souret F F,Weathers P J,Wobbe K K.The mevalonate-independent pathway is expressed in transformed roots of Artemisia annua and regulated by light and culture age[J]. In vitro Cellular & Developmental Biology-Plant,2002,38(6):581-588.

[18]Wilkins M R,Gasteiger E,Bairoch A,et al. Protein identification and analysis tools in the ExPASy server[J]. Methods in Molecular Biology,1999,112(112):531-552.

[19]Emanuelsson O,Brunak S,Von Heijne G,et al. Locating proteins in the cell using TargetP,SignalP and related tools[J]. NatureProtocols,2007,2(4):953-971.

[20]Petersen T N,Brunak S,Von Heijne G,et al. SignalP 4.0:discriminating signal peptides from transmembrane regions[J]. Nature Methods,2011,8(10):785-786.

[21]Mller S,Croning M D,Apweiler R.Evaluation of methods for the prediction of membrane spanning regions[J]. Bioinformatics,2001,17(7):646-653.

[22]Horton P,Park K J,Obayashi T,et al. WoLF PSORT:protein localization predictor[J]. Nucleic Acids Research,2007,35(Web Server issue):W585-W587.

[23]Blom N,Gammeltoft S,Brunak S.Sequence and structure-based prediction of eukaryotic protein phosphorylation sites[J]. Journal of Molecular Biology,1999,294(5):1351-1362.

[24]Gascuel O,Steel M.Neighbor-Joining revealed[J]. MolecularBiology & Evolution,2006,23(11):1997-2000.

[25]Franceschini A,Szklarczyk D,Frankild S,et al. STRING v9.1:protein-protein interaction networks,with increased coverage andintegration[J]. Nucleic Acids Research,2013,41:D808-D815.

[26]Miller L H,Su X.Artemisinin:discovery from the Chinese herbal garden[J]. Cell,2011,146(6):855-858.

生物信息学论文范文第3篇

浅谈生物信息学在生物学研究中的应用

生物信息学(Bioinformatics)是一门新兴的、正在迅速发展的交叉学科,目前国内外对生物信息学的定义众说纷纭,没有形成统一认识。 概括来说,现代生物信息学是以核酸和蛋白质等生物大分子数据库及其相关的图书、文献、资料为主要对象,以数学、信息学、计算机科学为主要手段,对浩如烟海的原始数据和原始资料进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获得基因的编码、凋控、遗传、突变等知识;研究核酸和蛋白质等生物大分子的结构、功能及其相互关系;研究它们在生物体内的物质代谢、能量转移、信息传导等生命活动中的作用机制。

生物信息在生物学研究上的应用主要包括在基因组学研究上的应用和在蛋白质组学研究中的应用。

1.在基因组学研究中的应用

基因组(genome)表示一个生物体所有的遗传信息的总和。一个生物体基因所包含的信息决定了该生物体的生长、发育、繁殖和消亡等所有生命现象。有关基因组的研究称为基因组学(Genomics),基因组学根据研究重点的不同分为序列基因组学(Sequence genomics)、结构基因组学(Structural genomics)、功能基因组学(Functional genomics)与比较基因组学(Comparative genomics)。结构基因组学的研究:结构基因组学(Structural genomics)是基于基因组学的一个重要组成部分和研究领域,它是一门通过基因作图、核苷酸序列分析确定基因组成、基因定位的科学口 。生物信息学在结构基因组学中的应用主要在于:基因组作图、核苷酸序列信息分析、基因定位、新基因的发现和鉴定等方面。比较基因组学的研究:借助生物信息学的手段对不同生物基因组的比较、分析,可以进行生物进化等方面的研究。

功能基因组学的研究:功能基因组学(Functional genomics)是指在全基因组序列测定的基础上,从整体水平研究基因及其产物在不同时空、条件下的结构与功能关系及活动规律的学科。功能基因组的研究是后基因组时代的关键点,它将借助生物信息学的技术平台,利用先进的基因表达技术及庞大的生物功能检测体系,从浩瀚无垠的基因库筛选并确知某一特定基因的功能,并通过比较分析基因及其表达的状态,确定出基因的功能内涵,揭示生命奥秘,甚至开发出基因产品。

2.在蛋白质组学的研究中的应用

在20世纪中后期,随着DNA双螺旋结构的提出和蛋白质空间结构的解析,生生命科学的研究进入了分子生物学时代,而遗传信息载体DNA和生命功能的体现者蛋白质的研究,成为了其主要内容。90年代初期启动的庞大的人类基因组计划,已经取得巨大的成在20世纪中后期,随着DNA双螺旋结构的提出和蛋白质

空间结构的解析,生生命科学的研就,人类基因组序列草图绘制完成后,生命科学研究跨入了后基因组时代。然而,人们清醒地识到基因仅是遗传信息的载体,而生命活动的执行者是基因的表达产物—蛋白质,它是生命现象复杂性和多变性的直接体现者。

蛋白质组一词是澳大利亚学者马克威尔金斯在1994年最先提出来的,它是指基因组表达的所有相应的蛋白质,也可以说是指细胞或组织或机体全部蛋白质的存在及其活动方式。蛋白质组学是从整体的蛋白质水平上,在一个更加深入、更加贴近生命本质的层次上去探讨和发现生命活动的规律和重要生理、病理现象的本质等。蛋白质组学的研究对揭示生命活动规律,探讨重大疾病机制,疾病诊断和防治、新药的开发提供重要的理论基础。

生物信息学在蛋白质组学中的蛋白质数据库的应用

2.1蛋白质组数据库

蛋白质组数据库是蛋白质组学研究的主要内容之一。通过构建不同环境条件下组织或细胞全部蛋白质的数据库来研究蛋白质表达的差异情况。与其他数据库相比, 目前大部分蛋白质组数据库都有以下几个方面的特点: (1)由于蛋白质相关数据的种类繁多,蛋白质组数据库的种类也多种多样,如双向电泳数据库、基于蛋白序列的数据库、蛋白质一级或高级结构数据库、蛋白质相互作用数据库等等;(2)新速度快,网络上的蛋白质组数据库的数据几乎每天都在更新;(3)网共享程度高, 越来越多的数据库资源与互联网相互配合,使得蛋白质相关数据的利用率空前的提高。蛋白质组数据库的主要内容即集中在基于双向电泳结果的数据库和基于蛋白质序列信息的数据库。

2.1.1基于双向电泳图谱的数据库

双向电泳技术是蛋白质组学研究中最重要的实验技术之一,所以基于双向电泳图片的数据库也成了蛋白质组学研究中主要内容。

2.1.2 基于蛋白质序列信息的数据库

基于蛋白质序列信息的数据库是生物信息学数据库中最基本的数据库,这些数据库以氨基酸残基顺序为基本内容,并附有注释信息(计算机的序列分析结果和生物学家查阅文献的结果)。基于蛋白质序列的数据库很多,主要有蛋白质信息资源数据库(PIR)、SWISS3D和 TrEMBL等等。

2.1.3 其他蛋白质组数据库

蛋白质生物信息学包含很多方面的内容:如蛋白质大分子的结构、相互作用等等,所以,除了上述的一些数据库之外,还有很多关于构象、相互作用等方面的数据库,是基于质谱应用的数据库,属于混合数据库。将生物信息学的实验思路引入蛋白质组学的实验方案后,实验人员可以通过互联网上的信息设计实验方

案,避免了很多重复性的劳动,少走很多弯路,为蛋白质组学的发展提供了可靠的信息资源。值得一提的是,上文提到的大多数数据库都能实现数据接收、在线查询和空间结构的可是化浏览等多种功能。而且,几乎所有这些数据库都是免费的,都可以免费下载或提供免费服务,使得蛋白质组学可以在生物信息学的辅助之下快速发展。

2.2生物信息学与蛋白质分析

在蛋白质组分析过程中,生物信息学的作用不仅仅体现在数据库的查阅和资料的整合中,生物信息学软件在蛋白质组研究领域的作用根式至关重要的。蛋白质分析软件应用主要集中在结合蛋白质组研究中的分离技术和坚定技术识别蛋白质(如2-DE)图像分析、Edman降解的序列组合、质谱数据的综合分析等),对有价值的未知蛋白质进行分析和预测(包括序列分析、结构预测、结构域、电点等性质的检测等)、针对蛋白质的分析预测方法应用的工具有4个方面。

2.2.1 蛋白质一级结构分析

根据20中氨基酸的理化性质可以分析电泳等实验中的未知蛋白质,同样也可以分析已知蛋白质的物化性质。设计PROPSEARCH的目的是为了通过排比方法查询一个新的蛋白质序列失败时,查找公认的蛋白质家族而设计的。PROPSEARCH可以通过氨基酸组分来查询,同时也可以通过其他的特性来进行查询,如从序列中计算所得的分子量、 挑选的二肽组分的含量等。

2.2.2 蛋白质的物理性质预测

从蛋白质序列出发,预测蛋白质的许多物理性质,包括等电点、分子量、酶切特性、疏水性、电荷分布等。

2.2.3蛋白质二级结构预测

二级结构是指α螺旋和β折叠等规则的蛋白质局部结构元件。蛋白质的二级结构预测的基本依据是每一段相邻的氨基酸残基具有形成一定二级结构的倾向。因此,进行二级结构预测需要通过统计和分析发现这些倾向或者规律。蛋白质二级结构预测的方法有3种。一是由已知结构统计各种氨基酸残基形成二级结构 的构象趋势,其中最常用的是Chou和Fasman 法;二是基于氨基酸的物理化学性质,包括堆积性、疏水性、电荷性、氢键形成能力等;三是通过序列比对,由已知三维结构的同源蛋白推断未知蛋白的二级结构。各种方法预测的准确率随蛋白质类型的不同而变化。一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差。

2.2.4蛋白质的三维结构

蛋白质三维结构是预测时最复杂和最困难的预测技术。序列差异较大的蛋白质序列也可能折叠成类似的三维构象。由于蛋白质的折叠过程并不十分清晰,从理论上解决蛋白质折叠的问题还有待进一步的科学发展,但也有了一些有一定作

用的三维结构预测方法。即与已知结构的序列比较,同源模建,threading算法和 折叠识别方法。常见的预测算法有:SWISS-MODEL (自动蛋白质同源模建服务器)、CPHmodels等。

2.3 生物信息学与蛋白质功能

生物信息学发展到今天不仅可以对蛋白质组数据进行分析和预测,而且可以对已知或者未知的基因产物进行功能上全面的分析和预测。

生物信息学最常用的分析方法是模式识别。主要是利用存在于蛋白质序列结构中的某些特殊的特征模体来识别相关蛋白质性质。换而言之,就是从新的蛋白序列中发现标志性的序列或者结构,以此建立模式,然后在已经建立好的已知蛋白质数据库中,搜集于此相似的模式,来确定未知蛋白质的归属,从而预测它的功能。 许多基因是在特定时期和条件下被激活,才能表达出来,在正常人工模拟的环境下根本无法表达。类似于这样的恩未知蛋白质也需要通过生物信息学的方法计算分析预测,以获得它的功能信息。

生物信息学论文范文第4篇

1 以应用为核心的教学目的与内容设置

对于绝大多数非专业的研究生来说, 生物信息学更多的是一种辅助的工具。这些研究生并不需要深入地学习程序设计等信息学的技术, 不需要清晰地了解算法或软件的数学细节, 更多的应该是培养应用生物信息学原理和方法的能力。这些能力包括熟悉常用的数据库, 能够应用检索工具查找序列等相关的数据信息, 并利用BLAST等网络工具对所获得的序列数据进行分析, 预测蛋白序列所包含的结构域、修饰位点以及三维结构等, 以及同源序列的进化关系分析等。除此之外, 基因表达数据库、蛋白组学数据库的检索以及生物学文献查询、引物设计等常用生物学软件的应用等也应该包括在非专业研究生的生物信息学课程设置中。

为了适应这一教学目标, 对于非专业的研究生来说, 生物信息学的教学应该以应用为核心, 注重对实际应用能力的培养。北京大学生命科学学院开设了一门广受研究生好评的生物信息学课程“Applied Bioinformatics Basics”, 提出了“不要期望成为一个生物信息学专家”, 强调通过应该生物信息学工具辅助实验室的研究工作“Half day on the web, saves you half m on th i n t he l ab” (ht tp://ab c.c bi.p ku ed u.c n/) , 在这方面做出了卓有成效的探索。

需要注意的是, 一些基础生物信息学的原理与背景知识对于理解和正确应用生物信息学工具必需的, 如BLAST参数的正确选择的基础需要基于对PAM和BLOSUM打分矩阵的理解[3]。在课程教学中也应该注重这些基础知识和基本理论的讲授, 增强研究生对生物信息学基本原理的理解, 促进生物信息学思维方法的形成, 培养灵活运用生物信息学相关工具的能力。

2 应用现代教学技术, 培养实际应用能力

由于生物信息学对于计算机和网络工具的高度依赖, 研究生生物信息学的教学方法也应该与教学内容相一致, 应充分利用现代教育技术, 除了采用多媒体教学以外, 还可通过网络教学等多种教学方式。同时针对研究生的特点, 增强在教师与研究生之间的互动, 注意引导学生将课程的学习与所涉及的研究工作相结合, 激发研究生的学习兴趣。

同时应该注重实践教学, 实践教学不仅能够增强研究生对理论知识的理解, 更重要的是培养学生析问题、解决实际问题的能力。在实践教学环节, 每次课堂教学后布置相应的应用练习, 促进研究生实际动手能力的提高。通过组织学生分组进行综合的应用型实验, 引导学生通过集体智慧综合多种生物信息学工具, 分析和解决相应的科学问题, 培养学生的创造性思维。在课程考试的阶段, 可以采用综合性的考试设计, 如要求研究生预测一个未知功能基因的功能、进化、结构等各种信息, 考察学生对各种生物信息学工具和软件的综合应用能力, 以及分析问题、解决问题的生物信息学的思维方式[4]。

3 关注学科前沿, 注意知识更新

作为一门新兴的学科, 生物信息学的发展非常迅速, 新的理论、算法和应用程序不断涌现。在研究生生物信息学教学中, 应该不拘泥于现有的生物信息学教材, 及时纳入最新的研究成果, 将相关研究领域的一些新的研究方法、网络资源以及工具软件介绍给研究生。例如, 在讲授多序列比对时, 不仅要介绍经典的ClustalW, 同时也介绍MUSCLE等一些新的算法和研究工具[5]。及时更新研究生的知识体系, 培养研究生关注相关学科前沿的意识, 拓展研究生的学术视野。

摘要:生物信息学作为新兴的交叉学科, 已经成为生物学研究的强有力的辅助工具之一。本文针对目前非专业研究生生物学信息学教学实践中的一些问题, 提出在教学目的、教学内容、教学方法方面的思考, 希望能够有助于推动非专业研究生生物信息学课程教学的开展。

关键词:生物信息学,教学内容,教学方法

参考文献

[1] 乔纳森佩夫斯纳[著], 孙之荣, 等[译].生物信息学学与功能基因组学[M].化学工业出版社, 2006.

[2] 戴凌燕, 姜述君, 高亚梅.《生物信息学》课程教学方法探索与实践[J].生物信息学, 2009, 7 (4) :311~313.

[3] David W M.Bioinformatics:sequence and genome analysis影印本[M].科学出版社, 2002.

[4] 石生林, 韩艳君, 刘彦群, 等.非专业研究生生物信息学课程教学中存在的问题及对策[J].生物信息学, 2009, 7 (2) :125~127.

生物信息学论文范文第5篇

1 精选生物信息学计算程序教学内容培养学生实践能力

随着生物信息学研究的飞速发展, 我们迫切需要开源、可重复利用和面向对象的程序包和软件来完成数据分析的任务[1]。虽然现有一些软件可供科研人员使用, 但是在无法找到现成的工具完成你所需的任务而你又无法找到别人帮你写程序时, 需要我们自己编写程序。即使你主要依赖现有的程序和工具, 自己花时间编写一些小程序也会起到非常重要的作用, 如可通过编写能运行其他的程序的小程序达到节省时间的目的。在众多的程序设计语言中, PERL程序不仅其本身的数据结构非常适合处理生物信息学数据, 而且它包含的面向对象的程序设计方法和面向生命科学的BIOPERL模块都是从事生物信息学研究的强有力的工具, 是目前针对生物信息学中的各种问题进行软件开发的主流程序设计语言, 因此被我们选择为教学语言。

在教学过程中, 我们通过一些精心设计的教学案例以信息科学的视角介绍生命科学知识, 使医学专业的学生能以一种全新的方式来理解以前曾经学过的生物学知识, 从整体观, 系统观和信息论的角度来理解生命科学。如通过案例“DNA突变”一方面加深了学生基因突变原理的理解;另一方面使学生掌握了程序设计中函数的调用, 数组的使用和随机数的产生方法, 学会了用计算机来模拟生物进化的过程;通过案例“DNA转录为蛋白质”, 一方面使学生复习了基本的遗传密码和实际转录过程另一方面使学生掌握了PERL语言中哈希表的具体使用方法, 加深对语法知识的理解, 起到了事半功倍的效果。从另一个角度来看, 这种以程序设计为主线, 以语言知识为辅线的教学模式更加注重实践, 可以逐步提高学生的程序设计能力, 避免了传统程序设计教学所造成的学生对计算机语言的基本语法知识非常熟悉但就是不会编写程序的弊端。为了使学生在提高程序设计能力的同时更好的掌握计算机语言的语法知识, 我们还针对同一生命科学问题设计了几种不同的实现算法, 如针对读取文件中的DNA和蛋白质序列这个任务设计了4个不同的程序, 使学生不仅能掌握PERL中对文件操作的语句, 而且提高了对数组, 循环等不同数据结构的操控能力;又如针对统计DNA序列中核苷酸出现频率设计了3种不同的程序, 加深了学生对数组, 字符串, 正则表达式等PERL语言基本语法的理解。

2 设计综合性实验教学培养学生的实践能力

实验是生物信息学程序设计教学中的重要环节, 为了培养学生的自主学习和创新能力, 我们在实验课程中改变以往传统的以授课为基础的学习 (Lecture based learning, LBL) 教学模式, 引入以问题为基础的学习 (Problem-based learning, PBL) 的教学模式[2]。程序设计不同与其他学科, 并不是所学内容的简单套用, 常常需要针对当前的具体问题进行具体分析, 在所掌握语言知识的基础上构建出解决当前问题的合理方案。在实验课中, 我们对PERL语言的主要语法进行简单介绍后提出具体的应用问题让学生围绕该问题进行学习, 最后自己解决该问题。我们的综合性实验的设计就一方面尽可能地联系生命科学理论一方面着重突出生物信息学临床应用的最新知识及进展, 从而建构优秀PBL问题。学生可能开始对这种以问题为中心的教学模式不太适应, 但由于确定了实验目标, 学习过程就变为了主动地向教师提问的过程教师由讲授者变为了辅导答疑者, 学生也通过独自思考掌握了编写程序的能力和所学语言的语法知识。我校实验室所具有的高档微机及通过校园网连接的Internet网络环境为教学改革提供了良好的保障。

3 开展双语教学提高学生英语应用能力

为了保持学科内容的领先, 促进学科双语教学的发展, 我们参考国外相关教材自编了英文教材“Learning Bioinformatics with Perl”, 把全部教学和实验的内容浓缩在书中, 其目的就在于传授生物信息学专业知识的同时, 帮助学生提高英文听、说、读、写等能力。在教学实践过程中, 我们采用循序渐进的方法。采用自编的配套英文课件进行教学, 并对重点新名词和基本语法点给予中文讲解[3]。如讲解重要概念“motif (基序) ”、“open reading frames (开放阅读框) ”等。在学生逐步适应了双语的课堂教学模式后, 再根据学生英语水平的提高而适度提高英语讲授的比重。如在讲解如何从数据库中下载获取目标序列并进行处理时, 可以通过Internet网页一边操作演示一边即时讲解, 从而帮助学生直观、形象的理解双语教学内容。

总之, 通过几年以来在以上几个方面的教学改革的尝试, 我们发现学生学习生物信息学的积极性有很大提高, 大家对我们的改革持赞同态度并给予了很大的支持, 选修人数逐年上升。《生物信息学》选修课就于2007年被选为天津医科大学首批优秀选修课程。笔者希望通过本文的论述, 能给医学院校的生物信息学教学改革提供一些参考。

摘要:生物信息学作为一门新兴的交叉学科, 涉及到生命科学、数学、物理学、计算机科学等诸多学科, 处于医学研究发展的前沿。本文基于与生物信息学相关的计算机程序设计教学过程的各个环节, 从教学内容、综合性实验的设计、双语教学三个方面进行了教学改革, 使生物信息学计算机程序教学与医学应用实践相结合。

关键词:生物信息学,计算程序设计,综合性实验,双语教学,医学应用

参考文献

[1] 张帆, 李霞, 宫滨生.面向医科院校生物信息学专业的Java教学实践[J].Com-puter Education, 2009, 15:150~151.

[2] 牛永东.医学生物信息学教学模式的初步探讨[J].医学理论与实践, 2006, 1:112~113.

上一篇:生物化学论文下一篇:生物制药论文