生物信息学论文

发布时间:2020-07-13 来源: 思想汇报 点击:

  生物信息 学论文 嗜酸氧化亚铁硫杆菌 6 M16 家族金属肽酶 序列分析

  学院

  资源生物学院

 任课老师

  刘元东

 班级 生物技术 1201 班

  学号

  0306120227

 学生姓名

 解昊明

  摘要 :

 现代生物信息学是应用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读,以帮助了解生物学和遗传学信息的科学,其研究内容主要有基因组信息学、蛋白质的结构模拟以及药物设计。本文是在生物信息学方法的基础上,从已公布的AcidithiobacillusferrooxidansATCC23270 全基因组序列中挑选出肽酶的蛋白质序列,以所公布的序列及注释信息为基础,通过查询、搜索和使用生物信息学相关的数据库、服务器及软件工具等,完成对该基因的背景信息了解、同源序列比对、系统发生分析、二级结构预测、信号肽分析、跨膜区分析、蛋白质同源分子结构信

 息了解等任务。通过对该基因的序列分析归纳总结了生物信息学网站的使用方法和开展一般生物信息学探究的基本步骤。

  关键词 :

 生物信息;嗜酸氧化亚铁硫杆菌;M16 家族;肽酶;序列分析;序列比对;进化树;二级结构预测;信号肽分析;跨膜区分析

  一、 目标序列的获取 与背景

 1. 目标 序列的下载

 打开网址:

 找到序列:

 MDRYGPLLLFPPDMTRAVEPLCTTLDNGVTVISERLPGRRSVAL SLTVGNGSRDQAPDENGFAHLLEHMLFKGSTERDGDALNAAMESLGGTINAFTDRESTVFHGTVLAEDAADAFTLLAELLTKPRFDHADLRLEKRVVAQEAAMAAEDVEDWAQERALAEIWGPHPLAWPVLGNAQCIRSASRKRLQAYHQRILAESPLIVTAVGEVEHGVLCAWAEAAFGGPHGGARTAVPAPRFHGGQKRLRRAQAQQAHLIWMAPGCSVAAEDYLAHVVANAILGGGTASYLFRELREKRGLAYQVFSHLDPLRDCGEWTLYAATPGAQHVQAVAAMAEVLATLLEHGPTAADMIWAKRSLRIQLLLGQEDAEIRMSRLTRQWLYLGRLVPAEESL

 RTLAAVDADAVLRVLRKAWTERFELICLPARR 2. 目标序列的背景信息

 打开网址.nlm.nih.gov/,输入“peptidases”查询相关数据库。

 从 PubMed 数据库中查找了解该序列相关研究背景

 结果如下:

 肽酶 是一种能够水解肽链的酶。

 他们是所有生物存活所必需的一种酶,而且在所有蛋白质的编码中,编码肽酶的基因占了2% 。

 在对 500 个人的肽酶的调查中发现,有 14%的的肽酶可以作为药物的靶点肽酶在许多生物过程中扮演重要的角色,包括消化食物蛋白、胞内蛋白循环、凝血级联系统、抗原提呈作用及活化各种蛋白质,包括酶、肽类激素及神经递质等。

 金属肽酶

 活性依赖一种或多种金属离子,催化肽类和蛋白质中肽键水解的一类蛋白酶[1] 二、 序列分析

 1 1、 、 同源序列比对

 序列比对的基本思想是,基于生物学中序列决定结构,结构决定功能的普遍规律,将核酸序列和蛋白质一级结构上的序列都看成由基本字符组成的字符串,检测序列之间的相似性,发现生物序列中的功能、结构和进化的信息。序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及序列重组等遗传变异过程分别演化而来。

 序列相似和序列同源是不同的概念,序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。

 如果两个序列有显着的保守性,要确定二者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息的支持。通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具有更大的保守性,因此粗略的说,如果序列之间的相似性超过30% ,它们就很可能是同源的。

 利用 BLAST 工具[2]进行同源序列比对,输入网址:

 点击 BLAST,得到序列比对结果:

 (1)a.目标序列的简单信息:名称、描述、分子类型、序列长度等。其中分子类型为氨基酸,序列长度为 424. b.所比对数据库的名称、描述和所用程序。

 (2)GraphicSummary——blast 结果图形显示 a.保守域:显示输入序列的保守域片段等信息,包括特殊片段、非特殊片段、超家族、多结构域。

 b.Distributionof100BlastHitsontheQuerySequence 显示 hits 在输入序列上的分布

  界面包括消息框(显示 hits 的信息)、相似度颜色图,代表 hits 的得分区间(黑、蓝、绿、粉红、红,相似度由低到高)、输入序列的坐标、比对序列(每一条线段代表一条 hit,点击线段,会链接到 hit 的详细信息描述)。

 c.Describtion 显示比对序列的相关信息,包括名称、得分、输入序列覆盖值、E 评估值、相似度。得分越高、Evalue 越低、相似度越高,相似性的程度就越高。

 d.Alignment

 比对序列的名称得分等信息,以及比对序列的具体显示,可清楚的了解到哪些序列比对上,哪些序列是不一样的,同时还要注意序列的位置。

 2 2、 、 多重序列比对 ( MSA )

 是对三个以上的生物学序列(biologicalsequence),如蛋白质序列、DNA 序列或 RNA 序列所作的序列比对。一般来说,是输入一组假定拥有演化关系的序列。从 MSA 的结果可推导出序列的同源性,而种系发生关系也可引导出这些序列共同的演化始祖。

 MSA 常用来研究序列的保守性(conservation),或是蛋白质结构域的三级结构与二级结构,甚至是个别的氨基酸或核苷酸。

 输入网址[3]:

  输入的六个序列,clustalx 快速的进行序列两两对比,计算序列间的距离,获得一个距离矩阵,邻接法构建一个引导树,根据引导树,渐进比对多个序列。

 结果如图,不同的残基具有不同的颜色,可以清晰的看出各条序列之间残基种类的异同,根据残基异同对序列打分,可判断出序列的相似性和同源性。在序列数据库中,往往将各个序列按照同源关系进行分类,形成一系列的家族。

  3 3、 、 系统发生分析

 系统发生分析常用于进化研究,通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。

 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(speciestree)、基因树等等一些相同或含义略有差异的名称. 进入网址[4] :

 每一条线段都有一定的长度,两条序列之间的线段长度之和便为两个序列之间的距离,由此可判断出序列之间的亲疏关系。

 4 4、 、 二级结构预测

 蛋白质二级结构(secondarystructureofprotein)指它的多肽链中有规则重复的构象,限于主链原子的局部空间排列,不包括与肽链其他区段的相互关系及侧链构象。二级结构主要有 α-螺旋、β-折叠、β-转角。常见的二级结构有 α-螺旋和 β-折叠。二级结构是通过骨架上的羰基和酰胺基团之间形成的氢键维持的,氢键是稳定二级结构的主要作用力。

 蛋白质在形成立体结构时,其多肽链部分首先折叠成 α-型螺旋(α-helix)和β-型(β-sheet)结构,并由此进一步可折叠成球形。此时,将 α 螺旋和 β 型结构称为二级结构。在蛋白质以外,例如在 tRNA 有三叶草叶型结构,也可称为二级结构。

 打开网址[5]:,输入目标序列,点击 predict.

 结果如下:

 图中显示了每一个氨基酸的坐标和结构,粉红色代表 helix,黄色代表 sheet,白色代表线性。我们以另一种形式进一步了解其预测的二级结构。

  粉红色的圆柱代表螺旋,黄色的箭头代表折叠,直线代表线性结构。Conf代表预测的可信度,Pred 代表预测的二级结构,分别以图形和字母表示。AA 代表输入的目标序列。由此我们可以预测出该序列完整的二级结构。

 5 5、 、 信号肽的分析

 信号肽是引导新合成的蛋白质向分泌通路转移的短(长度 5-30 个氨基酸)肽链。常指新合成多肽链中用于指导蛋白质的跨膜转移(定位)的 N-末端的氨基酸序列(有时不一定在 N 端)。

 信号肽包括三个区:一个带正电的 N 末端,称为碱性氨基末端:一个中间疏水序列.以中性氨基酸为主,能够形成一段 d 螺旋结构,它是信号肽的主要功能区;一个较长的带负电荷的 C 末端,含小分子氨基酸,是信号序列切割位点.也

 称加工区。当信号肽序列合成后,被信号识别颗粒(SRP)所识别,蛋白质合成暂停或减缓,信号识别颗粒将核糖体携带至内质网上,蛋白质合成重新开始。在信号肽的引导下,新合成的蛋白质进入内质网腔.而信号肽序列则在信号肽酶的作用下被切除。如终止转运序列存在于新生肽链的 C 端,也可以不被信号肽酶切除。

 信号肽假说认为,编码分泌蛋白的 mRNA 在翻译时首先合成的是 N 末端带有疏水氨基酸残基的信号肽,它被内质网膜上的受体识别并与之相结合。信号肽经由膜中蛋白质形成的孔道到达内质网内腔,随即被位于腔表面的信号肽酶水解,由于它的引导,新生的多肽就能够通过内质网膜进入腔内,最终被分泌到胞外。翻译结束后,核糖体亚基解聚、孔道消失,内质网膜又恢复原先的脂双层结构。

 输入网址[6]:

 输入目标序列后,点击 submit,结果如下:

  结果分析:

 C-score(Cleavagesitescore 剪切位置分值):通常信号肽剪切位置+1(就是成熟肽的第一个残基)有个高的分值而其他位置有低的分值。

 S-score(Signalpeptidescore 信号肽分值):剪切位置前的信号肽有高的分值,而非信号肽有低的分值。

 Y-score(combinedcleavagesitescore):是综合考虑 c 和 s-score。

 S-mean 是从 N 端氨基酸开始到剪切位点处各氨基酸的平均 S 值。

 D 值是 S-mean 和 Y-max 的平均值,对区分是否为分泌蛋白具有重要作用。

 本图分析结果表明,这个蛋白质并没有明显的信号肽剪切位点(Y 值和 S 值均没有明显的高点),所以得出的结论是:Signalpeptide 列中结果为 no,这个蛋白并不分泌。

 6 6、 、 跨膜区分析

 跨膜区指蛋白质序列中跨越细胞膜的区域,通常为 α-螺旋结构,约 20~25 个氨基酸残基。该区域氨基酸大部分是疏水性氨基酸。

 蛋白质跨膜区域的分析常采用 TMHMM 软件进行。

 进入网站[7]:

  结果如下:

  横坐标是指氨基酸的位置,纵坐标指每一个氨基酸可能跨膜的概率,红线、蓝线、粉红线分别指氨基酸跨膜、膜内、膜外的概率。

 由图可知,几乎每一个氨基酸都有 100%的概率处于膜外,结论显示为outside1424,该蛋白为膜外蛋白。

 7 7、 、 同源分子结构信息

 进入网址[8]:

  输入目标序列,结果如下:

 三、归纳总结

 1 1 、 探究过程中可以简化操作的几个技巧

 (1)在全基因组中寻找具有相同功能的离散基因时可以使用 office 自带的搜索功能。

 如我要找到所有关于rhodanese-likedomainprotein(硫氰酸酶结构域蛋白)的基因时,按下 ctrl+f 打开搜索界面,输入 rhodanese-likedomainprotein 即可。

 可以看到我在全基因组中找到了分别离散与 AFE2558,AFE2364, AFE1502,AFE0529andAFE0151 位置的基因。

 (2)在进行完序列的同源搜索后同源序列的列表,我们只需要将左边勾选然后就可以直接下载同源序列。如此在之后的多重序列比对中我们可以直接上传下载的序列文件而不用直接输入序列

 (3)在进行完多重序列比对之后直接点击标题栏的 PhylogeneticTree 即可进入系统发生分析界面,无需再上传一次基因序列。

 2 2 、补充可以用到的生物信息学网站

 (1)Rast Rast 是一个快速注释宏基因组样品的网页服务器。它可以分析序列片段的注释,他们的系统分类和初步的构建代谢途径。它也可以用来比较宏基因组数据的分类和初步代谢途径的构建

 (2)Kaas Kaas 是基于基因数据库,化学分子物质数据库,以及基于基因和化学分子物质相互关系而建立起来的代谢路径数据库的快速检索工具

 3 3 、对新菌种开展研究的一般途径

 四、课程感言

 随着生命科学和计算机科学的迅猛发展,生物学科对于核酸和蛋白质的分析的算法越来越复杂,这样利用电子计算机分析核算和蛋白质序列的学科就应运而生了,这就是这门生物信息学,他试图从基因序列和蛋白质序列的分析中找到一般规律,从而探究生物自身的特性。对于新药物的研究,疾病治疗,和人体探秘等等有着重大意义。

 通过这门课的学习,我感觉我学到的最重要的一点就是对于未知事物的属性的探究和验证方法,说简单一点就是序列决定结构,结构决定功能。

 就拿这次序列分析的情况看,从这个肽酶在序列上的属性,比如是否带有信号肽,是否跨膜就可以推测并验证它的功能,虽然,我们事先已经这种酶的属性了,但是这种方法同样是用于探索未知,比如,这个序列与另一个已知序列很1•分离纯化2•测序3•16sRNA比对4•Rast/Kaas初步猜想构建代谢通路5•同源搜索、多重序列比对、系统发生分析6•二级结构预测、信号肽分析、跨膜区分析7•将测序后的DNA片段链接8•设计实验 验证

 接近,或者说同源性很高,那么就可以猜测他们具有相似的功能,就为进一步研究提供了方向,再比如,我们知道一个未知蛋白可能是膜蛋白,那么他可能与呼吸作用等有关,等等。

 所以,重要的是对于序列属性的分析与推导,得到假设和猜想,然后再利用具体的实验加以认证这样的一个思路。生物信息学是一种手段,但是,他也符合这样一种基本的探究方式,只不过为这种方式增加了计算机等科学的辅助手段。

 这次学习还让我熟悉了生物信息学这种工具的使用方法,通过各种序列分析网站的使用,让我了解各个生物信息学实验该如何开展。并通过一次实验总结一般方法。现在我已初步了解了对一个新的未知菌进行生物信息学分析,构建代谢通路,分析各个基因及蛋白功能的基本方法。这将在我未来生物相关的学习中起到重要作用。

  五、参考文献 及网站

 [1] [2] [3] [4] [5] [6] [7] [8] [9]

 [10] ValdésJ,PedrosoI,QuatriniR,etal.Acidithiobacillusferrooxidansmetabolism:fromgenomesequencetoindustrialapplications.[J].BmcGenomics,2008,9(6):82-86. [11]朱玉贤,李毅,郑晓峰,郭红卫.现代分子生物学.北京:高等教育出版社,2013:53

相关热词搜索:信息学 生物 论文

版权所有 蒲公英文摘 www.zhaoqt.net