生物信息学复习重点

发布时间 : 星期三 文章生物信息学复习重点更新完毕开始阅读

生物信息学是一门交叉学科, 包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面, 它综合运用数学、计算机科学和生物学等的各种工具来阐明和理解大量数据所包含的生物学意义。生物信息学宗旨在揭示基因组信息结构的复杂性及遗传语言的根本规律。从生物分子获得和挖掘深层次生物学知识。 人类基因组计划(HGP):获得遗传图、物理图、序列图、转录图;终极目标:阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。其中我国承担了人类3号染色体短臂。 记录:一个数据库记录一般由两部分组成:原始序列数据和描述这些数据生物学信息的注释。 冗余:在一个数据库存在着多个相同的项,如两个或者更多的记录中有一个相同序列

Fasta格式开始于一个标识符:\,然后是一行描述。 GenBank格式:每个基因描述可有多个描述行,包含一行以LOUCUS开头描述行,基因序列以ORIGN开头,以//结尾。

EMBL:入口标识符ID,序列开始标识符SQ,结束是//。

数据库的特点:①数据库是可以检索的,即具有检索功能;②数据库应该是定时更新的,即不断有新版内容发布;③数据库是交叉引用的,特别是在互联网时代,数据库应该通过超链接与其他数据库相连。

EST序列:表达序列标签对cDNA文库测序得到的,是转录的DNA序列。

STS序列:序列标签位点染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,(200bp-500bp)。STS序列标签位点是基因组上定位明确、作为界标并能通过PCR扩增被唯一操作的短的、单拷贝DNA 序列,用于产生作图位点。

GSS序列:基因组概览测序基因组DNA克隆的一次性部分测序得到的序列。 HTG序列:高通量基因组序列 三大数据库:

NCBI(GenBank):美国生物技术中心,建立了一系列生物信息数据和各种服务。 EMBL:欧洲分子生物学实验室。 DDBJ:日本遗传研究所。

同源性基因系指起源于同一祖先但序列已经发生变异的基因成员。基因同源性只有“是”和“非”的区别,是一种质的判断。

直系同源基因:分布在不同物种间的同源基因又称直系同源基因。

旁系同源基因:同一物种的同源基因则称旁系同源基因(水平基因), 水平基因由重复后趋异产生。 一致性:序列中同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员的百分比。 相似性:序列中同一位置相同或相似序列的百分比。如同源蛋白质的氨基酸序列

中一致性氨基酸和可取代氨基酸所占的比例。可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员, 它们之间的代换不影响蛋白质(或酶)的生物学功能。

相似性和同源性关系:一般来说序列间的相似性越高的话,是同源序列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。 序列比对:确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。任务:通过比较生物分子序列,发现它们的相似性,找出序列之间共同的区域,同时辨别序列之间的根本差异。

相似性:可能是核酸/氨基酸序列的相似、可能是结构的相似、可能是功能的相似

主要的blast程序:

程序名 Blastn Blastp Blastx Tblastn TBlastx 查询序列 核酸 蛋白质 核酸 蛋白质 核酸 数据库 核酸 蛋白质 蛋白质 核酸 核酸 搜索方法 核酸序列搜索逐一核酸数据库中的序列 蛋白质序列搜索逐一蛋白质数据库中的序列 核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。 蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译一进行比对。 Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。 E value:在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。 分子钟:某一蛋白在不同物种间的取代数与所研究物种间的分歧时间接近正线性关系,进而将分子水平的这种恒速变异称为“分子钟”。

中性学说:突变大多数是中性的,中性突变通过随机的遗传漂变在群体里固定下来,分子进化是遗传漂变的结果,在分子进化上自然选择不起作用。

分子进化/系统发育树的研究目的:①物种分类及关系:从物种的一些分子特性出发,构建系统发育树,进而了解物种之间的生物系统发生的关系②大分子功能与结构的分析:同一家族的大分子,具有相似的三级结构及生化功能,通过序列同源性分析,构建系统发育树,进行相关分析和功能预测③进化速率分析:例如,HIV的高突变性,哪些位点易发生突变

末端节点:代表最终分类,可以是物种,群体或者蛋白质、DNA、RNA分子等。 系统发育树是由一系列节点和分支组成,其中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系。

树的节点又分为外部节点和内部节点。外部节点代表实际观察到的分类单元。内部节点又称为分支点,代表分类单元进化历程中的祖先。一个DNA序列在物种形

成或基因复制时,分裂成两个子序列,因此系统发育树一般是二叉树。

有根树:从最早共同祖先,即根开始,随着时间的连续分支事件引起的一组相关物种的分歧。

无根树:表示分类单元之间的进化关系,但不鉴别最早的共同祖先。

距离:对一个有根树来说,沿着每个分支的进化方向是确定的。反之,对无根树来说,并不清楚内部分支的祖先物种是从哪里进化而来相关序列间的差异称为距离。不同物种的两条同源序列的度量被称为遗传距离或进化距离。

外群/外围枝:与当前研究的主要物种或基因相对较远的一组序列,可以辅助定位树根,选择条件:序列必须与剩余序列关系较近,但外围支序列与其他序列间的差异必须比其他序列之间的差异更显著

系统发育树构建步骤:多序列比对;建立取代模型(建树方法);建立进化树;进化树评估。

进化树的可信度检验自展法(统计方法):从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;重复上面的过程,得到多组新的序列;对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性

建树一般原则:1.可靠的待分析数据2.准确的多序列比对3.选择合适的建树方法:A.序列相似程度高,MP(简约法)B.序列相似程度较低,ML(似然法)C.序列相似程度中等,NJ(邻接法)D.序列相似程度太低,无意义

bootstrap为每个分支指派一个数值,表示这些分支在bootstrap测试中出现的百分比,暗示它们关联的化分是否被数据很好地支持。越接近100,可信度越高。 GO:基因本体联合会所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。 GO语义的分类:①分子功能描述在个体分子生物学上的活性,如催化活性或结合活性。②生物学过程由分子功能有序地组成的,具有多个步骤的一个过程。③细胞组件指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核糖体,蛋白酶体等),即基因产物在什么地方起作用。

语义之间有三种关系:①is a(I)②part of(P)③regulates(R)

语义之间的关系:1.“语义”用“结点”表示2.用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具体。3.实线表示结点之间的关系4.虚线表示推理而并未证明的关系

GO语义之间的关系是单向的,结构像是有向非循环树,但与有向非循环树不同的是,本体论结构图中的结点可以有两个及其以上的父结点。 在“Qualifier”用“NOT”标注,如“nurse cell apoptosis”,其说明根据实验数据,该基因产物并不在“nurse cell apoptosis”过程中起明显作用,因而该基因产物用该语义注释只是研究者的一种推测与期望,此推测的根据是该基因产物与那些在“nurse cellapoptosis”起明显作用的基因产物有着非常相似的

序列结构。 间隔区(IGR)是一片位于基因之间的DNA序列。非编码DNA间隔区的一个子集。偶尔有些间隔DNA的作用来控制基因附近,但目前大部分没有已知的功能。它有时也被称为“垃圾DNA”的DNA序列之一,最近被称为“暗物质”或“暗物质转录间隔区的DNA片段”。

重复序列的分析:对于真核生物的核酸序列而言,在进行基因辨识之前都应该把简单的大量的重复序列标记出来并除去,因为很多情况下重复序列会对预测程序产生很大的扰乱,尤其是涉及数据库搜索的程序。 等值区:大部分真核基因组表现出一种称为等值区的组织形式。等值区定义为“具有一致碱基组成的长区域”:①等值区基因组序列的长度超过1,000,000对碱基;②虽然不同的等值区其GC含量差别显著,但同一等值区的GC含量始终相对均衡,即在等值区全长序列上移动的1,000bp滑动窗口中的GC含量与整个序列的GC含量相差不超过1%。

人类基因组大约可以划分为五个不同类型的等值区:其中有两个区域缺乏G和C,分别被称作L1和L2,平均GC含量分别为39%和42%;另三个区域所含的G和C相对丰富,分别被称作H1、H2和H3,GC含量平均值分别为46%、49%和54%。真核生物的H等值区中含有丰富的基因,是开始基因组测序的最佳位置。 SD序列:mRNA翻译起点上游与原核16S 核糖体RNA或真核18S rRNA 3′端富含嘧啶的7核苷酸序列互补的富含嘌呤的3~7个核苷酸序列(AGGAGG),是核糖体小亚基与mRNA结合并形成正确的前起始复合体的一段序列。

Kozak规则,即第一个AUG侧翼序列的碱基分布所满足的统计规律,若将第一个AUG中的碱基A,U,G分别标为1,2,3位,则:①第4位的偏好碱基为G②AUG的5’端约15bp范围的侧翼序列内不含碱基T;③在-3,-6和-9位置,G是偏好碱基;④除-3,-6和-9位,在整个侧翼序列区,C是偏好碱基

真核生物中的基因预测程序的分类: 1. 基于同源性的方法2. 基于从头算的方法3. 基于一致性的算法(大部分程序是物种专一的,这是由于用于获得统计参数的训练数据必须由单一生物体取得)

蛋白质数据库:提供详细的蛋白质序列、功能信息,如蛋白质功能描述、结构域结构、转录后修饰、修饰位点、变异度、二级结构、三级结构等同时提供其它数据库,包括序列数据库、三维结构数据库、2-D凝聚电泳数据库、蛋白质家族数据库的相应链接

Reviewed 和 Unreviewed代表数据的可性度。可性度的标签主要有三种:人工验证的数据(黄色星);从其他数据源引用过来的数据(半黄半灰星);通过程序添加或者产生信息的(灰色星)。

蛋白质3D结构预测的方法可分为三大类:①同源建模法②折叠识别法③从头预测法

联系合同范文客服:xxxxx#qq.com(#替换为@)