(完整版)生物信息学复习题合集

发布时间 : 星期五 文章(完整版)生物信息学复习题合集更新完毕开始阅读

19. 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层

和输出层

20. 通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISS—MODEL网站) 21. 蛋白质质谱数据搜索工具:SEQUEST 22. 分子途径最广泛数据库:KEGG

23. 聚类分析方法,分为有监督学习方法,无监督学习方法 24. 质谱的两个数据库搜索工具:SEQEST和Lutkefish 三.问答题

1. FASTA序列格式

第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。 (NBIR/PIR序列格式

第一行以“>”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“*”号终止。文件的扩展名为“.pir”或“.seq”。 GDE序列格式

与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。)

2. BLAST的五个子程序 程序 Blastp Blastn Blastx 查询序列 蛋白质 核苷酸 核苷酸 (已翻译) 数据库种类 蛋白质 核苷酸 蛋白质 简述 可以找到具有远源进化关系的匹配序列 适合寻找分值较高的匹配,不适合远源关系 适合新DNA序列和EST序列的分析 方法 待搜索蛋白序列与蛋白数据库比较 待搜索核酸序列与核酸数据库比较 将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较 将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比 无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列 TBlastn 蛋白质 核苷酸 适合寻找数据库中尚未(已翻译) 标注的编码区 TBlastx 核苷酸 核苷酸 (已翻译) (已翻译) 适合分析EST序列 3. 生物类的数据库类别:

一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理

和注释;

二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据

和理论分析的基础上针对特定的应用目标而建立的。

4. PSI-Blast的原理:

PSI-BLAST是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。其主要思

想是通过多次迭代找出最佳结果。每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积)。 具体做法是最初对查询序列进行BLAST搜索,接着把查找得到的每一击中项作为BLAST搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相似序列为止。 (以下为研究生课件部分)

PSI-BLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进这一序列谱以提高搜索的灵敏度。

利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。

5. 多序列联配的意义:

1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。

6. 系统发育学的研究方法:

1)表现型分类法:将表型相像的物种归类在一起,所有特征都要被考虑到;

2)遗传分类法:具有共有起源的物种归类在一起,也就是说,这些字符并没有出现在离

它们较远的祖先序列;

3)进化分类法:该方法综合了表现型分类法和遗传分类法的原理,进化方法被普遍认为

是最好的系统发育分析方法,因为该方法承认并采用目前的进化理论;

7. 系统发育树的构建方法:

1)距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到

得出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树; 2)最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数

量对序列进行比较和聚类;

3)最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该

方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。

8. 简述人工神经网络预测蛋白质二级结构的基本步骤。 1)输入数据(来自PDB)

2)产生一个神经网络(一个计算程序) 3)用已知的蛋白质二级结构来训练这个模型

4)由训练好的模型来给出未知蛋白的一个可能的结构 5)最后从生物角度来检验预测的一系列氨基酸是否合理

9. 预测蛋白质三级结构的三种方法

1)同源建模法:依据蛋白质与已知结构蛋白比对信息构建3D模型;

2)折叠识别法:寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模

型;

3)从头预测法:根据序列本身从头预测蛋白质结构。

10. 分子途径和网络的特点:

1)分子途径和网络的结构随意性大。图可以很简单,也可以非常复杂。它们可能包含了多个分支,盘绕的连接和回路。

2)它们通常也显示出节点间关系的方向,例如表示出代谢通路或信号传导的方向。调控途径和网络的图也应该说明相互作用是正的还是负的。正的相互作用(促进或者活化作用)常常用箭头表示,而负的交互效应(抑制或者失活作用)常常用T型棒表示。

11. 先导化合物的来源有四种来源:

1)通过偶然性观察发现的先导化合物(这个方法最著名的例子就是亚历山大.弗莱明发现的青霉素,今天所用的许多抗生素皆由其发展出来)

2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物(例如,镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的)

3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮)

4)先导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘)

12. 简述DNA计算机的基本原理:

1)以编码生命信息的遗传物质—DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的性质,将所要处理的问题映射为特定的DNA分子; 2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。

DNA计算机优点:低能耗、存储容量高、运算速度快,可真正实现并行工作。

13. 简述DNA计算实现方式中,表面方式与试管方式相比具有哪些优点?

试管方式:就是在一个或多个试管的溶液里进行生化反应;

表面方式:是将对应的解空间的DNA分子固定在一块固体上,其次进行各种生化反应,

或是在表面逐步形成解空间,然后根据具体问题对所有可能的解进行筛选,最后得到运算结果。

(1)操作简单,易于实现自动化操作;

(2)减少人为操作过程中造成的DNA分子的丢失及其它操作失误; (3)减少分子在表面上的相互作用,同时增强分子间的特异性结合;

(4)信息储存密度大,据估计,10毫克DNA表面上的储存密度是传统计算姬的10的8次方倍,而在溶液中仅为10的5次方倍; (5)结果易于纯化。

14. 简述PCR引物设计的基本原则及其注意要点

原则:首先引物与模板的序列要紧密互补,其次引物与引物之间避免形成稳定的二聚体或发夹结构,再次引物不能再模板的非等位点引发DNA聚合反应(即错配)。

注意要点:1、引物的长度一般为15-30bp,常用的是18-27bp,但不应大于38,因为过长会导致其延伸温度大于74℃,不适合于TaqDNA聚合酶进行反应。

2、引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易导致错配。引物3’端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发几率增加。

3、引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基。另外,引物二聚体或发夹结构也可能导致PCR反应失败。5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。

4、引物序列的GC含量一般为40-60%,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。

5、引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。Tm值的计算有很多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(thenearestneighbormethod)。

6、G值是指DNA双链形成所需的自由能,该值反映了双链结构内部碱基对的相对稳定性。应当选用3’端G值较低(绝对值不超过9),而在5’端和中间G值相对较高的引物。引物的3’端的G值过高,容易在错配位点形成双链结构并引发DNA聚合反应。

7、引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。

8、对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。

15. 假设你得到一段未知基因的DNA序列,从你学习到的生物信息学分析方法和软件,设计

一个分析流程来分析该未知基因的功能和家族类别(包括系统发育树构建)

1、得到未知基因的DNA序列,用Blast做序列比对,找出与其基因相似的核苷酸序列和蛋白质序列。

2、接着,用搜索出来的较相似的序列用ClustW进行多序列比对,得到该序列的保守情况和突变情况。

3、最后用距离法构建系统发育树。 16. 假设你得到一段未知蛋白的氨基酸序列,从你学习到的生物信息学分析方法和软件,设

计一个分析流程来分析该未知蛋白的功能和家族类别以及其结构预测。 1、用该序列进行BLASTP搜索。

2、再对其进行蛋白质结构域、功能域的搜索,可以用Znterproscan、Pfam,并对其进行结构分析。

3、再用ClustW进行多序列比对。

4、用人工神经网络的方法对其结构进行结构预测。

17. BLAST中,E值和P值分别是什么,它们有什么意义? 答:BLAST中使用的统计值有概率p值和期望e值。

E期望值(E-value)这个数值表示你仅仅因为随机性造成获得这一比对结果的可能次数。这一数值越接近零,发生这一事件的可能性越小。从搜索的角度看,E值越小,比对结果越显著。默认值为10,表示比对结果中将有10个匹配序列是由随机产生,如果比对的统计显著

联系合同范文客服:xxxxx#qq.com(#替换为@)