山东师范大学生科院生物信息学知识点

时间:2022-05-23 23:44:00 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
生物信息学

名词解释:

1、遗传图谱(genetic map) 2物理图谱(physical map) 3、重叠群(Contig) 4、同线性 (synteny) 5、序列图谱 6、转录图谱 7、进化信息 8ORF开放阅读框

9、序列比对(Sequence Alignment) 10、一致性(identity) 11、相似性 (Similarity) 12、同源性 (Homology) 13、直系同源(Orthologous 14、旁系同源(Paralogous 15、空位罚分(Gap Penalties)

16、低复杂度区域( Low-Complexity Region LCR 17、双序列比对(Pairwise Sequence Alignment 18、命中点(hit

19、密码子偏好性(Codon Usage bias) 20、同义密码子

21、目标肽(Target peptide 22、信号肽(signal peptide 23、系统发生学(phylogenetics

24、分子系统发生学(molecular phylogenetics 25、系统发生树(phylogenetic tree) 26、遗传漂变(Genetic drift) 27、分子进化速率


28、选择压力(Selective pressure 29、异系同源物(Xenolog)

30、密码子使用的相对频率 (Relative Synonymous Codon UsageRSCU) 31、密码子适应指数 (Codon adaption indexCAI) 32、有效密码子数 (Efective Number of CodonNc)

一、知识点:

英文字母简称及其代表含义:

EST表达序列标签(从cDNA文库中获得的短序列) SNP单核苷酸序列多态性

SRA序列读取片段,效率高错误率高 RFLP限制性片段长度多态性 VNTR可变串联重复 STR 简短串联重复

HGP 序列标记位点STS(单拷贝) Contig 重叠群(跨叠克隆群) CDS 编码区 Base pair碱基对 TSS转录起始 ORF开放阅读框 UTR非编码区 RGP 水稻基因组计划 HGP 人类基因组计划

ENCODE:DNA元件百科全书计划 MSP:最大片段对,maximal segment pair

第二章 生物信息学引论

1、遗传图谱、序列图谱、Contig、同线性的概念理解 2、人类基因组计划的一些关键数字:




1990年启动、2001年发表草图、2003年完成、2004年完成图公布,预计15时间(19902005)至少投入30亿美元,完成人全部24(22+X+Y)条染色体中3.2×109个碱基对的序列测定。

3、克雷格·文特尔完成第一个自由生物体流感嗜血菌全基因组测序 4 HGP选择作为研究人类的四大“模式生物” 5、序列图谱、重叠群Contig的概念

61970NeedlemanWunsch提出了序列比对算法

第三章 生物信息学的生物学基础 1、主要模式生物拉丁文

Homo sapiens 小鼠Mus musculus 水稻Oryza sativa噬菌体Bacteriophage 酵母Saccharomyces cerevisiae大肠杆菌Escherichia coli非洲爪蟾Xenopus lavias 秀丽线虫Caenorhabitidis elegans、斑马鱼Danio rerio 果蝇Drosophila melanogaster、拟南芥Arabidopsis thaliana 2、三主干六界说(有局限性,没有病毒) 3、四大“模式生物”

4、核酸和蛋白质至少携带三种信息:遗传信息、结构信息、进化信息 5、生物信息数据库中的核苷酸代码 6FASTA格式中氨基酸表示方法 7ORF 开放阅读框的概念

第四章 生物信息学数据库资源

1、序列数据库(基因组、核酸和蛋白质) 结构数据库(核酸、蛋白质) 功能数据库

注:课件上列举的各大数据库类型 2GENBANK查询检索是Entrez检索系统。

3EMBL 查询检索可以通过网上的序列提取系统(SRS)服务完成。 4UniMES是专门为宏基因组学和环境数据开发了一个资料库。


5Pub Med限制字段类别有:

author[AU] Title[TI] Abstract[TIAB] date[DP] Journal[TA] 6Gen Bank检索结果的显示有哪三种格式 7Gen Bank分类码

8Gen Bank中特性关键词(Feature key)的含义 promoter 转录起始区 precursor_RNA前体RNA m RNA 信使RNA 5'UTR 5’非翻译区 3'UTR 3’非翻译区 exon 外显子

CDS 蛋白质编码序列 intron 内含子

poly A_site RNA转录本的多聚腺苷酸化位点

9、目前人类基因组拼接序列有五种,命名为hghuman genome缩略名)后接编号,最新的数据是hg38,发布日期为201312 10、其他数据库(用途)PBL及学习视频中介绍的数据库

1MGIMouse Genomes Informatics)同源性、等位基因、基因表达、定位 2TCGA The Cancer Genome Atlas)肿瘤基因组图谱 3GEO Profiles 基因表达

4HomoloGene:是一种用于检测真核基因集之间的同源关系的数据库。 5Addgene数据库:它作为一个公益性组织,负责保存和提供质粒。 6Unigene:自动地将GenBank中的序列聚类为面向基因的非冗余的数据集。 7ENSEMBL:用于基因树、mRNA剪接体、基因表达、启动子查找

8Uniprot:是一个集中收录蛋白质资源并能与其它资源相互联系的数据库。 9PDB:蛋白质晶体结构资料数据库 (Protein Data Bank)

10GeneCard 基因基本信息、基因调控信息、基因蛋白信息、蛋白质互作 11miRBase:是储存miRNA信息最主要的数据库之一 12ExPASyExpert Protein Analysis System蛋白质组学分析平台


13KEGG:大型分子数据集生成的基因组测序和其他高通量实验技术的实用 程序数据库资源

第五章 DNA与蛋白质序列比对

1、序列比对(Sequence Alignment)一致性(identity)、相似性 (Similarity)、同源性 (Homology)、直系同源(Orthologous 、旁系同源(Paralogous、空位罚分(Gap Penalties)低复杂度区域 Low-Complexity Region LCR双序列比对Pairwise Sequence Alignment、命中点(hit)的英文要认识、概念

2、实际上在不同物种间也叫旁源基因,eg同是起源于珠蛋白的小鼠的α球蛋白和鸡的β球蛋白。

3、转换、颠换:环数改变:颠换,不易发生。环数不变:转换,易发生。 4PAM 矩阵(Point Accepted Mutation,可接受的点突变) 5BLOSUM 矩阵(Blocks Substitution Matrix模块替换矩阵) 6、如何选择合适的打分矩阵?

1) 一般来说,在局部相似性搜索上,BLOSUM 矩阵较PAM要好



2) 当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵; 3) 当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵 4) 对于数据库搜索来说一般选择BLOSUM62矩阵





5) PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM用于发现蛋白质的保守域 7、“矩阵作图法” “对角线作图” 1970 Gibbs首先提出 8、点阵序列比较中:

1) 反向序列:反对角线出现一条线 2) 相同序列:对角线出现一条序列

3) 正向重复:重复的平行于对角线连线,表示这两条序列内部含有重复片段 9、全局规划动态规划算法、局部规划动态规划算法最优路径求解(大题) 10PSI-BLAST对于发现远亲物种的相似蛋白或某个蛋白家族的新成员非常有效。 11Blast数据库序列的列表: High scores low E values 12BLAST 搜索策略 第六章 序列特征分析


1GC含量的应用:用于引物设计、杂交 2、密码子偏好性(Codon Usage bias)名词解释 3、分析密码子使用偏好性的方法

①密码子使用的相对频率 (Relative Synonymous Codon UsageRSCU) ②密码子适应指数 (Codon adaption indexCAI) ③有效密码子数 (Efective Number of CodonNc)

4、蛋白质磷酸化位点分析:蛋白质磷酸化位点数据库收集以用实验证实的数据 5RNA的二级结构元件(图记住,英文要认识)





第七章 分子系统发生分析

1、系统发生学(phylogenetics、分子系统发生学(molecular phylogenetics、系统发生树(phylogenetic tree)、遗传漂变(Genetic drift)、分子进化速率、选择压力Selective pressure、异系同源物(Xenolog)的概念、认识这些概念的英文 2、几个重要的理解

a根据各个不同对物种计算出来的同源生物大分子的分子进化速率大致相等。 b不同源分子不同,因为选择压力不同。

c一个大分子内部功能变化比较慢,功能越重要变化越慢 d分子进化速率远比表型进化速率稳定。


e一般认为,同义突变不受自然选择,而非同义突变则受到自然选择作用。 f内含子上的突变频率很高 3、构建系统发生树的原则

1)计算速度:距离法 >最大简约法MP >最大似然法ML 2)如果模型合适,ML的效果较好。

3)近缘序列,可采用MP法,因为用的假设最少。 4)远缘序列,一般用NJML 4MEGA 建树步骤

二、习题

选择:

1、获得迄今最详细的人类基因组分析数据的后基因组时代的计划是( A ,该计划发现大约76%的基因组DNA都会被转录为一种或另一种RNA AENCODE

B、人类微生物组计划 C、国际千人基因组计划 D、国际肿瘤基因组计划

2、为绘制迄今为止最详尽的、最有医学应用价值的人类基因组遗传多态性图谱,启动了( B AENCODE

B、人类微生物组计划 C、国际千人基因组计划 D、国际肿瘤基因组计划

31995年,第一个自由生物体流感嗜血菌全基因组测序完成,这位科学家是 A A、克雷格·文特尔(Craig Venter B、查尔斯·德利思(Charles De Lisi CWatson

D、国际肿瘤基因组计划

4、在 C NeedlemanWunsch提出了著名的序列比对算法,是生物信息


学发展中最重要的贡献。 A1990 B2001 C1970 D1988

5、进行基因调控信息分析研究的是( B A、结构基因组学 B、功能基因组学 C、比较基因组学 D、以上都是 6ORF是( C

A、编码区 B、转录起始 C、开放阅读框 D、非编码区 7、人类研究得最为详尽的模式生物( D A、酵母 B、线虫 C、果蝇 D、大肠杆菌 8UTR的含义是 B A、编码区B

C、低复杂度区域D、开放阅读框

9、生物分子数据库中二级数据库相比于以及数据库( D A、数据量大,更新速度快 B、数据量小,更新速度快 C、数据量大,更新速度慢 D、数据量小,更新速度慢

10UniProt中专门为宏基因组学和环境数据开发的一个资料库是(D AUniProtKB BUniParc CUniRef DUniMES 11、以下属于基因组数据库的是(A

AEnsembl BEMBL CTrEMBL DUniProt 12Gen Bank分类码中ROD是( C A、灵长类动物序列 B、植物、真菌和藻类序列 C、啮齿类动物序列 D、基因组测定序列

13Genbank中的145^177表示(A


A145177碱基之间的某个位点 B145177碱基在内的一段连续序列 C145177碱基

D145177碱基之间的限制性酶切位点 14、以下哪个数据库可以专门提供质粒(A AAddgene BTCGA CGEO Profiles DKEGG

15、蛋白质晶体结构资料数据库是(B ATCGA BPDB CUniProt DENSEMBL

16、以下是研究蛋白质组学分析的平台是(A AExPASy BmiRBase CAddgene DMGI

17、同是起源于珠蛋白的小鼠的α珠蛋白与鸡的β珠蛋白是(B A、直系同源 B、旁系同源 C、垂直同源

18序列比对字符编辑操作中在第二条序列相应的位置插入空白字符是以下哪种编辑形式(B AMatch BDelete CReplace DInsert


19多序列比对中,如果两个序列长度差异很大,而且其中某一段区域相似时应采用(A A、局部序列比对 B、全局序列比对 C、遗传算法 D、基于一致性的方法

20Clustal W是目前最流行的基于全局比对算法中(C)的软件 A、基于一致性的方法 B、动态规划算法 C、渐进的多序列比对 D、迭代法

21、以下有关GC含量错误的是( B AGC含量是指GC百分比含量 B、在原核生物不同物种含量差异不大 CGC含量可以用于引物设计 D、在真核生物、原核生物中差异大

22Tmpred是分析蛋白质跨膜区的在线工具,得分大于(C)的跨膜螺旋才考虑是有意义的。 A100 B300 C500 D700

23、用于分子进化分析的序列必须是( A )才能真实反映进化过程? A、直系同源 B、旁系同源 C、异系同源物 填空

1HGP最初计划用______年时间至少投入____美元,实际上是于______年启动、


______年发表草图、______年完成、______年公布完成图。 2、人类基因组计划测定了人全部染色体中__________个碱基对

3、如果生物之间存在很近的亲缘关系,那么它们的基因组就会表现出_______即基因序列的部分或全部保守。

4HGP四大“模式生物”____________________________ 5、写出下列主要模式生物拉丁文对应的中文名:

Homo sapiens _______Mus musculus _______ Oryza sativa _______

Saccharomyces cerevisiae _______Escherichia coli _______ Xenopus lavias _______ Caenorhabitidis elegans _______ Danio rerio _______ Drosophila melanogaster _______ Arabidopsis thaliana _______

6三主干六界说中的三主干:_______ _______ _______ 六界:_______ _______ _______ _______ _______ _______

7、生物信息数据库中的核苷酸代码表中代码H代表的是_______ 8FASTA格式氨基酸表示方法中U代表 _______ 9NCBI的全称是 ___________________

10、提供与基因组元件百科全书计划(ENCODE )和尼安德特人基因组分析等项目的快捷链接的数据库是_________

11、对于DNA序列,BLAT是用来设计寻找95%及以上相似至少_____ bp的序列对于蛋白质序列,BLAT是用来设计寻找80%及以上相似至少_____ 氨基酸的序

12、限制性内切酶酶切,切割形式有两种:_________ ________ 13_________ 是基因组注释的关键环节。

14、根据氨基酸侧链基团的极性分为_________ _________________ ________

15分子系统发生小认为,从一条序列转变为另一条序列所需要的变换越多,两条序列的相关性就越_______进化距离就越_________从共同祖先分歧的时间就越_________


本文来源:https://www.wddqw.com/doc/a8878cc2e309581b6bd97f19227916888486b9b8.html