扩增子-物种注释四部曲

时间:2023-03-28 06:28:26 阅读: 最新文章 文档下载
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。


扩增子-物种注释四部曲

美格基因

一、代表性序列注释

利用usearch对每个OTU的代表序列进行物种分类,从而达到了解所有序列物种来源的目的。其中 16S18S 和功能基因默认采用RDP classifier贝叶斯算法,ITSAMF默认采用Blast方法,置信度阈值为0.5

使用的数据库:16S(细菌、古菌)和18S(真核)默认用silvaITS(真菌)默认用unite,功能基因默认用fungeneRDP整理来源于GeneBank的功能基因数据库),AMF默认用MaarjAM数据库,得到物种注释信息表otu_taxa



#OTU ID

taxonomy

k__Fungi; p__Glomeromycota; c__Glomeromycetes; o__Paraglomerales;

OTU1 OTU10 OTU100 OTU1000 OTU1001 OTU1002 OTU1003



f__Paraglomeraceae; g__Paraglomus; s__Alguacil12a_Para_1 k__Fungi; p__Glomeromycota; c__Glomeromycetes k__Fungi; p__Glomeromycota; c__Glomeromycetes

k__Fungi; p__Glomeromycota; c__Glomeromycetes; o__Glomerales k__Fungi; p__Glomeromycota; c__Glomeromycetes; o__Glomerales k__Fungi; p__Glomeromycota; c__Glomeromycetes; o__Glomerales k__Fungi; p__Glomeromycota; c__Glomeromycetes

注:otu_taxa中的 taxonomy分为7个层次,分别为界kingdomL1phylumL2classL3),目(orderL4),科(familyL5),属(genusL6),种(speciesL7),以首字母简写标注(如p_代表Phylum)。

注释结果中*_uncultured(g_uncultured)表示注释上了数据库中已经被报道的暂未纯培养的物种。分类学比对后根据置信度阈值筛选,会有某些分类谱系在某一分类级别分值较低,在统计时以Unidentified记;Unclassified表示数据库中没有找到对应于该序列的分类信息。Unclassified Tags指没有获得注释信






息。若无此类标记表示数据库中没有参考序列(如 k__Bacteria; p__Proteobacteria表示在纲水平以下无物种信息)。



二、去除污染OTU获得OTU table

根据注释结果去除注释为叶绿体或线粒体(16S 扩增子)以及不能注释到界级别的OTU及其Tags得到最终序列分布情况表otu_table_finalotu_table_final表中各OTU的序列数与otu_taxa表中物种信息相结合,得到物种注释综合信息表otu_table



#OTU ID OTU10 OTU100 OTU1000 OTU1001 OTU1002 OTU1003

BL1.1 BL1.2 356 8 0 0 0 0

468 5 0 0 0 0

BL1.3 383 27 0 0 0 0

taxonomy

k_Fungi;p_Glomeromycota; k__Fungi;p_Glomeromycota; k__Fungi;p__Glomeromycota; k__Fungi;p__Glomeromycota; k__Fungi;p__Glomeromycota; k__Fungi;p__Glomeromycota;

注:第一列为过滤污染序列以及不能注释到界级别的OTU后的有效OTU编号,最后一列为每个OTU的物种注释信息,其余各列代表各个OTU在不同样品中的序列数。对每个样本而言,OTU丰度构成该样本的组成结构,该结果是后续物种丰度研究的基础。

三、重抽样获得OTU_subsampled

通常以序列数最少的样品为准,利用usearchotu_table中将其他样品的序列数随机抽平到相同数目,生成抽平(归一化/均一化/标准化)后的otu_table_subsampled表。并根据OTU分类地位鉴定结果,统计各分类水平的微生物类群数和序列数。

其中各分类水平的微生物类群数相当于以不同的分辨率查看群落组成结构,以直观地比较不同样本在同一水平的分类单元数的差异,各分类水平的序列数统计结果则可以根据注释到属的序列数多少,判断各样品物种注释率的高低。




本文来源:https://www.wddqw.com/doc/238755289fc3d5bbfd0a79563c1ec5da51e2d620.html