基于二代测序技术的宏基因组学分析

基于二代测序技术的宏基因组学分析

G05成员:王磊 刘唐 李春梅 王晨曲 汇 报 人:王晨曲

Our Team

G05-A 王磊 环境科学与工程学院

群落结构分析、ORF预测

G05-B 刘唐 环境科学与工程学院

群落结构分析, 代谢途径分 析

G05-C 李春梅 生命科学学院-BIOPIC

宏基因组测序文库构建、测 序数据拼接

G05-D 王晨曲 生命科学学院-分子医 学研究所所

测序数据拼接、COG聚类

人类基因组计划 Human Genome Project

人类微生物宏基因组 计划 Human Microbiome Project

肠道宏基因组计划 Metagenomics of the Human Intestinal Tract

地球微生物宏基因组 计划 Earth Microbiome Project

宏基因组学(Metagenomics)又叫微生物环境基因组学,宏基因组学通过直接 从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策 略研究环境样品所包含的全部微生物的遗传组成及其群落功能. 宏基因组学的研究对象是特定环境中的总DNA,不是某特定的微生物或其细胞 中的总DNA,不需要对微生物进行分离培养和纯化,这对我们认识和利用95% 以上的未培养微生物提供了一条新的途径。

群落结构复杂 基因组信息不完整…

如何高效分析宏基因 组测序产生的海量数 据?

微生物多样性 群落结构 进化关系 功能活性 相互协作关系 与环境之间的关系

基于二代测序技术的宏基因组学分析流程

样品DNA提取 测序文库构建 测序 原始reads 质控

序列拼接 ORF预测

数据统计

群落结构分析

常规分析

比对分析

Function comparison Different expression analysis

物种与功 能的关系

COG, KEGG …

Illumina 测序文库构建流程

Illumina HiSeq 2000 Platform

数据统计与预处理

数据统计 (FastQC)

数据质控 (DynamicTrim.pl , LengthSort.pl)

序列De novo assembly (SOAPdenovo2)

建立Contig 文件

序列De novo assembly (SOAPdenovo2)

Assembly

Contig Size_includeN Size_withoutN Number Mean_Size Median_Size Longest_Seq Shortest_Seq

Scaffold 269472205 270556143 269472205 268838613 1753401 1712316 153 158 100 100 98903 98903 100 100

Length >100 >500 >1K >10K >100K >1M

Contig 480523 45519 14122 317 0 0

Scaffolds 444655 50481 15908 361 0 0

筛选长度大于500bp的contig进行下列分析

功能分析

聚类分析 rRNA预测 tRNA预测 ORF预测 功能注释 通路分析 序列信息 质量控制 序列过滤 种群分类 OUT识别 格式转换

输入文件: Fasta格式 输出文件:gz格式

功能分析—ORF预测

输入contig >500bp 的 Fasta文件 上传文件后,点击job status,下载数据。

功能分析—ORF预测

下载数据

Output 1

Output 2

57,312 ORF (>100nt)

功能分析—功能注释

COG ( Clusters of orthologous Groups) KOG (EuKaryotic Orthologous Groups) PRK (Protein K(c)lusters) Pfam (Protein family) TIGRfam (主要对象是

细菌和古细菌蛋白)

功能分析—功能注释

COG ( Clusters of orthologous Groups)

Output1: COG hits

Output2: COG hits and classify

Output3: COG class

Output4: COG family

功能分析

Multiple metagenomics analyses

./client_submit_job.pl input_fasta_file_name program_name output_name "[email]" "[parameter_set_1]" "[parameter_set_2]" [input_fasta_file_name2] [job_id] ./Rammcap_submit_job.pl input_fasta_file_name program_path

群落结构分析

识别16S rRNA (blastN,数据库:Ribosomal Database Project)

注:MEGAN软件只能识别blast+中输出格式设为0、5、6的三中文件格式

过滤No-hits 条目 导入MEGAN4(已自动导入了NCBI-taxonomy)

群落结构分析

Taxonomic analysis

Functional analysis using the SEED classification

Functional analysis using the KEGG classification

Comparative visualization

群落结构分析

代谢途径分析

对Contigs文件进行本地blastX,数据库为ncbi-nr

blastX输出文件导入MEGAN,进行KEGG通路富集分析

常用软件汇总

工具平台 测序 质控 群落结构分析 序列拼接 ORF预测 COG 代谢途径分析

Illumina 454 pyrosequencing SOLID fastx_toolkit Denoiser FastQC Perl ,Python blast+ MEGAN4 Qiime ARB SOAPdenovo Velvet Abyss WebMGA MetaGene Orphelia SoftBerry MG-RAST CAMERA MEGAN4 WebMGA

数据库

RDP Silva grenngenes

SEED COG database KEGG

小结

1. 二代测序技术是分析微生物群落结构分析及功能研究的强有力工具 2. 掌握多项生物信息学分析软件可大大提高研究效率 3. 多学科交叉可为研究提供更多思路

致谢

感谢罗老师本学期的悉心教导,通过学习,我们掌握了生物信息学常 用工具,对生物信息学应用有了更全面的认识。 感谢助教及班级同学在课程学习中给予的帮助。

基于二代测序技术的宏基因组学分析

G05成员:王磊 刘唐 李春梅 王晨曲 汇 报 人:王晨曲

Our Team

G05-A 王磊 环境科学与工程学院

群落结构分析、ORF预测

G05-B 刘唐 环境科学与工程学院

群落结构分析, 代谢途径分 析

G05-C 李春梅 生命科学学院-BIOPIC

宏基因组测序文库构建、测 序数据拼接

G05-D 王晨曲 生命科学学院-分子医 学研究所所

测序数据拼接、COG聚类

人类基因组计划 Human Genome Project

人类微生物宏基因组 计划 Human Microbiome Project

肠道宏基因组计划 Metagenomics of the Human Intestinal Tract

地球微生物宏基因组 计划 Earth Microbiome Project

宏基因组学(Metagenomics)又叫微生物环境基因组学,宏基因组学通过直接 从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策 略研究环境样品所包含的全部微生物的遗传组成及其群落功能. 宏基因组学的研究对象是特定环境中的总DNA,不是某特定的微生物或其细胞 中的总DNA,不需要对微生物进行分离培养和纯化,这对我们认识和利用95% 以上的未培养微生物提供了一条新的途径。

群落结构复杂 基因组信息不完整…

如何高效分析宏基因 组测序产生的海量数 据?

微生物多样性 群落结构 进化关系 功能活性 相互协作关系 与环境之间的关系

基于二代测序技术的宏基因组学分析流程

样品DNA提取 测序文库构建 测序 原始reads 质控

序列拼接 ORF预测

数据统计

群落结构分析

常规分析

比对分析

Function comparison Different expression analysis

物种与功 能的关系

COG, KEGG …

Illumina 测序文库构建流程

Illumina HiSeq 2000 Platform

数据统计与预处理

数据统计 (FastQC)

数据质控 (DynamicTrim.pl , LengthSort.pl)

序列De novo assembly (SOAPdenovo2)

建立Contig 文件

序列De novo assembly (SOAPdenovo2)

Assembly

Contig Size_includeN Size_withoutN Number Mean_Size Median_Size Longest_Seq Shortest_Seq

Scaffold 269472205 270556143 269472205 268838613 1753401 1712316 153 158 100 100 98903 98903 100 100

Length >100 >500 >1K >10K >100K >1M

Contig 480523 45519 14122 317 0 0

Scaffolds 444655 50481 15908 361 0 0

筛选长度大于500bp的contig进行下列分析

功能分析

聚类分析 rRNA预测 tRNA预测 ORF预测 功能注释 通路分析 序列信息 质量控制 序列过滤 种群分类 OUT识别 格式转换

输入文件: Fasta格式 输出文件:gz格式

功能分析—ORF预测

输入contig >500bp 的 Fasta文件 上传文件后,点击job status,下载数据。

功能分析—ORF预测

下载数据

Output 1

Output 2

57,312 ORF (>100nt)

功能分析—功能注释

COG ( Clusters of orthologous Groups) KOG (EuKaryotic Orthologous Groups) PRK (Protein K(c)lusters) Pfam (Protein family) TIGRfam (主要对象是

细菌和古细菌蛋白)

功能分析—功能注释

COG ( Clusters of orthologous Groups)

Output1: COG hits

Output2: COG hits and classify

Output3: COG class

Output4: COG family

功能分析

Multiple metagenomics analyses

./client_submit_job.pl input_fasta_file_name program_name output_name "[email]" "[parameter_set_1]" "[parameter_set_2]" [input_fasta_file_name2] [job_id] ./Rammcap_submit_job.pl input_fasta_file_name program_path

群落结构分析

识别16S rRNA (blastN,数据库:Ribosomal Database Project)

注:MEGAN软件只能识别blast+中输出格式设为0、5、6的三中文件格式

过滤No-hits 条目 导入MEGAN4(已自动导入了NCBI-taxonomy)

群落结构分析

Taxonomic analysis

Functional analysis using the SEED classification

Functional analysis using the KEGG classification

Comparative visualization

群落结构分析

代谢途径分析

对Contigs文件进行本地blastX,数据库为ncbi-nr

blastX输出文件导入MEGAN,进行KEGG通路富集分析

常用软件汇总

工具平台 测序 质控 群落结构分析 序列拼接 ORF预测 COG 代谢途径分析

Illumina 454 pyrosequencing SOLID fastx_toolkit Denoiser FastQC Perl ,Python blast+ MEGAN4 Qiime ARB SOAPdenovo Velvet Abyss WebMGA MetaGene Orphelia SoftBerry MG-RAST CAMERA MEGAN4 WebMGA

数据库

RDP Silva grenngenes

SEED COG database KEGG

小结

1. 二代测序技术是分析微生物群落结构分析及功能研究的强有力工具 2. 掌握多项生物信息学分析软件可大大提高研究效率 3. 多学科交叉可为研究提供更多思路

致谢

感谢罗老师本学期的悉心教导,通过学习,我们掌握了生物信息学常 用工具,对生物信息学应用有了更全面的认识。 感谢助教及班级同学在课程学习中给予的帮助。


相关文章

  • 中国医学论坛报-2013WCLC专刊-B2版
  • 转化研究领域"好声音" 广东省医学科学院广东省肺癌研究所广东省人民医院张绪超吴一龙发自澳大利亚悉尼 继美国临床肿瘤学会(ASCO )年会后,美国纪念斯隆-凯特林癌症中心的克里斯(Kris )教授代表肺癌突变协作组(LCM ...查看


  • 宏基因组的生物信息分析
  • 第11卷第4期 201 生物信息学 ChineseJournalofBioinformaties V01.1lNo.4Dec.,2013 3年12月 doi:10.3969/j.issn.1672-5565.2013.04.07 宏基因组的 ...查看


  • 第八讲二代测序技术(新)
  • 二代测序技术 φX174:全长5,368bp Watson and Crick:DNA双螺旋 Fred Sanger:"DNA双脱氧链末端终止法" PCR技术,4色荧光标记代替同位素 1990-毛细管凝胶电泳 AB:自动 ...查看


  • DNA测序技术的发展历史与最新进展
  • 生物技术通报 ・技术与方法・ BIOTECHNOLOGY BULLETlN 2010年第8期 DNA测序技术的发展历史与最新进展 解增言 摘 林俊华谭军舒坤贤 (重庆邮电大学生物信息学院.重庆400065) 要:DNA测序技术是现代分子生物 ...查看


  • 一代.二代.三代测序技术
  • 一代.二代.三代测序技术 第一代测序技术-Sanger链终止法 一代测序技术是20世纪70年代中期由Fred Sanger及其同事首先发明.其基本原理是,聚丙烯酰胺凝胶电泳能够把长度只差一个核苷酸的单链DNA分子区分开来.一代测序实验的起始 ...查看


  • 第三代基因测序技术比较与总结
  • 第三代基因测序技术比较与总结 [摘要] 在第二代测序技术的协助下,个人基因组图谱正在如火如荼地绘制中. 在第二代测序技术的协助下,个人基因组图谱正在如火如荼地绘制中.但第二代测序技术很快就遇上了强劲的对手--第三代测序技术,也被称为&quo ...查看


  • 单细胞DNA 检验相关问题
  • 生物体是由单个细胞构成的,人体大约由不同组织的3.72×1013个细胞组成.微量混合DNA的检验一直都是法医DNA检验的难题.虽然通过计算的方法可以对混合DNA图谱拆分解释,但是对于复杂混合图谱,比如一个成分占主要时次要成分的检验,或者3人 ...查看


  • 中国布局细胞治疗分析
  • 中国布局细胞治疗分析 业内人士指出,我国的细胞治疗产业正在加速推进,在政策.技术的双重突破下,细胞疗法的相关上市公司有望迎来进一步的增长.据研究机构 Global Business Insight 所作的估计,2012年整个细胞疗法市场规模 ...查看


  • 基因组测序技术
  • 第4章基因组测序技术 基因组测序 技术进展 DNA复制 DNA的复制为半保留复制.由于DNA单链复制延伸时只能以核苷酸单体的5'-磷酸基团与前一个核苷酸的3'-羟基缩合生成磷酸酯键.因此DNA复制是以5'3'方式进行. DNA 聚合酶 I ...查看


热门内容