基于二代测序技术的宏基因组学分析
G05成员:王磊 刘唐 李春梅 王晨曲 汇 报 人:王晨曲
Our Team
G05-A 王磊 环境科学与工程学院
群落结构分析、ORF预测
G05-B 刘唐 环境科学与工程学院
群落结构分析, 代谢途径分 析
G05-C 李春梅 生命科学学院-BIOPIC
宏基因组测序文库构建、测 序数据拼接
G05-D 王晨曲 生命科学学院-分子医 学研究所所
测序数据拼接、COG聚类
人类基因组计划 Human Genome Project
人类微生物宏基因组 计划 Human Microbiome Project
肠道宏基因组计划 Metagenomics of the Human Intestinal Tract
地球微生物宏基因组 计划 Earth Microbiome Project
宏基因组学(Metagenomics)又叫微生物环境基因组学,宏基因组学通过直接 从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策 略研究环境样品所包含的全部微生物的遗传组成及其群落功能. 宏基因组学的研究对象是特定环境中的总DNA,不是某特定的微生物或其细胞 中的总DNA,不需要对微生物进行分离培养和纯化,这对我们认识和利用95% 以上的未培养微生物提供了一条新的途径。
群落结构复杂 基因组信息不完整…
如何高效分析宏基因 组测序产生的海量数 据?
微生物多样性 群落结构 进化关系 功能活性 相互协作关系 与环境之间的关系
基于二代测序技术的宏基因组学分析流程
样品DNA提取 测序文库构建 测序 原始reads 质控
序列拼接 ORF预测
数据统计
群落结构分析
常规分析
比对分析
Function comparison Different expression analysis
物种与功 能的关系
COG, KEGG …
Illumina 测序文库构建流程
Illumina HiSeq 2000 Platform
数据统计与预处理
数据统计 (FastQC)
数据质控 (DynamicTrim.pl , LengthSort.pl)
序列De novo assembly (SOAPdenovo2)
建立Contig 文件
序列De novo assembly (SOAPdenovo2)
Assembly
Contig Size_includeN Size_withoutN Number Mean_Size Median_Size Longest_Seq Shortest_Seq
Scaffold 269472205 270556143 269472205 268838613 1753401 1712316 153 158 100 100 98903 98903 100 100
Length >100 >500 >1K >10K >100K >1M
Contig 480523 45519 14122 317 0 0
Scaffolds 444655 50481 15908 361 0 0
筛选长度大于500bp的contig进行下列分析
功能分析
聚类分析 rRNA预测 tRNA预测 ORF预测 功能注释 通路分析 序列信息 质量控制 序列过滤 种群分类 OUT识别 格式转换
输入文件: Fasta格式 输出文件:gz格式
功能分析—ORF预测
输入contig >500bp 的 Fasta文件 上传文件后,点击job status,下载数据。
功能分析—ORF预测
下载数据
Output 1
Output 2
57,312 ORF (>100nt)
功能分析—功能注释
COG ( Clusters of orthologous Groups) KOG (EuKaryotic Orthologous Groups) PRK (Protein K(c)lusters) Pfam (Protein family) TIGRfam (主要对象是
细菌和古细菌蛋白)
功能分析—功能注释
COG ( Clusters of orthologous Groups)
Output1: COG hits
Output2: COG hits and classify
Output3: COG class
Output4: COG family
功能分析
Multiple metagenomics analyses
./client_submit_job.pl input_fasta_file_name program_name output_name "[email]" "[parameter_set_1]" "[parameter_set_2]" [input_fasta_file_name2] [job_id] ./Rammcap_submit_job.pl input_fasta_file_name program_path
群落结构分析
识别16S rRNA (blastN,数据库:Ribosomal Database Project)
注:MEGAN软件只能识别blast+中输出格式设为0、5、6的三中文件格式
过滤No-hits 条目 导入MEGAN4(已自动导入了NCBI-taxonomy)
群落结构分析
Taxonomic analysis
Functional analysis using the SEED classification
Functional analysis using the KEGG classification
Comparative visualization
群落结构分析
代谢途径分析
对Contigs文件进行本地blastX,数据库为ncbi-nr
blastX输出文件导入MEGAN,进行KEGG通路富集分析
常用软件汇总
工具平台 测序 质控 群落结构分析 序列拼接 ORF预测 COG 代谢途径分析
Illumina 454 pyrosequencing SOLID fastx_toolkit Denoiser FastQC Perl ,Python blast+ MEGAN4 Qiime ARB SOAPdenovo Velvet Abyss WebMGA MetaGene Orphelia SoftBerry MG-RAST CAMERA MEGAN4 WebMGA
数据库
RDP Silva grenngenes
SEED COG database KEGG
小结
1. 二代测序技术是分析微生物群落结构分析及功能研究的强有力工具 2. 掌握多项生物信息学分析软件可大大提高研究效率 3. 多学科交叉可为研究提供更多思路
致谢
感谢罗老师本学期的悉心教导,通过学习,我们掌握了生物信息学常 用工具,对生物信息学应用有了更全面的认识。 感谢助教及班级同学在课程学习中给予的帮助。
基于二代测序技术的宏基因组学分析
G05成员:王磊 刘唐 李春梅 王晨曲 汇 报 人:王晨曲
Our Team
G05-A 王磊 环境科学与工程学院
群落结构分析、ORF预测
G05-B 刘唐 环境科学与工程学院
群落结构分析, 代谢途径分 析
G05-C 李春梅 生命科学学院-BIOPIC
宏基因组测序文库构建、测 序数据拼接
G05-D 王晨曲 生命科学学院-分子医 学研究所所
测序数据拼接、COG聚类
人类基因组计划 Human Genome Project
人类微生物宏基因组 计划 Human Microbiome Project
肠道宏基因组计划 Metagenomics of the Human Intestinal Tract
地球微生物宏基因组 计划 Earth Microbiome Project
宏基因组学(Metagenomics)又叫微生物环境基因组学,宏基因组学通过直接 从环境样品中提取全部微生物的DNA,构建宏基因组文库,利用基因组学的研究策 略研究环境样品所包含的全部微生物的遗传组成及其群落功能. 宏基因组学的研究对象是特定环境中的总DNA,不是某特定的微生物或其细胞 中的总DNA,不需要对微生物进行分离培养和纯化,这对我们认识和利用95% 以上的未培养微生物提供了一条新的途径。
群落结构复杂 基因组信息不完整…
如何高效分析宏基因 组测序产生的海量数 据?
微生物多样性 群落结构 进化关系 功能活性 相互协作关系 与环境之间的关系
基于二代测序技术的宏基因组学分析流程
样品DNA提取 测序文库构建 测序 原始reads 质控
序列拼接 ORF预测
数据统计
群落结构分析
常规分析
比对分析
Function comparison Different expression analysis
物种与功 能的关系
COG, KEGG …
Illumina 测序文库构建流程
Illumina HiSeq 2000 Platform
数据统计与预处理
数据统计 (FastQC)
数据质控 (DynamicTrim.pl , LengthSort.pl)
序列De novo assembly (SOAPdenovo2)
建立Contig 文件
序列De novo assembly (SOAPdenovo2)
Assembly
Contig Size_includeN Size_withoutN Number Mean_Size Median_Size Longest_Seq Shortest_Seq
Scaffold 269472205 270556143 269472205 268838613 1753401 1712316 153 158 100 100 98903 98903 100 100
Length >100 >500 >1K >10K >100K >1M
Contig 480523 45519 14122 317 0 0
Scaffolds 444655 50481 15908 361 0 0
筛选长度大于500bp的contig进行下列分析
功能分析
聚类分析 rRNA预测 tRNA预测 ORF预测 功能注释 通路分析 序列信息 质量控制 序列过滤 种群分类 OUT识别 格式转换
输入文件: Fasta格式 输出文件:gz格式
功能分析—ORF预测
输入contig >500bp 的 Fasta文件 上传文件后,点击job status,下载数据。
功能分析—ORF预测
下载数据
Output 1
Output 2
57,312 ORF (>100nt)
功能分析—功能注释
COG ( Clusters of orthologous Groups) KOG (EuKaryotic Orthologous Groups) PRK (Protein K(c)lusters) Pfam (Protein family) TIGRfam (主要对象是
细菌和古细菌蛋白)
功能分析—功能注释
COG ( Clusters of orthologous Groups)
Output1: COG hits
Output2: COG hits and classify
Output3: COG class
Output4: COG family
功能分析
Multiple metagenomics analyses
./client_submit_job.pl input_fasta_file_name program_name output_name "[email]" "[parameter_set_1]" "[parameter_set_2]" [input_fasta_file_name2] [job_id] ./Rammcap_submit_job.pl input_fasta_file_name program_path
群落结构分析
识别16S rRNA (blastN,数据库:Ribosomal Database Project)
注:MEGAN软件只能识别blast+中输出格式设为0、5、6的三中文件格式
过滤No-hits 条目 导入MEGAN4(已自动导入了NCBI-taxonomy)
群落结构分析
Taxonomic analysis
Functional analysis using the SEED classification
Functional analysis using the KEGG classification
Comparative visualization
群落结构分析
代谢途径分析
对Contigs文件进行本地blastX,数据库为ncbi-nr
blastX输出文件导入MEGAN,进行KEGG通路富集分析
常用软件汇总
工具平台 测序 质控 群落结构分析 序列拼接 ORF预测 COG 代谢途径分析
Illumina 454 pyrosequencing SOLID fastx_toolkit Denoiser FastQC Perl ,Python blast+ MEGAN4 Qiime ARB SOAPdenovo Velvet Abyss WebMGA MetaGene Orphelia SoftBerry MG-RAST CAMERA MEGAN4 WebMGA
数据库
RDP Silva grenngenes
SEED COG database KEGG
小结
1. 二代测序技术是分析微生物群落结构分析及功能研究的强有力工具 2. 掌握多项生物信息学分析软件可大大提高研究效率 3. 多学科交叉可为研究提供更多思路
致谢
感谢罗老师本学期的悉心教导,通过学习,我们掌握了生物信息学常 用工具,对生物信息学应用有了更全面的认识。 感谢助教及班级同学在课程学习中给予的帮助。