正由于微生物组数据具有这些特征,在处理数据时应该加以考虑,正确处理,目前,R的phyloseq包提供了丰富的功能来处理特征表,分类树和元数据处理。但是基于编码的界面对于临床工作人员等科研人员十分不利。
MicrobiomeAnalyst这是应对这种情况而开发的工具。因此为无需专业编程技能就能可轻松进行微生物组数据的系统综合统计分析,交互式可视化和meta分析。用户可以从多种完善的方法中进行选择,并实时浏览结果,以更好地了解其数据。自2017年首次发表以来,MicrobiomeAnalyst已逐渐在微生物组研究人员中流行。在过去的12个月中,该Web服务器已处理了来自全球20,000多个用户的70,000份数据分析作业。我们一直在积极改进当前功能,并根据用户的反馈和文件的发展添加新功能。为了满足不断增长的用户流量和计算需求,服务器最近已迁移到高性能GoogleCloud平台。
Overviewoftheanalysisworkflowandtheinterfacedesign
MicrobiomeAnalyst的总体工作流程如图1所示。共有四个模块:标记基因/扩增子数据(Marker-geneDataProfiling,MDP)、宏基因组数据(ShotgunDataProfiling,SDP)、综合公共数据(ProjectiontoPublicData,PPD)、分类单元集富集分析(TaxonSetEnrichmentAnalysis,TSEA)。四个模块共享相同的常规工作流程-数据准备,数据分析和可视化探索。在数据准备阶段,上载用户数据以进行过滤和标签化。此后,可以对处理后的数据执行各种统计和可视化方法,以检测例如总体模式、重要功能、潜在的交互作用和功能见解。对于MDP模块,总共提供了19种精心选择的方法(图2)。每种方法的Web界面允许用户调整关键参数,以进行交互式分析和结果的可视化探索。经过基本数据预处理,就数据类别进行对应的下游分析,可通过交互式对核心参数调整。
图1|MicrobiomeAnalyst工作流程概述。MicrobiomeAnalyst包含四个模块:标记基因数据分析(MDP),鸟枪测序分析(SDP),公共数据元分析(PPD)和富集分析(TSEA)。在他们各自的流程里阐明了每个模块的关键功能。PC,主坐标。
图2|全面的数据分析和报告生成。扩增子MDP“分析概述”页面(1)的屏幕截图,展示了可用的分析方法集和。左上角显示导航栏,当前页面以红色突出显示。页面右侧的“R命令历史记录”面板显示所有可在R中分析的R命令。“页面下载”面板显示从当前页面生成的结果。用户还可以点击顶部导航栏中的“下载”链接,进入“结果下载”页面(2)并批量下载所有结果,并生成全面的分析报告(3)。
Fig.2|Comprehensivedataanalysisandreportgeneration.AscreenshotoftheMDP‘AnalysisOverview’page(1)toillustratethecomprehensivesetofanalysismethodsavailable.Thetopleftcornershowsthenavigationtrackwiththecurrentpagehighlightedinred.The‘RCommandHistory’paneltotherightofthepagedisplaysallunderlyingRcommands.The‘Downloadsofthepage’paneldisplaystheresultsgeneratedfromthecurrentpage.Userscanalsoclickthe‘Downloads’linkfromthetopnavigationtracktoenterthe‘ResultsDownload’page(2)andbatch-downloadallresultsaswellastogenerateacomprehensiveanalysisreport(3).
Comparisonwithotherweb-basedtools
目前主流的微生物数据处理的网站有MG-RAST、VAMPS、Calypso。MG-RAST:用于注释和存储原始宏基因组学数据的公共资源,提供基础的统计分析和可视化,高级分析推荐matR包处理;VAMPS:主要提供可视化分析,如热图,饼图和主坐标分析(PCoA)图等;Calypso:支持数据处理以及微生物组数据的多样性,比较和网络分析。与这些工具相比,MicrobiomeAnalyst实时可见分析过程及其具体R命令以提高透明度和可重复性,可轻松导航到指定数据处理步骤;胜任复杂的分析任务。例如,MDP模块当前提供了19种经过精心选择的统计分析和可视化方法。物种富集分析是MicrobiomeAnalyst独有的功能;其次,MicrobiomeAnalyst的用户高度评价的另一个功能是在整个数据分析过程中创建的可用于发布出版物级别的图形输出。MicrobiomeAnalyst通过提供全面的分析报告和R命令历史记录以及其配套的R包提高了数据分析的透明度和可重复性。表1显示了MicrobiomeAnalyst与这三个基于Web的工具之间的详细比较。
Table1|ComparisonsofMicrobiomeAnalystwithotherweb-basedtoolsformicrobiomedataanalysis
Limitations
Experimentaldesign
下面的实验方法分为四个部分,以展示MicrobiomeAnalyst中的所有四个模块:(i)对16SrRNA标记基因丰度数据的全面分析(步骤1至30);(ii)进行预测性功能分析,然后进行《京都基因与基因组百科全书》(KEGG)直系同源(KO)丰度表的途径富集分析和网络可视化(步骤31-49);(iii)使用公共数据集进行视觉数据探索(步骤50-56);(iv)分类单元集富集分析(步骤57-63)。下面的过程中提供了详细的分步教程。
Comprehensiveanalysisof16SrRNAabundancedata
Functionalprofilingandnetworkvisualizationofgeneabundancedata
SDP模块提供了一组相似的方法,用于模式发现和对由预测功能分析或宏基因组学/宏转录组学产生的基因丰度数据进行比较分析。SDP的独特功能是其基于模块,途径和代谢网络的功能注释。MicrobiomeAnalyst使用户可以轻松地可视化这些功能在样本和研究条件中的分布。它还支持显式统计检验以识别丰富的功能。用户可以在新陈代谢网络环境中以交互方式浏览结果,以进一步了解功能。
Visualcomparisonwithapublicdataset
随着公共数据集数量的增加,荟萃分析已成为比较和假设产生的强大方法。PPD模块旨在使用户能够在兼容的公共数据集范围内直观地浏览自己的16SrRNA数据。这些公共数据集主要来自Qiita。用户选择用于荟萃分析的数据集必须共享至少20%的分类学特征才能进行有意义的比较。在此模块中,将对用户和公共数据进行共同处理,然后共同投影到交互式3DPCoA图中以进行视觉比较。用户可以比较样品的分类组成,以找出哪些分类单元在推动组分离。这使用户能够将其数据关联到上下文中以获得全局视角,以便例如识别不同环境或人群之间的成分差异。
Enrichmentanalysisofalistoftaxa
Box1|Preprocessingofraw16SrRNAampliconsequencingdata
此框描述了原始序列数据预处理的一般步骤和可用工具。标记基因的扩增子测序是一种广泛用于跨不同宿主和环境的微生物群落分类学分析的方法。从测序平台获得原始序列后,需要生物信息学流程将原始读取转换为分类信息。传统上,原始读取会转换为OTU,即满足97%相似性阈值划归为一个OTU。现在通常建议将原始读数转换为高分辨率的ASV,可以根据其独特的生物学序列对其进行鉴定,以促进整个研究的荟萃分析。所有生物信息学流程的主要预处理步骤是(i)测序序列的质量控制,(ii)序列的聚类和(iii)分类分配。常用的管道包括QIIME,mothur,UPARSE,以及最近的DADA2。DADA2的工作原理是生成一个参数错误模型,该模型将对所有原始测序数据进行训练,并应用该模型将序列错误纠正和合并为ASV。MicrobiomeAnalystR软件包集成了DADA2,可用于原始16SrRNA扩增子测序数据。
Box2|Dataformattingandupload
此框说明如何为MicrobiomeAnalyst准备处理后的微生物组数据。MicrobiomeAnalyst接受从几个常用的生物信息学流程生成的丰度数据。这些文件可以以纯文本格式(.txt或.csv)上传,也可以直接作为.biom或.shared文件上传。用户还必须提供描述相同样品的组信息的分组信息文件。以下是有关如何格式化MicrobiomeAnalyst的丰度,分类和分组信息文件的简短说明。
丰度表应设置格式,以使特征于行中,样本位于列中。第一行应以“#NAME”开头。如果特征名称包含微生物分类单元名称,请确保用使用分隔符;分隔(例如,Bacteria;Firmicutes;Clostridia)。如果特征不包含特定的分类名称(例如,OTU000001),则还必须提供分类注释文件(请参见下文)。
分类文件的格式应设置为使特征名称在第一列中,表开头必须是‘#TAXONOMY’。应在“Phylum”,“Class”,“Order”,“Family”,“Genus”和“Species”列的下包含所有功特征的分类信息。特征名称必须与出现在丰富文件中的特征名称匹配。
分组数据文件应设置格式,以便第一列包含样本名称,命名为“#NAME”。随后的列包含有关组或其他实验因素信息。样品名称必须与丰度文件中显示的样本名称匹配。
Stage1:Comprehensiveanalysisof16Sabundancedata
大约30分钟,具体取决于数据集的大小
图3|用于beta多样性分析的交互式3DPCoA图。Beta多样性分析生成的3DPCoA图和饼图的屏幕快照。用户可以旋转图形或双击任何样本,以在选定的分类学级别通过饼图查看其微生物丰度信息。显示了两个饼图,一个来自对照样品,另一个来自克罗恩病人(CD)样品。对照样品以拟杆菌属为主导,而CD样品以大肠埃希菌为主导。
Fig.3|Interactive3DPCoAplotforbeta-diversityanalysis.Ascreenshotofthe3DPCoAplotandpiechartsgeneratedbythebeta-diversityanalysis.Userscanrotatethegraphordouble-clickanysampletoviewapie-chartsummaryofitsmicrobialabundancesataselectedtaxonomiclevel.Twopiecharts,onefromacontrolsampleandonefromaCrohn’sdisease(CD)sample,areshown.ThecontrolsampleisdominatedbyBacteroides,whereastheCDsampleisdominatedbyEscherichia.
图4|树形热图的分类差异可视化。树形热图的屏幕截图,用于说明两个选定组之间的分类差异。页面顶部显示比较的两组,注意只能是两组之间比对。颜色渐变以及节点,边缘和标签的大小基于中位数丰度的log2比值。在这种情况下,蓝色和红色表示与对照组相比,克罗恩病患者的相应微生物分类单元分别较低和较高的程度。
Fig.4|Heattreevisualizationoftaxonomicdifferences.Ascreenshotofaheattreetoillustratethetaxonomicdifferencesbetweenthetwoselectedgroups.Thetopofthepageshowsthekeyparameters.Thecolorgradientandthesizeofnode,edge,andlabelarebasedonthelog2ratioofmedianabundance.Inthiscase,blueandredindicatethatcorrespondingtaxaarelowerandhigher,respectively,inCrohn’sdiseasepatientsascomparedwithcontrols.
图6LEfSe分析的图形。重要分类单元按其LDA分数(x轴)降序排列。绘图右侧的迷你热图指示每组中的分类单元是较高的(红色)还是较低的(蓝色)。
图7|可视化“随机森林”结果。“随机森林”分析结果的屏幕截图。右表显示了每个组的分类效果表格。用户可以点击“重要特征”标签查看那些对模型准确性有重大影响的标记物。
Stage2:Predictivefunctionalprofilingandanalysisofgeneabundancedata
大约20分钟,具体取决于数据集的大小。
图8|KEGG整体代谢网络中富集通路的可视化。KEGG整体代谢网络的屏幕截图。顶部工具栏包含用于网络自定义的所有选项,例如背景颜色,突出显示颜色以及是否显示路径名称。左侧面板包含浓富集分析的结果,面板底部提供了所有匹配KO的KEGG网站链接。通过在网络中以不同颜色突出显示标记路径。
Fig.8|VisualizationofenrichedpathwaysintheKEGGglobalmetabolicnetwork.AscreenshotoftheKEGGglobalmetabolicnetwork.Thetoptoolbarcontainsalloptionsfornetworkcustomization,suchasbackgroundcolor,highlightcolor,andwhethertoshowpathwaynames.Theleftpanelcontainstheresultsoftheenrichmentanalysis,andthebottomofthepanelprovidelinkstotheKEGGwebsiteforallmatchedKOs.Selectedpathwaysarehighlightedindifferentcolorswithinthenetwork.
Stage3:Visualdataexplorationwithacompatiblepublicdataset
大约10分钟,具体取决于数据集的大小。
Stage4:Enrichmentanalysisofalistoftaxa
图9|TSEA结果。页面顶部是一个可缩放的网络。用户可以单击任意节点,以通过右侧的“TaxonSetView”选项来查看有关基础分类单元集的更多详细信息。带有详细统计信息的结果表显示在页面底部。
Fig.9|TSEAresults.Atthetopofthepageisanenrichmentnetwork.Userscanclickanynodetoviewmoredetailsabouttheunderlyingtaxonsetviathe‘TaxonSetView’optionontheright.Theresulttablewithdetailedstatisticalinformationisshownatthebottomofthepage.
此框描述了MicrobiomeAnalyst中可用于数据过滤和标准化的不同方法。微生物组数据会受到从样品制备到测序的各种系统变异的影响。过滤和标准化的目的是消除或减少这种系统的可变性。下面将进一步讨论最常用方法的优缺点。但是,方法的选择取决于要执行的分析的类型。
抽平通常用于解决不均匀的文库大小。此方法通过随机进行二次采样而不替换不认为有缺陷的最小文库的大小。由于有用信息的潜在丢失而受到批评。但是,该方法已被证明对于组之间非常小的(<1,000个读长/样本)或非常不均匀的库大小(差异大于>10倍)有用,对于比较生态群落(β多样性)也很重要。
缩放涉及将特征数量乘以样本比例因子以解决不均匀的测序深度,将原始读长频数转换为相对丰度。最常用的方法是总和缩放(totalsumscaling,TSS),其中数据除以每个样本中读长的总数。该方法受到批评,因为读长数量的总数可能受少数几个最丰富的特征所支配,这会导致相对丰度不够准确。此外,TSS并未考虑跨测量值的特征方差的异方差性。已经提出了其他标准化方法,例如:高分位数(upperquantile,UQ)和累积总和缩放(cumulativesumscaling,CSS),以解决此类问题。特别是在进行差异分析时,建议使用CSS来控制具有较大组大小的数据中的FDR。但是,在进行群落级别的比较(例如估算β多样性)时,建议使用TSS,因为它可以最准确地捕获原始群落的组成,而UQ和CSS会使群落变形。
数据转换的目的是稳定数据的方差。由于微生物组数据性质,通常建议使用中心对数比(centeredlogratio,CLR)。此外,其变体,相对对数表达(relativelogexpression,RLE)和修整均(mean,M)值(TMM)在识别差异特征方面一直表现出较高的性能。
Box4|Alphaandbetadiversity
此框描述了MicrobiomeAnalyst中可用于群落分析的α和β多样性分析。Alpha多样性是样本内多样性的一种度量,而β多样性是样本间多样性的一种度量。可以将Alpha多样性视为单个样本多样性的汇总统计,而可以将β多样性估计值视为成对样本之间的相异性结果。对于后者,这些措施允许通过聚类或降维技术进行进一步分析。可以使用各种统计检验来评估差异是否显着。更多细节请往下看。
Alpha多样性概括了样本中物种的丰富度(物种总数)和/或均匀性(物种间的丰度分布)。MicrobiomeAnalyst当前支持六种alpha多样性度量,每种评估群落的不同方面。“Observed”可计算每个样本的特征总数,而“ACE”和“Chao1”可通过计算由于丰度低而未被检测到的特征来估算分类单元丰富度。“Shannon”和“Simpson”考虑了物种的丰富性和均匀性,对均匀性的重视程度各不相同。最后,“Fisher”将群落的丰度结构转化为对数。
Beta多样性评估样本之间群落组成的差异。可以将所得的β多样性估计值合并到距离矩阵中,并用于进行排序。彼此接近的样品在其微生物群落特征方面更为相似。MicrobiomeAnalyst支持五种最常用的β多样性指标。“Jaccard距离”仅使用特征的存在与否来计算微生物成分的差异;“Bray-Curtis差异”使用丰度数据并计算特征丰度的差异;“Jensen-Shannondivergence’”评估两种概率分布之间的距离,这些概率分布说明了微生物特征的存在与丰富度;“UnweightedUniFrac”和“weightedUniFrac”使用特征之间的系统发生距离-前者仅基于系统发生距离,而后者则根据特征的相对丰富度进一步加权。
Box5|Correlation,comparisonandclassification
随机森林(RandomForest,RF)是一种有监督的机器学习算法,已应用于微生物组数据进行分类以及识别对分类具有重要作用的微生物分类群。RF非常适合用于大型和大噪音的数据,例如微生物组的数据,因为它能够识别非线性关系,处理可变的相互作用并且可以处理过度拟合。RF通过使用随机选择的训练数据子集构建多个决策树来工作。每棵树是通过在每个节点上随机选择一小组要分割的特征而形成的。通过所有树的多数投票来实现分类预测。为了评估分类准确性,在树构建过程中将1/3个样本去除,随后使用模型对这些样本进行分类,以计算袋外或OOB错误率。
Box6|Functionalprediction
故障排除建议可在表2中找到。
第1步至第30步,阶段1,对16S丰度数据进行全面分析:约30分钟,具体取决于数据集的大小
该方法使用户能够对其微生物组数据进行全面分析。提供了三个示例数据集:每个分别用于儿童IBD样本,老年小鼠样本和耕地土壤样本。在分析过程中产生的主要图形输出如图3–9。用户不仅能够描述其微生物群落并识别重要特征,还可以通过富集分析和基于代谢网络的可视化获得功能见解。PPD和TSEA模块还允许用户通过将其数据与兼容的公共数据集或已知的微生物标签进行比较来进行潜在分析或新颖见解,从而进行元分析。
链接到本文的《自然研究报告摘要》中提供了有关研究设计的更多信息。