在微生物组领域,我们主要利用的是基于相位网格的三元图,其特点是每一种成分在相应等边三角形的顶点的比例为100%,在其对面的线为0%,将零点线和顶点按比例划分,用以估计各成分的含量。如图1:y对面的底线代表落在底线上的所有点在y中占比为0,随着平行线逐渐靠近顶点,落在相应平行线上的点在y中的占比越来越高。
在解读三元图时,我们可以通过点的位置快速获得其在三个分组中的相对比例信息:目标点越靠近一角的顶点,说明他在相应的分组中比例越高;反之其相对比例就越低。根据图1,经过点的平行线在等边三角形两边的截距代表该点在对应顶点分组的占比,因此可以得出该点的在三个分组中的占比情况。如图2:过绿色点分别向三条边做平行线,然后按逆时针方向依次读取平行线在三条边的截距约为(0.33,0.33,0.33),因此该点在x,y,z三个组分中的占比为0.33,0.33,0.33;依此原则可得出,红点占比为0.1,0.2,0.7;蓝点占比为0.2,0.7,0.1;该结果跟我们的作图代码是相符的。
在微生物多样性实际分析中,由于OUTs数目繁多,我们并不需要获得如此精确的占比情况。一般来说,三元图不同的点代表不同的OTUs(或其他分类水平),点的大小代表该OTUs的平均丰度(一般需要log2或log10等转换)。不仅如此,还可以对OTUs在各微环境中的丰度数据进行统计检验后,得出各OTU分别在哪种微环境中显著富集,此时三元图不仅表现出OTUs或者物种在微环境中的相对比例,还包含显著性统计结果,它打破了火山图或韦恩图两两比较的结果,总共展示了6次两两比较的结果,即每个组的富集情况是相对于其他两组的。
三元图的应用有非常大的局限性,就是必须有3个实验组。只有两组的课题就不要考虑此类图型的应用了。值得一提的是,实验设计3组也是有着最高性价比和最广泛的应用,因为2组只有1种比较组合,而3组仅成本上升50%,却有3种比较组合,结果的图表量瞬间上升为3倍,性价比极高。而3组以上组合太多,反而不利于作者把故事讲清楚,读者阅读和理解也存在一定困难。因此强烈推荐在尽量可能的情况下,设计为3组起的实验,可以有更多的分析和讨论空间,也可以应用有监督的排序分析、三元图等常用结果样式。下面分别选取来自FrontierinMicrobiology、PNAS和NatureCommunications杂志中近年的三元图结果进行解读和点评。
图片描述:三元图展示不同区域(土体土、根际土、根内)样本的群落结构在门水平上的差异情况,每个圆点代表一个OTU,OTU的大小、颜色和位置分别代表其相对丰度、菌门水平名称和分组情况。
DistributionofOTUsandphylaacrossdifferentcompartments.(A)TernaryplotofallOTUsplottedbasedonthecompartment(Bulksoil,Rhizospheresoil,Endosphere)specificity.EachcirclerepresentsoneOTU.Thesize,colorandpositionofeachOTUrepresentsitrelativeabundance,bacterialphylaandaffiliationoftheOTUwithdifferentcompartments,respectively.
图注描述注意事项:
文中的图片解读:
主要描述了比较突出的情况,如丰度较高、规律性变化或明显聚集在某区域的门。在门水平的不同部位中,细菌群落结构明显不同。这些差异的主要原因是由于厚壁菌门在根内相对丰度较高引起,而在土体土和根际土中它们的丰度却很低。变形杆菌和拟杆菌的相对丰度从土体土到根际土再到根内逐渐增加,同时候选门AD3、芽单胞菌门和绿弯菌门的相对减少,它们共同构成根内微生物群落丰度<4%。
Bacterialcommunitystructureswereclearlydifferentinthedifferentcompartmentsatthephylumlevel.ThesedifferencesweremainlydrivenbystrongrelativeenrichmentofFirmicutesintheendosphere-derivedsequencedatasets,comparedtotheirverylowabundancesinthebulkandrhizospheresoils.TherelativeabundancesofProteobacteriaandBacteroidetesincreasedprogressivelyfrombulktorhizospheresoiltotheendosphere,withaconcomitantdecreaseinthoseofcandidatedivisionAD3,GemmatimonadetesandChloroflexi,whichcollectivelyconstituted<4%ofendospherecommunities.
本例选自2016年发表于PNAS杂志上一文的图4(Zgadzajetal.,2016),介绍了豆科模式植物百脉根的结瘤突变体中根际微生物组变化的研究。
图片描述:
TernaryplotsdepictingcompartmentRAofallOTUs(>5‰)forWTSampleID(A;WT;n=73)andmutantSampleID(B;nfr5-2,nfr5-3,nin-2,andlhk1-1;n=118)acrossthreesoilbatches(CAS8–CAS10).EachpointcorrespondstoanOTU.ItspositionrepresentsitsRAwithrespecttoeachcompartment,anditssizerepresentstheaverageacrossallthreecompartments.ColoredcirclesrepresentOTUsenrichedinonecompartmentcomparedwiththeothers(greeninroot,orangeinrhizosphere,andbrowninrootSampleID).AggregatedRAsofeachgroupofenrichedOTUs(root-,rhizosphere-andsoil-enrichedOTUs)ineachcompartmentfortheWTSampleID(C;WT;n=73)andmutantSampleID(D;nfr5-2,nfr5-3,nin-2,lhk1-1;n=118)areshown.Ineachcompartment,thedifferencefrom100%RAisexplainedbyOTUsthatarenotsignificantlyenrichedinaspecificcompartment.
总结:
该图在例1的基础上添加了组间显著性差异比较的结果,包含了6次两两比较和三次韦恩图比较的结果,信息高度概括。同时,作者还进一步结合相对丰度的箱线图突出组间差异;此外,通过使用相同的色系进行A与B图,C与D图的横向比较,突出明显的分布差异,使用两类材料微生物组不同的规律一目了然。
图5.土壤、叶片和毛虫共享的微生物。
a.在土壤,食用离体叶片,食用植株的毛虫中共有OTU的分布。b.在植物,食用离体叶片,食用植株的毛虫中共有OTU的分布。c.食用离体叶片毛虫和植株毛虫肠道共有和特有OTU的数量。图中颜色含义和a,b图中的一致。
结果
两种喂养方式毛虫共有的核心微生物群落也存在于植株根系(19.1%)和叶片(20.3%)中(图2a–c),同时也有特有的微生物群,大约16.7%微生物仅仅发现在毛虫中。毛虫核心微生物群组成细菌主要有变形菌门、放线菌门和厚壁菌门,真菌为未注释的OTU。值得注意的是以完整植株为食的毛虫大部分OTU也存在与土壤中(75%)。以完整植株为食的毛虫中有超过离体叶片为食的毛虫三倍的OTU数量。
Caterpillarsfedonintactplantsanddetachedleavessharedacommoncoremicrobiomewhichwasalsopresentintheleaves(20.3%oftheirmicrobiome)andintheroots(19.1%)(Fig.2a–c),butalsoharboreduniquemicrobes;16.7%ofthecaterpillarmicrobiomewasfoundonlyincaterpillars.ThiscoremicrobiomeofcaterpillarsconsistedpredominantlyofProteobacteria,Acidobacteria,Firmicutes,andunclassifiedfungi(SupplementaryFigs6,7).Remarkably,forcaterpillarsfedonintactplants,alargeproportionoftheOTUsfoundincaterpillars,wasalsodetectedinthesoil(75%;representedasnumbers1and4inFig.2a).MicrobiomesofcaterpillarsfeddetachedleaveshadvirtuallynoadditionalOTUsthatwerenotalsofoundincaterpillarskeptonintactplants(Fig.2c),butthemicrobiomesofthelattercontainedthreetimesmoreOTUs.
总结
由于前期数据处理是三元图主要的难点,所以在这里将数据处理和可视化分开,使用时便于检查异常、调整分析细节。
按需求安装,没必要每次都运行该安装代码,一般运行一次即可。
函数data_clean参数介绍:
三元图展示不同处理组(KO,OE,WT)的样本的群落结构在OTUs上的丰度差异情况,每个圆点代表一个OTU,OTU的大小和位置分别代表其相对丰度和分组情况。
由于该图中并未全部展示所有OTUs,所以在描述的时候,最好对数据筛选的参数进行描述:
从图中可以看到KO(基因敲除,knock-out)组与OE(过表达,over-expression)和WT(野生型,wild-type)组存在丰度差异,即基因的有无可对微生物群落的丰富度引起变化。
上图能够展示的信息和按主丰度着色后的可视化方案是一致的,但叙述时可以像图3一样着重介绍突出情况,比如丰度较高的OTUs有那些,富集情况很特殊的有哪些。
函数top_OTUs参数介绍:ggtern输入文件筛选丰度前N(10)的OTUs
图7.三元图展示OTUs的实验分组特异性
三元图展示不同处理组(KO,OE,WT)的样本的群落结构在OTUs上的丰度差异情况,每个圆点代表一个OTU,OTU的大小、颜色和位置分别代表其相对丰度、主丰度OTUs名称和分组情况。值得注意的是,红色原点所代表的ASV_5在KO组中丰度几乎为0,但在WT和OE均有相对较高的丰度。具体可以再结合物种注释进一步描述。
除了上面直接展示OTUs在不同分组中的丰度富集情况,还可以通过显著性富集分析,获得在不同分组中显著富集的OTUs,最后进行可视化(例2)。
图8.三元图展示各组特异富集的OTUs
除了图6中的信息外,该图还展示了在KO,OE,WT三个分组中,分别相对于另外两个分组显著性富集的OTUs。WT组一个特异的都没有。
由于该图中并未全部展示所有OTUs,所以在描述的时候,最好对数据统计分析过程的参数进行描述:
责编:刘永鑫中科院遗传发育所
版本更新历史
1.0.0,2020/6/6,吴一磊,初稿;文涛审阅;刘永鑫审阅
1.0.1,2020/6/9,吴一磊,小修,添加模拟数据,可独立运行的代码;刘永鑫审阅
1.0.2,2020/6/22,吴一磊,大修,添加实例讲解,代码封闭函数;刘永鑫审阅
1.0.3,2020/6/25,席娇,文字修改
1.0.4,2020/6/27,刘永鑫,整合修改意见;添加一篇NC实例讲解