与二代Illumina测序平台相比,三代测序平台PacBioSequelⅡ应用SMRT测序技术实现单分子实时测序。SMRT测序原理是以SMRTCell为载体,每个SMRTCell上布满了数百万个零模波导孔(ZMW),测序时DNA聚合酶和一条模板分子被瞄定在ZMW孔底部进行反应,位于小孔底部的激发光能够激发核苷酸底物上的荧光标记,进而通过监测系统将荧光信号记录下来,从而获得碱基信息。整个测序过程DNA分子不需要经过PCR扩增,实现了对每一条DNA分子的单独测序。
A.长读长、高产出
PacBioSequelII测序Polymerasereads平均读长可达25kb以上,N50在35kb以上,另外目前单个SMRTCell产量有大幅提升,安诺基因目前CLR模式单个SMRTCell的数据产量平均在110Gb左右,而CCS模式平均单个SMRTCell的数据产量位250Gb左右。
SequelII平台酶读长展示
B.高一致性准确度
PacBioSMRT测序的原始数据错误率在10%~12%左右,但这种错误率是随机发生的,不存在系统偏好性,因此,PacBio测序可以利用自身的数据进行纠错,当数据深度达到50X左右时,一致性序列准确性超过99.999%(QV50),这也是ONT平台测序存在同聚物偏好性错误而无法自身进行校正无法比拟的。
C.均匀的覆盖度
大多数测序系统受到覆盖偏好性的困扰,从而导致富含AT或富含GC的DNA区域、高度重复序列等难以测序。这往往会导致不完整基因组覆盖率,甚至会在最终结果中造成高达15%的基因组信息缺失。单分子实时(SMRT)测序不需要扩增步骤,可实现对整个基因组的均匀覆盖。这样就能够测序回文序列和多样性程度低的基因组区域,同时长读长测序同样能够跨越复杂区域。
D.高精准度的长读长HiFireads
SequelII平台除了具有超长读长的CLR测序模式外,还可以进行兼顾读长与高精准度的HiFireads(Highfidelityreads),一般采用CCS(CircularConsensusSequencing)模式测序。在这种测序模式下,酶读长一般大于插入片段长度,因此酶会绕着模板进行滚环测序,插入片段会被多次测序。单次测序中造成的随机测序错误,可以通过算法进行自我纠错校正,最终得到高准确度的HiFireads。
小科普:什么是HiFireads?
HiFireads(Highfidelityreads)是SequelII三代测序平台推出的兼顾长读长和高准确度的测序序列,一般采用CCS(CircularConsensusSequencing)模式测序。在这种测序模式下,酶读长一般大于插入片段长度,因此酶会绕着模板进行滚环测序,插入片段会被多次测序。单次测序中造成的随机测序错误,可以通过算法进行自我纠错校正,最终得到高准确度的HiFireads。要在单次测序中得到更多的HiFireads往往需要平衡测序的酶读长和插入片段的长度,插入片段太长会导致酶无法进行滚环测序,插入片段太短又牺牲了三代长读长测序的优势。因此HiFi模式测序对酶试剂和建库过程的均一性要求较高。做完科普了,小编先带大家看一下安诺近期下机的HiFi测序数据~
安诺HiFireads数据测评
根据前期的官方经验推荐,目前HiFi文库构建的插入片段一般为8-13kb左右。本次安诺优达构建约10kb的HiFi文库在SequelII平台进行测序。原始下机数据单cell产出268Gb数据,其中酶平均读长51kb,酶读长N50124kb,subreads平均读长11kb,subreadsN5013kb。
下机数据产出统计表
进一步利用官方软件调取CCS,设置最小pass数为3,经过调取获得CCS总数据量为22.43Gb,CCS序列数目为172.5万条,平均长度13kb。与下机总数据量相比,目前CCSreads的得率约为8%,并且能够兼顾reads的读长,达到平均13kb左右,数据质量相当不错!
CCS数据产出统计表
小编对我们拿到的HiFireads进行进一步的质量评估,发现大部分HiFireads的准确度都在0.95以上,其中约35%的reads(pass≥10)质量值达到QV30(99.9%),这样高质量的reads非常有助于研究者开展下游深入的研究。
CCS质量分布图
HiFireads有哪些用处?
参考文献::[1]Wenger,Pelusol,etal.Highly-accuratelong-readsequencingimprovesvariantdetectionandassemblyofahumangenome[J].BioRxiv,2019.
(1)人基因组重测序——结构变异检测
结构变异,包括倒位、缺失、重复和易位,是大多数癌症基因组的标志。结构变异的发现及其对基因结构和表达的影响大大促进了我们对肿瘤和疾病发生的认识。然而,利用二代外显子和全基因组测序鉴定基因组中的结构变异仍具有挑战性。作为前沿热点技术PacBioSMRT低深度人重测序是研究结构变异的利器。
结构变异,包括倒位、缺失、重复和易位,是大多数癌症基因组的标志。结构变异的发现及其对基因结构和表达的影响大大促进了我们对肿瘤和疾病发生的认识。然而,目前利用二代外显子和全基因组测序鉴定基因组中的结构变异仍具有挑战性。作为前沿热点技术PacBioSMRT低深度人重测序和Hi-C技术都是研究结构变异的利器。DixonJR等研究也发现在癌症基因组中存在很多因结构变异而导致的三维基因组结构改变的案例[1],而这些结构变异很可能在肿瘤发生的基因错误表达调控中起到关键作用。
如何利用多组学技术综合阐释肿瘤或疾病发生过程中基因异常表达调控的分子机制,安诺基因生信团队研发计算流程通过将三代人基因组重测序、Hi-C测序和转录组测序的数据相结合,分析癌症或疾病基因组中的各种结构变异模式,以及结构变异对空间三维结构的影响和对基因表达的调控作用。
整体研究思路
三代人重+Hi-C+转录组多组学研究思路图
部分分析结果展示
变异信息全局总览图
TAD总览图
两样本差异矩阵全局互作热图
样本间差异A/Bcompartment分析图
样本间差异TAD分析图
以上是基于三代人重、Hi-C、转录组测序的医学三组学研究方案,除了以上组学的联合分析,安诺三代医学多组学方案,还支持包含全基因组甲基化、ChIP-seq、蛋白质组在内的整体多组学私人定制化研究方案。
参考文献:[1]DixonJR,JieX,VishnuD,etal.Integrativedetectionandanalysisofstructuralvariationincancergenomes[J].NatureGenetics,2018.
(2)基因组denovo中的应用——染色体水平同源多倍体单体型基因组
二代测序用于组装存在读长短、难于跨越基因组重复序列等局限,制约了组装结果的连续性,而三代PacBioSequelII平台CLR模式平均读长可达20kb以上,因此在进行基因组组装中具有明显优势,尤其是组装一些同源多倍体或高重复序列的基因组。2019年8月5日,福建农林大学基因组中心张兴坦副教授和唐海宝教授研究组通过三代测序平台PacBio(113X)以及Hi-C(100X)数据,利用ALLHi-C算法解决了同源多倍体基因组组装的技术难题,成功完成了同源四倍体和同源八倍体甘蔗染色体组装,安诺基因作为合作单位有幸参与了该项目的研究工作。
2019年8月5日,福建农林大学基因组中心张兴坦副教授和唐海宝教授研究组在NaturePlants杂志在线发表题为“Assemblyofallele-aware,chromosomal-scaleautopolyploidgenomesbasedonHi-Cdata”的研究论文,该研究利用ALLHi-C算法解决了同源多倍体基因组组装的技术难题,成功完成了同源四倍体和同源八倍体甘蔗染色体组装,安诺基因作为合作单位有幸参与了该项目的研究工作。
研究背景
同源多倍体在植物中较为常见,一般是由于相同的两套或多套基因组经过加倍形成的,有重要的遗传育种和农业生产价值。然而除了已发表的甘蔗割手密基因组[1]外,染色体级别的同源多倍体基因组很少被破译出来。目前Hi-C技术越来越多的应用于辅助染色体水平二倍体基因组组装,但是对于同源多倍体和近期加倍的异源多倍体来说,其同源染色体之间的Hi-C交联信号会将序列相似的等位基因片段连接在一起,导致同源染色体被错误地连接到一起,形成大量嵌合的组装,所以其组装仍存在较大困难。本研究中研究者利用ALLHi-C算法突破了同源多倍体染色体组装的技术困境,取得了开拓性的进展。
材料选择
同源四倍体甘蔗AP85-441,同源八倍体甘蔗Molokai-6081
研究结果
Fig.1ALLHiC算法流程和功能模块[2]
Fig.2ALLHiC算法组装同源四倍体甘蔗基因组S.spontaneumAP85-441的scaffolds[2]
应用ALLHiC算法组装同源八倍体甘蔗基因组甘蔗Molokai-6081是Saccharumrobustum(2n=60-170)的同源八倍体,Molokai基因组内的某些染色体组可能会出现非整倍性,以Chr5同源染色体组为例,运用ALLHiC算法,生成了16个super-scaffolds,进一步研究它们之间的信号密度,重新聚类成9个super-groups,优化后进行排序定向,最终共12,077个contig,98.65%的序列锚定在Chr5,染色体长度为46-98Mb,证明ALLHiC算法可应用于组装染色体水平同源八倍体甘蔗基因组。
ALLHiC算法一方面通过修剪Hi-C平行信号和弱信号进行等位基因分型,减少了同源染色体间的嵌合连接,另一方面通过遗传算法随机优化,极大地提高了短序列的排序和定向准确性。ALLHiC算法使多种重要多倍体基因组直接从头组装成为可能,还可用于修复已公布的多倍体物种基因组组装序列中的错误。ALLHiC算法除了适用于同源多倍体染色体组装外,同样适用于不同复杂度的基因组,包括简单的二倍体基因组、高杂合基因组和异源多倍体基因组,极大地推动了基因组领域的研究发展。
参考文献[1]ZhangJ,ZhangX,TangH,etal.Allele-definedgenomeoftheautopolyploidsugarcaneSaccharumspontaneumL[J].NatureGenetics.2018.[2]ZhangX,ZhangS,ZhaoQ,etal.Assemblyofallele-aware,chromosomal-scaleautopolyploidgenomesbasedonHi-Cdata[J].NaturePlants.2019.
(3)Iso-Seq测序——研究肝细胞癌HCC可变剪切变体
Iso-seq技术无需拼接可直接获得全长转录本,克服了二代转录组测序存在的长度短、需拼接等困难,因此在可变剪切(AS)、可变聚腺苷酸化(APA)、融合基因、LncRNA等的预测及分析方面更具优势。这里小编挑选了一篇经典医学案例来解析iso-seq在研究肝细胞癌HCC可变剪切变体方面的应用~的轻狂
实验设计
实验结果
可变剪切分析[7]
02肿瘤特异性isoform分析研究中将正常肝组织、MIHA和HCC细胞中的转录本进行对比,共获得2,057条HCC细胞特有的转录本(图A)。51.7%的基因功能在酶结合及调节、受体结合和转录调节等方面富集(图B)。与成对的癌旁组织相比,在约50%的HCC肿瘤样本中DEK和ADRM1变体的表达上调超过10倍,少数样本甚至上调超过100倍;同样地,SRSF3、ROR1和VDR变体在HCC中也有较明显的表达上调(图DE)。这些结果表明上述的AS变体表达水平或许可以暗示肝癌发展进程。
肿瘤特异性isoform分析[7]
ARHGEF2变体在HCC患者中的表达分析[7]
ARHGEF2变体的临床病理分析[7]
AS变体特异性生物学功能分析[7]
综上,研究中利用全长转录组测序鉴定了HCC细胞新的和特有的isoform,并对它们的表达模式和特异性生物学功能进行了分析。研究结果强调了三代测序技术在鉴定可变剪切事件上的优势,且AS变体可能作为肿瘤治疗的新biomarker或分子靶标,为HCC的治疗和预后提供有力支持。
高质量的数据产出1000+项目经验领先的分析团队优质高效的服务体系
自2017年推出三代测序服务以来,安诺优达先后引进了10台PacBioSequel,并在今年又引入4台SequelII测序仪,在成为全球首批PacBioSequelⅡ测序服务运营商后,于2019年7月获得PacBio官方认证资质,我们将继续秉承客户至上的服务理念为合作伙伴提供更优质、更快速的三代测序服务。
官方认证资质
(1)安诺SequelII实测数据展示:
对SequelII平台CLR模式77张SMRTcell测试数据产量及平均读长进行统计,其中数据产量结果分布显示超过90%的cell数据产出超过75Gb,60%的cell产出超过100Gb,最高产量达到153Gb,平均产出107Gb。
单张cell平均读长统计显示超过92%的cellsubreads平均读长在12kb以上,其中72%的cellsubreads平均读长超过14kb。