单细胞数据清洗的这5个步骤你会做吗?腾讯云开发者社区

恰好最近看到了一个超级优秀的博客,安排了其中几篇给学徒们翻译和理解,超级值得读!

下面是七月优秀学员的翻译投稿

Part2-不用矫正的方法来处理批次效应

2020/10/24

并不是作者认为批次效应矫正方法不好。而是它们并不能百分百清楚的告诉用户到底怎么处理了数据,处理到什么程度。因此,先自己处理数据,如果批次效应实在是很影响后续分析,再来使用所谓的批次矫正,因为并不是所有的批次效应都可以或者应该被矫正。

我们的公众号生信技能树之前也写了很多关于批次效应的推文,例如

大家可以当做是背景知识读一下!

哈哈哈作者这句话很有意思,我的数据被诅咒了所以不好分析..其实是可能有一些批次效应作祟。

批次效应主要是想要去除实验不同步骤之间的系统差异。需要保持实验中的变量除外的环境都一致,这样才会突出变量的差异。有些是生物学差异,但最主要的差异是由技术效应导致的。最常见的情况是,批次效应由许多大大小小的差异导致,每个差异都造成了总体不必要的差异的一部分。

也许是我们对不同的样品使用了不同批次的试剂、用过不同化学成分的试剂盒、完全不同的单细胞测序平台、一个样本必须在冰上保存一夜、改变了组织分离方法、不同的样品在不同的测序平台。这些改变中的每一个都可能导致不同的结果。

虽然其中一些差异将导致很难甚至不可能预测和逆转的转录变化,还有一些则可以轻易去除。因此,对有批次效应的数据,可以做的事就是先去除已知的批次效应。

这里将重点介绍10X单细胞表达数据。

如图所示,在新型号的Illumina测序机上,流动池中的连接和DNA扩增同时进行,各步骤之间不需要对流动池进行任何清洗。样本标记仍保留在溶液中,并且可以使用具有不同标记的库中的DNA分子作为模板扩展。错误标记的分子在流动池的纳米孔之间的转移导致错误标记的DNA分子的聚集和测序。

首先去除swappedbarcodes.用这个R包DropletUtils来处理很简单~(作者给与了友情提示说这个包不好下载,结果嗖的一下就下完了..eee).

Ambientgeneexpression(环境基因表达)是指不是来自barcode细胞,而是来自其他溶解细胞的count,这些细胞的mRNA在文库构建之前污染了细胞悬液。这些增加的环境计数会扭曲下游分析,如标记基因鉴定或其他差异表达检测,尤其是当样本之间的水平变化时。在基于液滴的scRNA-seq数据集中校正这些影响是可能的,由于大量的空液滴,可用于模拟环境RNA表达谱。SoupX使用这种方法直接纠正计数数据。

第二件事是去除环境RNA污染。这一点非常重要,因为环境RNA看起来与实验中所有细胞的平均值非常相似。下图显示了这一点,它将背景污染中每个基因的平均表达与实验中所有细胞的平均表达进行了比较。

这样做的结果是,如果有两个(或更多)具有不同混合细胞的数据,最终看起来会有所不同,因为背景环境不同。去除环境污染可以使用作者写的这个SoupX,但也有其他方法。环境RNA污染会产生一种几乎总是存在的批次效应,去除它可以明显提高整合度。此图显示了将SoupX应用于某些数据之前和之后的批处理熵。熵越高,表明去除背景时混合效果越好。

在这篇论文SoupXpaper里对环境RNA污染及其影响有更完整的解释。

下面的图表可以清楚地看到,处于S期(PCNA阳性)和G2M期(MKI67期)的细胞与它们来自哪个簇都是不同的(这些细胞是thispaper中的乳头状肾细胞癌细胞)。在这里,使用PCNA作为S期标记物,MKI67作为G2M期标记物,作者认为观察标记物的表达比Seurat的CellCycleScoring函数更可靠。(这就是生物学背景知识了,在大家处理数据的过程中要尽可能多记忆一些重要的细节知识点!!!)

但是如果我们丢弃所有的周期基因呢?这应该会使它们和G1期细胞一样吧?在Seurat我们可以很容易地做到这一点

回归的去除细胞周期的影响

使用Seuratvignette来看看regresscellcycleout会怎样:

在某些情况下,在分析之前去除不需要的基因可以有效防止批次效应的产生。

显然,这些基因中的信息有时仍然有用,这个想法只是为了防止它们聚类。可能最稳健的方法是将它们从输入计数矩阵中排除,但将信息作为元数据保留,以便不时之需。例如,

reg@assays$RNA@var.features=setdiff(reg@assays$RNA@var.features,mtGenes)其实处理到最后,会感觉我们重要的单细胞转录组其实并不是全局的基因表达量啦,有点类似于特定的genepanel,也就是说目前主流的10X单细胞仪器其实可以被BD平台的单细胞取代?

批次效应在tSNE或UMAP上看起来很难看,可能至少会有一个编辑抱怨它。

主要取决于想要在分析中实现什么目标,以及通过改变数据来消除批次效应是否真的会进一步推动这一目标。

例如,单细胞分析的一个共同目标是在实验中定义特定细胞类型特有的基因。从表面上看,将你的细胞类型分成多个簇似乎会阻碍这一努力。但是,所有这些实际上都会使注释数据的任务变得更加困难。作者从来没有遇到过不想合并两个按算法选择的簇的注释的单细胞分析。

虽然没有任何确凿的证据,但作者认为如果提供的数据没有通过批次效应处理,那么标记查找方法将会做得和处理后的数据一样好,甚至更好。当然,如果您将标记查找定义为一项差异表达任务(whichIdon’tthinkyoushould),那么使用edgeR或DESeq2会得到更好的结果,这些方法需要输入rawcounts。

有时,你的数据有很多技术差异,即使在完成上述所有操作之后,这些差异也不会去除。

但希望您可以尝试一下上面的方法去除,而不是默认运行批次效应矫正直接去除。

THE END
1.从零开始:建立高效的数据清洗流程做数据分析如何进行数据清洗操作反馈循环:根据业务反馈和数据质量监控结果,持续优化清洗流程。 技术创新:关注数据清洗领域的最新技术和工具,不断改进和优化清洗方法。 结语 建立一个高效的数据清洗流程是确保数据质量的关键步骤。通过明确目标、了解数据特性、设计策略、实施清洗、自动化与监控、验证测试、文档化培训以及持续优化,可以显著提高数据清洗的效https://blog.csdn.net/weixin_44835050/article/details/143302649
2.大数据进行数据清洗的基本流程详细讲解数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。 1.数据分析 数据分析是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。 https://www.jianshu.com/p/33ad3063c7ce
3.机器学习中的数据清洗与特征处理综述如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤。 灰色框中蓝色箭头对应的是离线处理部分。主要工作是: 1.从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。 http://api.cda.cn/view/8897.html
4.数据处理指什么?一文搞懂数据处理的8个关键步骤!二、数据处理的关键步骤 通常来讲,数据处理一般包括以下几个关键步骤: 1. 数据抽取 从不同的数据源中提取数据,包括数据库、文件系统、APIs等。抽取过程中,数据通常保持其原始格式。 2. 数据清洗 清洗数据以提高数据质量,包括去除重复记录、纠正错误和不一致的数据。 https://www.fanruan.com/bw/doc/178536
5.hadoop清洗数据流程mob649e815bbe69的技术博客在大数据处理中,数据清洗是一个重要的步骤。Hadoop作为一个分布式计算框架,可以帮助我们进行高效的数据清洗。本文将介绍使用Hadoop进行数据清洗的步骤和所需的代码。 流程图 开始文本文件导入HDFSMap阶段Reduce阶段结果输出结束 步骤说明 下面将分步骤介绍如何使用Hadoop清洗数据。 https://blog.51cto.com/u_16175464/7074610
6.数据分析中的数据预处理包括哪些步骤数据预处理包括数据清洗、数据集成、数据转换和数据规约四个步骤。数据预处理是数据分析的重要阶段,通过对原始数据进行处理和清洗,可以提高数据分析的准确性和可靠性。 一、数据清洗 数据清洗是数据预处理的第一步,主要是为了处理原始数据中存在的错误、缺失、重复、异常等问题。具体步骤如下: https://www.linkflowtech.com/news/1073
7.Stata数据处理:清洗CFPS数据库我们先以 CFPS2018 为例,讲解截面数据的清洗步骤。 我们先导入 CFPS2018 中的家庭经济问卷,这是一份超过 300 个变量的长问卷,而我们只需要其中小部分变量。因此我们可以使用keep提取需要的家庭信息,如家庭id、省份、区县顺序码、村居顺序码、城乡分类等。 https://www.lianxh.cn/news/2916ae8363459.html
8.数据清洗的步骤有哪些?()An absolute quota (as opposed to a quota) puts an upper limit on the quantity of a good that can be imported during a given period of time.https://www.shuashuati.com/ti/1042d1ec963044388eb5413196297111.html