丁香实验_LOGO
登录
提问
我要登录
|免费注册

关于单细胞测序数据分析

相关实验:单细胞多组学

user-title

绿茵不减来时路

想问问单细胞测序数据用list读入之后怎么做质控

wx-share
分享

3 个回答

user-title

loveliufudan

有帮助

对于单细胞测序数据,进行质控的步骤通常包括以下几个方面:

去除低质量细胞:根据细胞的RNA质量、UMI数量等指标去除低质量细胞,以保证后续的分析质量。

过滤低表达基因:根据不同数据集的表达水平和目标分析,设定表达阈值,过滤掉低表达的基因,以降低噪音的影响。

校正批次效应:校正不同批次、实验或平台之间的表达量差异,以提高分析的可靠性。

去除PCR扩增倍数过高的细胞:对于单细胞测序,由于PCR扩增,可能导致同一细胞的多个拷贝,因此需要去除PCR扩增倍数过高的细胞。

检查细胞类型:根据不同的marker或分类器检查细胞类型是否一致,以确保细胞类型的准确性。

在使用Python中的list读入单细胞测序数据后,可以根据需要进行质控和过滤。例如,可以使用Pandas、Scanpy等库,进行基于表达量的过滤、批次效应校正、PCA等质控和分析。同时,需要注意数据处理过程中的准确性、方法的可靠性和计算资源的消耗等问题。

user-title

sswei

有帮助

scRNA-seq有一些自身技术上的局限,例如文库构建过程中可能掺入死细胞 (dead cells);多个细胞被捕获在同一个液滴中(doublets or multiplets);较低的转录本覆盖率 (poor mrna recovery)和捕获率低(low efficiency of cnda production),导致一些基因表达无法被检测到(dropout);这些都会影响最后的分析结果。针对上面提到这些因素,我们可以通过以下三个变量的分布来甄别和剔除低质量细胞,即通过设定阈值筛选出三个变量分布中的离群点(outliers),而这些离群点有可能对应着坏死细胞或者doublets:

· 细胞的计数深度(the number of counts per barcode):完整细胞的计数深度一般应该高于500;如果所有细胞的总体分布在500-1k之间,那说明样本的测序深度总体偏低,可以考虑增加测序深度。

· 检测到的基因数(the number of detected genes per barcode):对于高质量的数据,此分布应该只包含一个峰值(peak);如果出现bimodal,不要简单使用阈值来剔除,因为除了低质量细胞,不同的细胞类型(特别是外形差异较大的细胞)的混合也会出现bimodal分布;因此这种情况下,需要结合其他的变量一起考虑。

· 检测到的线粒体基因数(the fraction of reads mapped to mitochondrial genes):对于坏死或者膜破裂的细胞,其线粒体基因数一般都偏高。

总的来说,如果细胞的计数深度低,检测到的基因数目少,以及线粒体基因比例大,则表明这个细胞的细胞膜很可能已经破裂;反之,如果细胞的计数深度和检测到的基因数都过高,这个细胞就很有可能是doublets or multiplets。除了直接通过观察分布之外,现在也有很多新开发的算法可以用于甄别doublets,例如Scrublet,DoubletFinder,scds等。

user-title

毛利小五郎的徒弟

有帮助

首先进行测试数据集的加载

library(scRNAseq)
example_sce <- ZeiselBrainData()
  • 1
  • 2
  • 1
  • 2

然后输入下列代码做数据分析

class: SingleCellExperiment

dim: 20006 3005
metadata(0):
assays(1): counts
rownames(20006): Tspan12 Tshz1 … mt-Rnr1 mt-Nd4l
rowData names(1): featureType
colnames(3005): 1772071015_C02 1772071017_G12 … 1772066098_A12 1772058148_F03
colData names(10): tissue group # … level1class level2class
reducedDimNames(0):
altExpNames(2): ERCC repeat

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序