关于单细胞测序数据分析

3 个回答

loveliufudan

2023-04-11

有帮助

对于单细胞测序数据，进行质控的步骤通常包括以下几个方面：

去除低质量细胞：根据细胞的RNA质量、UMI数量等指标去除低质量细胞，以保证后续的分析质量。

过滤低表达基因：根据不同数据集的表达水平和目标分析，设定表达阈值，过滤掉低表达的基因，以降低噪音的影响。

校正批次效应：校正不同批次、实验或平台之间的表达量差异，以提高分析的可靠性。

去除PCR扩增倍数过高的细胞：对于单细胞测序，由于PCR扩增，可能导致同一细胞的多个拷贝，因此需要去除PCR扩增倍数过高的细胞。

检查细胞类型：根据不同的marker或分类器检查细胞类型是否一致，以确保细胞类型的准确性。

在使用Python中的list读入单细胞测序数据后，可以根据需要进行质控和过滤。例如，可以使用Pandas、Scanpy等库，进行基于表达量的过滤、批次效应校正、PCA等质控和分析。同时，需要注意数据处理过程中的准确性、方法的可靠性和计算资源的消耗等问题。

sswei

2023-04-11

有帮助

scRNA-seq有一些自身技术上的局限，例如文库构建过程中可能掺入死细胞（dead cells）；多个细胞被捕获在同一个液滴中（doublets or multiplets）；较低的转录本覆盖率（poor mrna recovery）和捕获率低（low efficiency of cnda production），导致一些基因表达无法被检测到（dropout）；这些都会影响最后的分析结果。针对上面提到这些因素，我们可以通过以下三个变量的分布来甄别和剔除低质量细胞，即通过设定阈值筛选出三个变量分布中的离群点（outliers），而这些离群点有可能对应着坏死细胞或者doublets：

· 细胞的计数深度（the number of counts per barcode）：完整细胞的计数深度一般应该高于500；如果所有细胞的总体分布在500-1k之间，那说明样本的测序深度总体偏低，可以考虑增加测序深度。

· 检测到的基因数(the number of detected genes per barcode)：对于高质量的数据，此分布应该只包含一个峰值（peak）；如果出现bimodal，不要简单使用阈值来剔除，因为除了低质量细胞，不同的细胞类型（特别是外形差异较大的细胞）的混合也会出现bimodal分布；因此这种情况下，需要结合其他的变量一起考虑。

· 检测到的线粒体基因数（the fraction of reads mapped to mitochondrial genes）：对于坏死或者膜破裂的细胞，其线粒体基因数一般都偏高。

总的来说，如果细胞的计数深度低，检测到的基因数目少，以及线粒体基因比例大，则表明这个细胞的细胞膜很可能已经破裂；反之，如果细胞的计数深度和检测到的基因数都过高，这个细胞就很有可能是doublets or multiplets。除了直接通过观察分布之外，现在也有很多新开发的算法可以用于甄别doublets，例如Scrublet，DoubletFinder，scds等。

土井挞克树

2023-04-10

有帮助

首先进行测试数据集的加载

library(scRNAseq)
example_sce <- ZeiselBrainData()

然后输入下列代码做数据分析

class: SingleCellExperiment

dim: 20006 3005
metadata(0):
assays(1): counts
rownames(20006): Tspan12 Tshz1 … mt-Rnr1 mt-Nd4l
rowData names(1): featureType
colnames(3005): 1772071015_C02 1772071017_G12 … 1772066098_A12 1772058148_F03
colData names(10): tissue group # … level1class level2class
reducedDimNames(0):
altExpNames(2): ERCC repeat