loveliufudan
对于单细胞测序数据,进行质控的步骤通常包括以下几个方面:
去除低质量细胞:根据细胞的RNA质量、UMI数量等指标去除低质量细胞,以保证后续的分析质量。
过滤低表达基因:根据不同数据集的表达水平和目标分析,设定表达阈值,过滤掉低表达的基因,以降低噪音的影响。
校正批次效应:校正不同批次、实验或平台之间的表达量差异,以提高分析的可靠性。
去除PCR扩增倍数过高的细胞:对于单细胞测序,由于PCR扩增,可能导致同一细胞的多个拷贝,因此需要去除PCR扩增倍数过高的细胞。
检查细胞类型:根据不同的marker或分类器检查细胞类型是否一致,以确保细胞类型的准确性。
在使用Python中的list读入单细胞测序数据后,可以根据需要进行质控和过滤。例如,可以使用Pandas、Scanpy等库,进行基于表达量的过滤、批次效应校正、PCA等质控和分析。同时,需要注意数据处理过程中的准确性、方法的可靠性和计算资源的消耗等问题。
sswei
scRNA-seq有一些自身技术上的局限,例如文库构建过程中可能掺入死细胞 (dead cells);多个细胞被捕获在同一个液滴中(doublets or multiplets);较低的转录本覆盖率 (poor mrna recovery)和捕获率低(low efficiency of cnda production),导致一些基因表达无法被检测到(dropout);这些都会影响最后的分析结果。针对上面提到这些因素,我们可以通过以下三个变量的分布来甄别和剔除低质量细胞,即通过设定阈值筛选出三个变量分布中的离群点(outliers),而这些离群点有可能对应着坏死细胞或者doublets:
· 细胞的计数深度(the number of counts per barcode):完整细胞的计数深度一般应该高于500;如果所有细胞的总体分布在500-1k之间,那说明样本的测序深度总体偏低,可以考虑增加测序深度。
· 检测到的基因数(the number of detected genes per barcode):对于高质量的数据,此分布应该只包含一个峰值(peak);如果出现bimodal,不要简单使用阈值来剔除,因为除了低质量细胞,不同的细胞类型(特别是外形差异较大的细胞)的混合也会出现bimodal分布;因此这种情况下,需要结合其他的变量一起考虑。
· 检测到的线粒体基因数(the fraction of reads mapped to mitochondrial genes):对于坏死或者膜破裂的细胞,其线粒体基因数一般都偏高。
总的来说,如果细胞的计数深度低,检测到的基因数目少,以及线粒体基因比例大,则表明这个细胞的细胞膜很可能已经破裂;反之,如果细胞的计数深度和检测到的基因数都过高,这个细胞就很有可能是doublets or multiplets。除了直接通过观察分布之外,现在也有很多新开发的算法可以用于甄别doublets,例如Scrublet,DoubletFinder,scds等。
土井挞克树
首先进行测试数据集的加载
library(scRNAseq)
example_sce <- ZeiselBrainData()
然后输入下列代码做数据分析
class: SingleCellExperiment
dim: 20006 3005
metadata(0):
assays(1): counts
rownames(20006): Tspan12 Tshz1 … mt-Rnr1 mt-Nd4l
rowData names(1): featureType
colnames(3005): 1772071015_C02 1772071017_G12 … 1772066098_A12 1772058148_F03
colData names(10): tissue group # … level1class level2class
reducedDimNames(0):
altExpNames(2): ERCC repeat
相关产品推荐
相关问答