点赞

1

分享

3 种方法注释你的甲基化探针

生信技能树2019-10-15

6546

甲基化芯片背景

甲基化芯片原理：https://www.jianshu.com/p/c4f758e0399d

芯片主要分为 EPIC 和 450k 两种，EIPC 也就是 850k，两种探针的都是以 cg 开头的数字编号，所谓注释也就是提取这些探针的所对应的信息，例如，探针序列的 CpG 位置信息，对应的基因信息，染色体上的位置信息等等。很多包在安装的时候都会自动下载这些注释信息，并包装在一起，如果我们想要自己注释这些探针，就要考虑如何获取独立的注释信息。而所需要注释数据的，大部分都来自于两个数据库，GEO 和 TCGA。

下面介绍三种提取注释信息的方法

方法一：从 UCSC Xena 下载

直接从 UCSC Xena 相应的癌症甲基化数据库里下载对应的文件。可以看到是来自 GPL16304 平台的芯片，其实和下面要介绍的从 GEO 下载注释信息是一样的，不过 TCGA 的探针数可能会少于 45w，大约 39w，因为提前过滤了一些低质量的探针。

方法二：从 GEO 下载对应平台的注释文件

在 GEO 的官网 platform 下搜索 Illumina HumanMethylation450，可以看到 450k 的芯片主要来自三个平台，探针数也是不一样的，TCGA 中下载时一般都会标明来自那个平台，从 GEO 中下载数据都会得知平台的信息。直接进入对应平台的介绍就可以了。

看一下最常见的 GPL13534 平台的内容

可以看到有 1295 个 GSE 数据集来自这个平台，可以利用的数据相当多，这里给出了一部分数据的概览

表格中展示了部分信息，直接下载然后就可以提取我们需要的注释信息了，485577 个探针一个不差，可能是因为我网速的问题，只有下载 CSV 这个的时候速度比较快，其他速度都非常感人

可以看到信息非常全面了，但实际上我们并用不到这么多，有下面这些就够了

方法三：从 ChAMP 包中提取

这个方法严格来说其实是从 ChAMP 依赖的两个注释包中提取的，但是我又懒又笨，懒得看原始的包里数据藏在哪里了，ChAMP 包在做甲基化分析的时候也很方便，而其中 champ.filter 函数直接就提取好了

850k 和 450k 本质上没有什么区别，所以方法都是通用的。

相关产品推荐

目标区间甲基化重测序

￥100

探针法定量PCR预混液（高ROX），2×，阿拉丁

￥659.90

Hi-MethylSeq目标区域甲基化测序

￥300

AlkB (RNA/DNA去甲基化酶, Nuclease-free)，EnzymoPure™, 不含DNA内切酶和外切酶，不含RNA酶，不含磷酸酯酶。，阿拉丁

￥1287.90

脂肪酸甲基化试剂盒，由Nacalai Tesque,Inc.制造.，阿拉丁

￥3024.90

相关问答

问

差异代谢物KEGG注释

2 回答 584 围观

问

怎么样确定一个载体是否适合你的宿主菌呢？

4 回答 356 围观

问

qPCR，探针同一种探针，标不同颜色，灵敏度是否有影响？

5 回答 412 围观

相关方法

种特异巢式 PCR

2022-02-11

🔥 Prokka 注释原核生物基因组

2023-05-24

植物组织种丙二醛含量的测定

2022-02-11

推荐阅读

腹甲

背甲

烟草甲

关于丁香通

公司信息

个人用户

企业机构

无忧采购轻松科研

无忧采购轻松科研

提问

扫一扫

丁香实验小程序二维码

实验小助手

丁香实验公众号二维码

扫码领资料

反馈

TOP

打开小程序