丁香实验_LOGO
登录
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

新一代基因组数据库 IMG/M

丁香学术

5703

说起基因组序列数据库,大多数人耳熟能详的是三巨头

  • GenBank

  • EBI

  • DDBJ

这些数据库在设计之初虽然考虑了基因组存储的需求,但在基因组分析和数据挖掘上的功能设计则比较欠缺。

而 IMG/M 作为新一代基因组数据库的代表,不仅能够完整收录现有数据库的内容,还提供了更完善的数据上传、注释和分析服务,将测序数据储存到 IMG/M 数据库(即将 IMG/M 数据库的登录号填写到文章中)也是被许多顶尖期刊如 Nature Communication 所接受的。

IMG/M 数据库接受上传纯培养测序基因组、宏基因组、宏基因组组装基因组(Metagenome-Assembled Genome,MAG)、单细胞测序基因组数据,而且它们的上传步骤是相似的。

这里我采用并行的方式演示 IMG/M 数据库中各种数据的上传。此外上传到 IMG/M 数据库的宏基因组数据会自动进行分箱(Binning),组装出样品中单菌的基因组。

信息填写

1、首先登录 GOLD 主页:

2、点击 Register,进入登录页面,点击 Create a new Sequencing Project in GOLD(创建一个新测序项目),选择 Organism,为分离物(isolate)或单细胞测序的数据定义一个测序项目。而对于宏基因组数据,则选择 Biome(生物群系)。

3、接着需要定义一个新的研究项目(Study)。

4、按照实际情况填好相关信息,特别是带星号重点标记的信息要认真填写。

5、接着,对于分离物(isolate)或单细胞测序的数据需要根据测序的情况定义一个新的生物(Organism)或者选择创建过的生物。

如果测序的生物未曾创建条目,点击 Add a new Organism to GOLD,然后选择你测序的生物体的类型是纯培养的、未培养的或是合成的。

6、填写取样信息:如果有机体从土壤或水生环境分离,您可以选择选择土壤(Soil package)或水(Water package),其他选择标准(Standard package)并输入分离地相关信息。对于宏基因组的数据,因为不知道具体物种,第一步结束后直接跳到这一步。

对于分离物(isolate)或单细胞测序的数据要求输入测序生物的特定信息,如生物体名称、属、种、株,NCBI 分类学 ID 等。而对于宏基因组数据,则填写生物群落相关的信息。

IMG/M 数据库还会要求上传者输入分离地具体的经纬度,地图会自动匹配到对应的地区。

7、上述信息填写完毕后,接着填写一个测序项目相关信息,必填的包括如测序中心、项目描述、测序技术等。

8、输入所有相关信息后,点击 Create New Sequencing Project 完成测序项目创建。接着用此项目完成一个或多个基因组、宏基因组组装基因组(Metagenome-Assembled Genome,MAG)或单细胞测序基因组的上传及自动注释分析了。

创建分析项目

1、转到主项目提交页面,点击 Create Genome Analysis Project 根据上传的数据类型从下拉菜单中选择新建一个分析项目。

2、接着选择之前创建的特定测序项目。

3、填写基因组组装的软件。

4、成功创建分析项目之后,将看到以下窗口。点击链接进入 IMG/M 进行数据上传。

你会获得一个分析项目编号 AP ID,根据提示选择测序数据的质量(完成图或草图)、拓扑(线型或者环状),并选择上传的 fasta 格式序列文件,最后点击 Summit 提交。

可以查看数据分析的状态,分析结束后会自动返回 IMG/M 数据库专属的登录号,可以插入到你的文章里以方便读者索引。提交到 IMG/M 的数据将保密(不公开)一段时间,对于分离物基因组 18 个月和单细胞测序及宏基因组数据为 24 个月,到期后将自动成公开,上传者也可以选择提前公开。

GOLD 主页:https://gold.jgi.doe.gov/index

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
扫码领资料
反馈
TOP
打开小程序