新一代基因组数据库 IMG/M
丁香学术
说起基因组序列数据库,大多数人耳熟能详的是三巨头
GenBank
EBI
DDBJ
这些数据库在设计之初虽然考虑了基因组存储的需求,但在基因组分析和数据挖掘上的功能设计则比较欠缺。
而 IMG/M 作为新一代基因组数据库的代表,不仅能够完整收录现有数据库的内容,还提供了更完善的数据上传、注释和分析服务,将测序数据储存到 IMG/M 数据库(即将 IMG/M 数据库的登录号填写到文章中)也是被许多顶尖期刊如 Nature Communication 所接受的。
IMG/M 数据库接受上传纯培养测序基因组、宏基因组、宏基因组组装基因组(Metagenome-Assembled Genome,MAG)、单细胞测序基因组数据,而且它们的上传步骤是相似的。
这里我采用并行的方式演示 IMG/M 数据库中各种数据的上传。此外上传到 IMG/M 数据库的宏基因组数据会自动进行分箱(Binning),组装出样品中单菌的基因组。
信息填写
1、首先登录 GOLD 主页:
2、点击 Register,进入登录页面,点击 Create a new Sequencing Project in GOLD(创建一个新测序项目),选择 Organism,为分离物(isolate)或单细胞测序的数据定义一个测序项目。而对于宏基因组数据,则选择 Biome(生物群系)。
3、接着需要定义一个新的研究项目(Study)。
4、按照实际情况填好相关信息,特别是带星号重点标记的信息要认真填写。
5、接着,对于分离物(isolate)或单细胞测序的数据需要根据测序的情况定义一个新的生物(Organism)或者选择创建过的生物。
如果测序的生物未曾创建条目,点击 Add a new Organism to GOLD,然后选择你测序的生物体的类型是纯培养的、未培养的或是合成的。
6、填写取样信息:如果有机体从土壤或水生环境分离,您可以选择选择土壤(Soil package)或水(Water package),其他选择标准(Standard package)并输入分离地相关信息。对于宏基因组的数据,因为不知道具体物种,第一步结束后直接跳到这一步。
对于分离物(isolate)或单细胞测序的数据要求输入测序生物的特定信息,如生物体名称、属、种、株,NCBI 分类学 ID 等。而对于宏基因组数据,则填写生物群落相关的信息。
IMG/M 数据库还会要求上传者输入分离地具体的经纬度,地图会自动匹配到对应的地区。
7、上述信息填写完毕后,接着填写一个测序项目相关信息,必填的包括如测序中心、项目描述、测序技术等。
8、输入所有相关信息后,点击 Create New Sequencing Project 完成测序项目创建。接着用此项目完成一个或多个基因组、宏基因组组装基因组(Metagenome-Assembled Genome,MAG)或单细胞测序基因组的上传及自动注释分析了。
创建分析项目
1、转到主项目提交页面,点击 Create Genome Analysis Project 根据上传的数据类型从下拉菜单中选择新建一个分析项目。
2、接着选择之前创建的特定测序项目。
3、填写基因组组装的软件。
4、成功创建分析项目之后,将看到以下窗口。点击链接进入 IMG/M 进行数据上传。
你会获得一个分析项目编号 AP ID,根据提示选择测序数据的质量(完成图或草图)、拓扑(线型或者环状),并选择上传的 fasta 格式序列文件,最后点击 Summit 提交。
可以查看数据分析的状态,分析结束后会自动返回 IMG/M 数据库专属的登录号,可以插入到你的文章里以方便读者索引。提交到 IMG/M 的数据将保密(不公开)一段时间,对于分离物基因组 18 个月和单细胞测序及宏基因组数据为 24 个月,到期后将自动成公开,上传者也可以选择提前公开。
GOLD 主页:https://gold.jgi.doe.gov/index