提问
提问
我要登录
|免费注册
点赞
收藏
wx-share
分享

BPGA - 一款泛基因组分析软件

4198

在组学研究中我们经常会碰到「泛基因组」,指的是某一物种全部基因的总称。泛基因组的分析为了解基因组的动态、种群结构、物种进化、发病机制及耐药性等特性提出了有价值的见解。

既然泛基因组的应用如此广泛,那我们就来测评几款泛基因组分析软件吧!今天安利一款在我心中的满分软件「BPGA」。

具体操作步骤如下

1. 运行软件,分析的第一步是聚类,键入序号「1」。

2. 选择输入的文件格式。允许的格式为_.faa(NCBI 蛋白质 FASTA),_.pep.fsa(HMP 蛋白质 FASTA)或任何蛋白质 FASTA 文件和_.gbk_~H_*_.gb(GenBank 文件)。

3. 选择输入文件。对于输入 GenBank 格式文件作分析,BPGA 有一个特别的功能,可以鉴别并提取基因组中 GC 含量异常的基因,这些基因一般是通过水平基因转移事件(HGT)获得的。

这里选择 GC 含量偏离全基因组平均 GC 含量的阈值,即大于 2 倍或 3 倍标准偏差,默认为选择 2 倍。

4. 输入基因组文件,数目没有限制。输入后第一步准备工作就完成了。

5. 继续下一步。键入数字「2」开始泛基因组分析。

6. 根据基因组的数目选择组合数来进行 Core-pan 模型预测,少于 20 个基因组选择 30,20 - 50 个基因组选择 20。

7. 选定好利用核心基因组建树的方法。

8. 完成后,键入「3」分析提取基因组中 GC 含量异常的基因,到这里基本的泛基因组分析就完成了。

9. 选择「0」退出分析,结果就会整理成以下三个文件夹。

如何处理分析这些数据结果?

1、 结果「Result」文件夹

结果文件中将给出泛/核心模型预测图(Default_Core_Pan_Plot.pdf),基因家族的分布图(Histogram.pdf),新基因的数量变化图(New_Genes_Plot.pdf)以及序列统计表(stats.xls)。

有三张是不同风格的 Core_Pan_Plot 图,可以根据自己喜好选择或进一步修改,以下展示的为未修改的原图,图片非常清晰美观。

泛/核心模型预测图

基因家族的分布图

新基因的数量变化图

基于核心基因建立的系统发育树

基因组统计表格

可以利用这些数据进行可视化。

模型预测表格(curve.xls),里面包含 Core-Pan 基因组拟合曲线的表达式。并且得出结论,该物种的泛基因组是「开放」或者「闭合」。

此处的「开放(OPEN)」意味着在不同环境中该物种能够以多种方式与其他物种进行遗传物质的交换,获取新的基因。而泛基因组的「闭合(CLOSED)」表示该物种获取外来基因的能力较弱。

2.「Sequences」文件夹

在「Sequences」文件夹中,有以下 FASTA 格式序列文件(按不同基因组进行编号),可以根据需要对它们进行注释分析。

用「BioEdit」打开文件,可以看到里边的序列展示

COG 注释分析结果如下

3.「Suporting_files」文件夹

文件夹「Suporting_files」里面是一些作图的支撑材料,包括 nwk 格式的树文件。对于 20 个以内的原核生物基因组,整套流程跑下来只用了不到十分钟。大家可以根据自己需要选择数据和图片,并在 AI 中进行适当修改。

综合评价

使用简单方便

速度很快,比传统的 blast 比对快 10 到 100 个数量级

对于要分析的基因组数目没有上限

绘出的图片也十分美观

推荐指数:★★★★★

今天的软件安利内容小伙伴们喜欢嘛?

BPGA 访问主页:http://www.iicb.res.in/bpga/index.html

软件下载地址:https://sourceforge.net/projects/bpgatool/

参考文献:

[1] Chaudhari N M , Gupta V K , Dutta C . BPGA- an ultra-fast pan-genome analysis pipeline[J]. Scientific Reports, 2016, 6:24373.

[2] Edgar R C . Search and clustering orders of magnitude faster than BLAST.[J]. Bioinformatics, 2010, 26(19):2460.

图片来源:作者提供

<link />
提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
关注公众号
反馈
TOP
打开小程序