从blast结果筛选基因ID，e-value和score值设置成多少

dxy_hk2i2ciq

2023-02-24

从blast结果中挑选比对好的基因做基因丰度的定量，要对e-value和score值进行限定，这两个值一般设置成多少呀？有没有文献可以参考？

3 个回答

土井挞克树

2023-02-25

有帮助1

一般想要比较准确的结果的话，E=0.001。

huarenqiang5

2023-02-25

有帮助1

S值表示两序列的同源性，分值越高表明它们之间相似的程度越大。

E值就是S值可靠性的评价。它表明在随机的情况下，其它序列与目标序列相似度要大于S值的可能性。所以它的分值越低越好。

E值的计算：

E=undefinedundefinedundefined(e-lambdundefinedS)其中，K和lambda与数据库和算法有关，是个常量；m代表目标序列的长度，n代表数据库的大小，S就是前面提到的S值。

E值小于10-5就是比较可性的S值结果。我们可以想象，相同的数据库，E=0.001时如果有1000条都有机会比现在这个S值要高的话。

E设置为10-6时，S值最可靠。

loveliufudan

2023-02-25

有帮助

对于基因丰度定量，一般会选择比对质量比较高的序列作为参考基因，以提高定量结果的可靠性。对于BLAST比对结果的筛选，常用的方法是根据E-value和比对得分（score）值进行限定。E-value是一个描述比对结果可能出现的随机匹配的期望数目的统计值，E-value越小代表比对结果越可靠。比对得分是比对结果的一个评分，分值越高代表比对结果越好。

在实际操作中，E-value和score值的具体设定需要根据具体情况而定。一般来说，E-value的设定应该越小越好，通常在0.01或更小的水平下进行筛选。score值则可以根据具体情况设定，根据比对得分的分布情况来确定合适的阈值。不同的研究领域和目的也会对阈值有所不同。例如，在转录组分析中，常常会对比对结果进行多级筛选，首先选择E-value较小的比对结果，再根据比对得分进行二次筛选，以保证筛选出来的参考基因具有较高的可靠性。

关于设定E-value和score值的具体方法和参考文献，可以参考BLAST官方文档和相关研究文章。此外，也可以参考生物信息学分析相关的教材和课程。

关于丁香通

公司信息

个人用户

企业机构

无忧采购轻松科研

提问

扫一扫

实验小助手

扫码领资料

反馈

TOP

打开小程序