dxy_hk2i2ciq
从blast结果中挑选比对好的基因做基因丰度的定量,要对e-value和score值进行限定,这两个值一般设置成多少呀?有没有文献可以参考?
土井挞克树
一般想要比较准确的结果的话,E=0.001。
huarenqiang5
S值表示两序列的同源性,分值越高表明它们之间相似的程度越大。
E值就是S值可靠性的评价。它表明在随机的情况下,其它序列与目标序列相似度要大于S值的可能性。所以它的分值越低越好。
E值的计算:
E=undefinedundefinedundefined(e-lambdundefinedS)其中,K和lambda与数据库和算法有关,是个常量;m代表目标序列的长度,n代表数据库的大小,S就是前面提到的S值。
E值小于10-5就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会比现在这个S值要高的话。
E设置为10-6时,S值最可靠。
loveliufudan
对于基因丰度定量,一般会选择比对质量比较高的序列作为参考基因,以提高定量结果的可靠性。对于BLAST比对结果的筛选,常用的方法是根据E-value和比对得分(score)值进行限定。E-value是一个描述比对结果可能出现的随机匹配的期望数目的统计值,E-value越小代表比对结果越可靠。比对得分是比对结果的一个评分,分值越高代表比对结果越好。
在实际操作中,E-value和score值的具体设定需要根据具体情况而定。一般来说,E-value的设定应该越小越好,通常在0.01或更小的水平下进行筛选。score值则可以根据具体情况设定,根据比对得分的分布情况来确定合适的阈值。不同的研究领域和目的也会对阈值有所不同。例如,在转录组分析中,常常会对比对结果进行多级筛选,首先选择E-value较小的比对结果,再根据比对得分进行二次筛选,以保证筛选出来的参考基因具有较高的可靠性。
关于设定E-value和score值的具体方法和参考文献,可以参考BLAST官方文档和相关研究文章。此外,也可以参考生物信息学分析相关的教材和课程。