丁香实验_LOGO
登录
提问
提问
我要登录
|免费注册
丁香通
点赞
收藏
wx-share
分享

建立新型数据综合分析体系,提高对cDNA文库的数据分析

互联网

1169
相关专题

实验室的需求

生物学实验室研究产生大量的EST/cDNA序列,如何分析数据成为现实问题。应用人工上网用blast比对分析1000个EST,约需2个月的工作量,且结果单一,数据不可靠。

(1)分析体系处理仅需1-2个小时,并且可以得到深入的分析结果,数据准确可靠。

(2)分析体系的完善需求

目前已经实现过相应的系统, 我们在分析思路的设计方面进行了改进并实现了多功能综合分析,本体系尤其适合对抑制性削减杂交(SSH)文库 进行分析。

Outline :

(1)序列格式化,包括去除载体 ,屏蔽简单重复序列,计算核酸组成及长度,以Fasta格式输出

(2)比对Reference mRNA序列及Unigene序列,找出已知基因,并进行聚类分析

(3)对新基因序列进一步与人类染色体 比对,筛选出可靠的新基因序列,排除错误序列

(4)新EST序列延伸,全长cDNA序列电子克隆 及功能结构域分析

(5)点突变 或者SNP分析

(6)制作基因表达图谱

通过格式化可去除测序过程中载体、重复序列的污染,计算有效序列长度并排除长度小于20bp的序列以提高分析效率。屏蔽载体序列、引物序列和重复序列的干扰,识别克隆目的序列去除有效序列长度低于20bp的EST以提高工作效率。输出结果以自定义的fasta格式,以方便以后的分析。

通过FTP在NCBI站点下载reference mRNA 数据,在本地使用‘formatdb‘命令进行格式化;使用-e 1E-10 参数控制blast结果。对不同文库间表达基因进行聚类分析可以:揭示文库间mRNA表达差异;得出相关组织共同表达的基因;提示不同来源的组织作为研究材料是否可相互替代。

Blast Parameters:

通过BLAST程序查找同源基因是对cDNA文库分析的一个主要手段,而控制blast结果的主要参数为E-value。BLAST程序算法中运用了Karlin-Altschul统计学理论,E-value即相当于统计学中的P值,该值越低则blast结果的显著性越高,因而检出序列越少。E-value对blast结果的影响与比对的数据库大小有关,使用相同的E-value对同一序列进行blast,在大一些的数据库中得到的结果相似性低于小一些的数据库。一般认为,所比对序列中每100bp有96%以上同源,则认为该序列为同源序列,这个百分比标准随着序列长度的增加可适度降低。

Innovation:

生物学家常见的思维是通过比对NR的DNA数据库,但这种比对有很大缺点:一、NR中包括各种动物的DNA信息;二、NR太大,查询及比对耗时太多;三、结果不好。

应当使用Reference mRNA Human EST这个分类清晰、有专门的HUMAN DNA 文库,通过BLAST程序查找同源基因

Perspective:

此系统可以进行高效、高通量的cDNA文库数据分析。该体系经过完善,可以为生物研究者提供高效、操作简单、数据可靠的cDNA文库数据的综合分析平台。该体系的建立和完善有助于其他相关综合分析体系的构建。

提问
扫一扫
丁香实验小程序二维码
实验小助手
丁香实验公众号二维码
关注公众号
反馈
TOP
打开小程序