新的测序策略
互联网
对某文库全部片段进行末端序列测定中未测到的碱基数,即缺口(gap),与已测定的总碱基数相关。随着已测定碱基数的增加,缺口的总碱基数目会按照泊松公式的一个推论(P=e-m )迅速减小。其中P为中某个碱基未被测定的概率,m为所测定的碱基数与大小相比的倍数。
m越大P值越小。当m值达到5(即随机测定的碱基数达到5倍时),基因组中未测定的碱基数为总碱基数的0.67%(e-5 =0.0067)。对流感嗜血杆菌这样大的(1.83Mb),可能留有128个平均长度为100bp的缺口。
全鸟枪法测序的主要步骤是:第一,建立高度随机、插入片段大小为2kb左右的文库。克隆 数要达到一定数量,即经末端测序 的片段的碱基总数应达到5倍以上。第二,高效、大规模的末端测序 。
对文库中每一个,进行两端测序 ,TIGR在完成流感嗜血杆菌的时,使用了14台测序 仪,用三个月时间完成了必需的28,463个测序 反应,测序 总长度达6倍。第三,序列集合。
TIGR发展了新的软件,修改了序列集合规则以最大限度地排除错误的连锁匹配。第四,填补缺口。有两种待填补的缺口,一是没有相应模板DNA 的物理缺口,二是有模板DNA 但未测序 的序列缺口。他们建立了插入片段为15-20kb的λ文库以备缺口填补。
鸟枪法测序的缺点:
随着所测总量增大,所需测序 的片段大量增加,各个片段重叠或一个连续体的概率是2n2 -2n
高等真核生物(如人类)中有大量重复序列,导致判断失误。
对鸟枪法的改进
(1) Clone contig法。首先用稀有内切酶把待测降解为数百kb以上的片段,再分别测序 。
(2) 靶标鸟枪法(direted shotgun)。首先根据染色体上已知基因和标记的位置来确定部分DNA 片段的相对位置,再逐步缩小各片段之间的缺口。
SSLPs, simple sequence length polymorphisms;
STRs, simple tandem repeats; SNPs, single nucleotide polymorphisms.
LINEs, long interspersed nuclear elements; SINEs, short interspersed nuclear elements;
LTR, long terminal repeat. FISH, Fluorescent in situ Hybridization;
STS, Sequence Tagged Site EST, End Sequence Tag.
STS一般为100-500bp的DNA 片段,只在整个genome或染色体中出现1次。