有机物气相色谱法中光离子化灵敏度的定量结构与性质相关性研究
互联网
把Am拓扑指数与分子连接性指数用于有机化合物气相色谱分析的光离子化灵敏度的结构-性质相关性研究中,并将遗传算法(GA)引用于本研究中建模,与相应体系的光离子化灵敏度进行相关分析时发现,Am指数,分子连接性指数均能较好地反映化合物的结构特征,但各有特点,GA算法所得结果优于多元回归分析。
关键词拓扑指数,定量结构与性质相关性,光离子化灵敏度,遗传算法
1、引言
气相色谱中的光离子化检测器(简称PID)在环境检测、水质分析、毒物检测等领域有着广泛用途。一般认为在检测有机物时光离子化检测器的灵敏度与有机物的结构有关,但对于有机物的结构与光离子化检测器的灵敏度之间的定量构效关系研究迄今少有报道。
拓扑指数在定量结构-活性/性质相关性研究(QSAR/QSPR)领域发挥了重要作用,许多研究工作已经证明,它与物质的多种理化参数及生物活性之间有相关性。遗传算法(GA)是较新的多元统计方法,与传统的统计方法相比,GA算法最大的优点之一是大大减少了陷入局部最优解的可能性,将其用于QSAR/QSPR研究为GA算法应用的新领域。
本工作主要将新近建议的Am拓扑指数结合分子连接性指数用于一些有机化合物的结构与气相色谱的光离子化检测灵敏度的相关性研究,并将GA算法用于建模,获得了满意的结果。
2、计算模型、方法及参数的计算和选择
2.1拓扑指数
第i个非氢原子的点价值δi按该文献定义的方法计算。化合物的Am指数包括Am1,Am2,Am33个指数,它们的提出是建立在距离矩阵基础之上的。
2.2遗传算法
GA是将问题的求解表示成一群初始“染色体串”,根据适者生存的原则进行复制,通过交叉、变异两种操作产生出新一代更适应环境的“染色体串”群,最后求得问题的最优解。GA算法在本工作QSPR分析中,每个个体代表一个QSPR模型,然后通过随机选择、交叉、变异对群体进行操作,改变其中的变量个数和组合类型,使群体总体的适应值越来越高。选择过程使群体中适应值高的个体比适应值低的个体有更多的复制机会,交叉将父辈的信息结合在一起并将它们传到子代个体,变异则在群体中引入了新的变种保证了群体中个体的多样性,算法结束时将获得一系列变量的优化组合之后的各不相同的模型。
2.3参数的计算及其选择
利用我们自已的多元统计软件包(GTJFX)计算了24个芳烃类和多环芳烃类化合物的18个分子连接性指数(0xp~6xp;3xc~6xc;3xch~6xch;4xpc~6xpc)和三个Am指数,计算机为LXPC/586,程序采用FORTRAN77、BorlandC++5.0编制,化合物来源于。21个拓扑指数部分出现同值现象,仅有13个可作为变量,参数计算值列于表1。化合物的光离子化灵敏度以相对摩尔响应SM表示(有机化合物苯的摩尔响应做为1.0)
表1芳烃类、多环芳烃类化全物的分子连接性指数、Am指数值表
Table.1Themolecularconnecivityindex,
Amindexofaromatichydrocarbonsandpolycycaromatichydrocarbous
序号
No.0xp1xp2xp3xp4xp5xp6xp3xc4xc6xchAm1Am2Am3
14.38682.41071.65470.94050.53440.30360.11850.16670.40640.032118.375227.212326.9334
25.09392.97131.83921.25110.71370.40710.17820.11790.55960.032120.289329.481533.5657
35.08103.97132.23561.38150.93340.53390.25150.11790.49210.032122.164031.714535.7118
46.50183.97132.58921.66181.02560.68920.34110.11790.49210.032124.037533.467538.9616
57.92234.97133.29632.16181.40060.89460.49710.11790.49710.117927.794936.868243.9452
undefined9.33655.97134.00342.66181.75411.14460.68460.11790.49210.032131.563440.262248.0601
710.75076.97134.71053.16182.10771.39460.86130.11790.49210.032135.339343.717851.7742
85.30942.82742.08431.42560.66270.37400.15910.28871.40240.027820.335731.019238.9801
undefined5.30942.82142.15821.17360.80700.35910.20520.33330.83330.027820.316332.054834.0946
105.30942.82142.15471.21820.63690.52580.15710.33330.81290.027820.313730.937733.1724
115.96413.35412.56541.44620.83790.47880.21970.38491.28050.032122.222632.892041.5158
126.88683.76473.06541.74400.95140.60710.43720.55161.68690.027824.126536.462550.2247
136.23213.23212.66511.36601.20240.39430.30820.50001.11600.024122.233136.8030P41.0227
145.61883.40472.34721.65871.13290.75660.37730.16671.04060.055627.523842.002153.0140
157.77354.80943.54652.61401.88261.38820.82590.33331.97310.076438.325457.362081.4083
167.77354.84543.50782.65421.95481.40900.83360.31102.15460.076438.341557.965984.6805
1undefined9.92826.22014.70723.61132.69622.03711.30320.47773.17300.097249.039671.0585107.8501
1undefined10.00566.16214.76473.84452.90522.13881.32940.39432.79340.077649.501891.2365219.3108
198.77355.55944.28963.39272.66962.05091.33430.45833.2430.089844.361669.2301107.1122
2010.92826.23214.63683.65172.85852.17931.39120.43303.40270.099049.066372.8730116.4204
217.32594.61183.49112.70582.07961.51410.88340.34852.33960.055635.467956.6246105.9357
228.77355.56544.25483.41242.74272.07911.32270.43453.34060.075944.377070.6253139.1981
238.77354.07142.73211.88091.26120.82930.42940.16671.04060.064232.235245.470757.9801
2410.08296.14274.30943.09912.11631.43720.84930.33332.08120.091947.757763.407086.3321
测试集(thenumberoftestset)。1.甲基苯(toluene);2.乙基苯(ethylbenzene);3.n-丙基苯(n-propylbenzene);4.n-丁基苯(n-butylbenzene);5.n-己基苯(n-hexylbenzene);6.n-辛基苯(n-octylbenzene);7.n-癸基苯(n-decylbenzene);8.邻二甲苯(o-xylene);9.间二甲苯(m-xylene);10.对二甲苯(p-xylene);11.异丙基苯(cumene);12.对异丙基甲苯(p-cymene);13.1,3,5-三甲苯(mesitylene);14.萘(naphthalene);15.蒽(anthracene);16.菲(phenanthrene);17.苯并蒽(1,2-benzanthracene);18.�(chrysene);19.芘(pyrene);20.苯并菲(triphenylene);21.芴(fluorene);22.荧蒽(fluoranthene);23.联二苯(biphenyl);24.三联苯(p-terphenyl)。
(2)此处A为所分析的有机物的色谱峰面积,ABZ是苯的色谱峰面积,B为有机物摩尔浓度(μmol/L),BBZ为苯标准样品的摩尔浓度。
3、结果与分析
3.1多元回归分析(MLR)
24个芳烃类、多环芳烃类化合物被随机分为两组:训练集含20个化合物,预测集含4个化合物(见表2)。对训练集中的20个化合物的Am指数与其SM进行相关性分析,得3个Am指数与SM的最优方程为:
SM=1.8300-0.3350Am1+1.5351Am2-0.5757Am3
R=0.9686,F=101,RMS=0.1558,n=20
表2MLR和GA算法分析结果比较
Table2Theresultsofmultivariateregressionanalysisandgeneticalgorithm
序号
No.化合物名称
CompoundSMexpt.MLR计算SMcalc.值
ThevalueofSMcalc.byMLRGA计算SMcalc.值
ThevalueofSMcalc.byGA
Eq.(3)Eq.(4)模型1Model1模型2Model2
1甲基苯Toluene1.091.041.211.191.22
2乙基苯Ethylbenzene1.161.091.221.231.23
3n-丙基苯n-Propylbenzene1.211.201.271.311.26
4n-丁基苯n-Butylbenzene1.271.251.351.291.30
5n-已基苯n-Hexylbenzene1.291.371.401.401.37
undefinedn-辛基苯n-Octylbenzene1.521.491.491.491.47
7n-癸基苯n-Decylbenzene1.691.631.581.581.56
8邻二甲苯o-Xylene1.141.161.171.121.17
undefined间二甲苯m-Xylene1.151.311.161.231.22
10对二甲苯p-Xylene1.201.221.311.101.17
11异丙基苯Cumene1.221.231.241.221.20
12对异丙基甲苯p-Cymene1.271.361.261.141.33
131,3,5-三甲苯Mesitylene1.271.571.101.381.23
14萘Naphthalene1.971.701.711.761.70
15蒽Anthracene2.442.332.302.292.28
16菲Phenanthrene2.502.342.312.342.29
1undefined苯并蒽1,2-Benzanthracene2.462.852.902.872.88
1undefined�Chrysene2.963.152.822.812.91
19芘Pyrene3.022.842.932.922.90
20苯并[9,10]菲Triphenylene3.082.893.053.022.97
21芴Fluorene2.082.042.242.272.28
22荧蒽Fluoranthene2.852.552.832.832.88
23联二苯Biphenyl1.881.791.771.801.77
24三联苯p-Terphenyl2.202.502.302.332.33
测试集(thenumberoftestset)。
运用方程式预报测试集中4个化合物的SM,其RMS=0.232。
同理,数据标准化处理后,运用逐步回归分析对分子连接性指数与SM进行相关性分析,选出1xp,5xp,6xch,3个分子连接性指数与SM的相关模型为:
SM=1.8299-0.19041xp+0.60665xch+0.25076xch
R=0.9778,F=16.8,RMS=0.117,n=20
运用方程式(4)预报测试集中4个化合物的SM,其RMS=0.231,比较方程式(3)、(4)可见,分子连接性指数、Am指数均能较好地反映这类化合物的结构特征,分子连接性指数与SM的相关性优于Am指数,这在把分子连接性指数,Am指数混合逐步回归分析后仍得到方程式(4)可进一步说明。从方程式(3)、(4)也可看出,Am指数的显著性高(F值大),比较训练集的RMS及预测集的RMS的差别可以看出,Am指数的预报值较分子连接性指数稳键。用方程式(3)、(4)计算的SM值(SMcalc.的eq.3和eq.4两列),预报值及实验值(SMexpt.一列)见表2。
3.2GA算法分析
本研究中,24个化合物仍然分成训练集、测试集,情况同3.1。将分子连接性指数、Am指数的13个拓扑变量混合并标准化后与相应的SM值作遗传算法分析。
3.2.1种群规模(popsize)种群规模N影响GA的有效性,N太小,GA会很差或根本找不出最优的QSPR模型,因为太小的种群规模不能提供足够多的“采样点”,N太大,会增加计算量,使收敛时间增长,在本研究中,经过实际运算比较,种群规模取N=80。
3.2.2染色体串长度(lChrom)在本研究中,染色体串长度即为拓扑变量的总数lChrom=13。
3.2.3交叉概率(pcross)交叉概率Pc控制不同基因型交叉操作的频率。一般来说,Pc越大,产生新个体的机会越大,搜索效率越高。但Pc太大会使适应值高的结构很快被破坏掉,则搜索到的较好个体将会丢失;而Pc太小则搜索会停止不前。在本研究中,经过实验比较,交叉概率Pc取0.6。
3.2.4变异概率(pmutation)除了交叉概率Pc,变异概率Pm是增大种群多样性的第二个因素。Pm太小不会产生新的基因型;Pm太大,会使GA变成随机搜索。在本研究中,Pm取0.04。
3.2.5初始随机参数(randomseedvalue)通常,GA算法的输出与初始随机参数有关,如何选择最优初始随机参数,迄今尚无规律可循。目前,常用的方法是试用不同的初始随机参数,由实验得最隹选择。
3.2.6GA算法结果相应于本研究的QSPR模型,选取R为适应值函数,选用GA的停止条件为n代内R无显著提高,考虑到结果分析的工作量及运行时间,所以,在研究中,最终选取的进化代数(maxgen)为80代。运行GA算法,分析所得结果,得到最优5个模型,具体参量列于表3。可以看出,模型1,模型2(表3中No.1,No.2)结果优于同样变量数的逐步回归结果(表3中No.3)。对训练集中的20个化合物,由模型1计算相应的SM值并与实验值比较,其RMS=0.113,预报测试集4个化合物,RMS=0.222;由模型2计算训练集中20个化合物相应的SM值并与实验值比较,其RMS=0.121,预报测试集4个化合物,RMS=0.216。应用模型1,模型2计算相应的SM值(SMcalc.,model1,model2两列)列于表2。
3.3讨论
本文用多元回归分析(MLR),遗传算法(GA)对24个芳烃类,多环芳烃类化合物的分子连接性指数,Am指数与其光离子化灵敏度SM进行了构效关系研究,实验证明,所选拓扑参量能反映这类化合物的结构特征,而分子连接性指数,Am指数在多元回归建模中各有特点,运用GA算法所得结果优于MLR所得结果。由此说明MLR分析所得到的“解”有时为局部最优,而GA算法可以克服MLR分析的缺陷,能得到全局最优“解”,本研究中方法的改进提高了建模效果。从所列的光离子化灵敏度SM的实验值及计算值,结合文献〔5〕所研究的其它类化合物可以看出,有机化合物的SM值受化合物的结构所影响,存在以下规律:
SM(aromatics)>SM(Alkenes)>SM(Alkanes)
SM(cycliccompounds)>SM(noncycliccompounds)
SM(alcohols)>SM(alkanes)
SM(branchedcompounds)>SM(nonbranchedcompounds)
由MLR分析,GA算法建立的模型定量地反映了这种构效关系。可以期待,Am拓扑指数和分子连接性指数相结合,则能够较好地用于其它类有机化合物的光离子化灵敏度的构效关系中,并能可靠时间,所以,在研究中,最终选取的进化代数(maxgen)为80代。运行GA算法,分析所得结果,得到最优5个模型,具体参量列于表3。可以看出,模型1,模型2(表3中No.1,No.2)结果优于同样变量数的逐步回归结果(表3中No.3)。对训练集中的20个化合物,由模型1计算相应的SM值并与实验值
表3GA算法的最优五个模型
Table3FivebettermodelsbyusingGA
No.染色体串
Chromosome选择变量
SelectionofvariablesFR
110001000010001510154.88980.9792
210000010001001711148.36720.9783
30100010001000261016.76210.9778
401001000010002510143.66300.9776
510000100001001611143.33950.9775
4(2):117~119