以生物路径丛概念从事复杂疾病之基因分析
互联网
在后基因体时代,基因芯片 (microarray) 的出现让研究人员得以宏观的视野来探讨分子机转。在许多努力和资源投入到寻找新的疾病基因后,许多单基因疾病已成功地找出致病基因。然而,在复杂疾病 (例如高血压、糖尿病及一些常见癌症) 的研究上,收获却不如期待中的丰富。
大多数复杂疾病的研究中都可找出分布在不同染色体上的致病基因,但其与疾病仅有小至中等的连结 (linkage) 或关联性 (association),且只有极少数的致病基因能在大量人口资料中,仍对疾病的连结或关联性具有显着性。目前从复杂疾病研究找到的致病基因,大多数在跨研究的报告中皆不具重现性。
以肥胖为例,在2004年Dr. Perusse1的研究发现:与人类肥胖相关的113个候选基因 (candidate gene) 在50个全基因扫描研究中,仅有18个基因在五个以上的研究提出一致的正面相关报导。
另外,2005年Dr. Agarwal2 的评论提到,25个高血压基因在不同的连结或关联性研究中,有9个基因在连结性研究中负面相关的报导多于正面相关的报导。而25个基因中,多数在关联性研究中正面相关和负面相关的报导不相上下。
文献中将复杂疾病的致病基因在跨研究间缺乏重复性的现象,归纳出了几点解释。其中一个最广为接受的看法是这些多因子疾病的异质性 (heterogeneous)。
另外,因在不同研究中,对各种表型 (phenotype,如血压、血糖) 定义上的不同和量测的不精确、对环境危险或保固因子 (如抽烟量,对污染物的摄取量) 的不同暴露程度以及不同人口之间基因背景的差异等因素,皆会遮蔽、加强或改变基因的作用并造成不同程度的疾病外显率 (penetrance)。
目前在复杂疾病的研究上,一般以使用类似的表型以减少样本间的异质性。然而,表型的同质化并不等于基因型的同质化。再者,一个疾病可能只是多种表型类似,但起源(基因)不同的病征组合。
这个概念虽曾在文献中被提出过,但科学家所使用的简化表型方法并不尽理想。譬如在精神疾病领域,许多学者提出 ”endophenotype”,也就是「内在生物表型」这个概念。但他们所提出的操作方法,仅只是简单化(或减化)表型,譬如:以解剖学、影像学,或症兆定义上来减化,而没有着眼在减化「参与病征发展的生化路径」上。
这个问题的主要瓶颈在于科学家对于疾病发展的机制还不够了解。因此,中研院潘文涵教授3 提出以下建议:在现今大量产生的基因表现数据上,运用「数据探勘 (data mining)」的方法,进行群组分析 (cluster analysis);
将这些资料分成若干个群组内相关,但群组间不相关的多个群组,每一个群组可能代表一两个少数源头基因、和一些他的下游基因的表现状态。所得群组同构型高且接近病原的潜在基因,因此可视为「生物路径丛」的指针。
本公司特约研究员林可轩博士在中研院潘文涵教授实验室服务期间,即在高血压的研究上4运用特殊的人工神经网络 (artificial neural network) 模型,以华联的人类表达谱芯片 (HOA, Human OneArray®) 所产生的大量基因数据来实现「生物路径丛」的概念。
藉由不同的联机连接到中间的隐藏点 (hidden node)。这些中间的隐藏点及代表不同的「生物路径丛」。藉由联机上不同的权重,决定各生物路径丛包含的基因。最后,各生物路径丛对各所属基因加权的结果决定是否送出影响输出端 (output node) 做决策的信号。
最后,输出端对各生物路径丛送出信号加权的结果决定是否诱发高血压。林博士在文献中详述了决定各联机的权重及生物路径丛数量的方法。鉴于篇幅有限,本文中不予详述。
从模型隐藏点信号 可看出三个生物路径丛在高血压病人及正常血压者中呈现不同样板。
红色样板代表该生物路径丛是处于表现 (expressed) 的状况,蓝色样板则代表该生物路径丛是处于不 (或低) 表现的状况。从图中可看出,生物路径丛一 (endophenotype 1) 是强保固的 (strongly protective),生物路径丛二是弱保固的 (weakly protective),生物路径丛三则是强危害的 (strongly risk)。
这三个生物路径丛将高血压病人及正常血压者分成几个群组,不同群组中,含生物路径丛三者血压最高,含生物路径丛二者血压微降,含生物路径丛一者血压下降最多。即构建的三个生物路径丛对血压调控有不同的角色。生物路径丛亦可对高血压病人做适当的分群。
这一年来华联快讯 介绍基因芯片在各领域的应用,在年末希望藉这期简短的介绍,带大家认识生物路径丛的概念,拓展基因芯片数据在构建与表型相关之分析模块的可能方向。
面对复杂疾病或表型的异质与多源性,预期这个生物路径丛概念的运用应能帮助简化复杂疾病或表型的面向,而有效定位疾病或表型,并协助找出致病基因及其他因子,以期早日找出有效治疗方针或追踪的生物标志。