Sunday, December 14, 2008

Genome-Wide Association (GWA) Studies


随着DNA测序技术的飞速发展,测定某个物种的全基因组早已不是什么难事。从1995年第一个细菌基因组——流感嗜血杆菌全基因组序列发表算起,包括酵母,线虫,拟南芥,小鼠,人类,水稻,杨树等在内的各种不同演化等级的模式生物的基因组被相继测定并发表。然而,面对这一连串狂飙突进式的胜利,我们却不能高兴的太早,更大的挑战还在后面。而如何解读这些生命天书成了我们在后基因组时代所面临的首要问题。我们不禁要问这些基因都在执行什么功能?这些基因之间如何协调工作?这些基因与环境间的关系又是如何?

遗传学的发展让我们有机会揭开生命谜团的冰山一角,通过对突变体的筛选和研究,我们了解到了一些基因的功能和作用方式。但相对于生物基因组中庞大的基因数目,这些基于偶然性的研究成果还是显得杯水车薪。而且,通过突变体研究基因功能,存在着很大的先天不足。比如,对于那些对生命过程很重要的基因,我们拿不到相应的突变体(因为这些基因一旦突变将导致生物无法存活)。所以,我们就迫切需要一个全新的研究手段,这种手段最好能无偏见的覆盖所有基因,并且最好是高通量的以与不断公布和更新的各物种的基因组序列相适应。而我这里要介绍的基因组相关性研究(Genome-Wide Association Studies)正是这样一种研究手段。这期Nature(2008 Dec 11)就对这个研究方面做了特刊评述。

我先简要介绍下这个方法吧。比如我们可以分别测定患有某种疾病的人群以及正常人群的DNA序列(实际上并不需要全基因组测序,只需测定一定量的标识片段,即Marker),不难预见,病人和正常人的基因组序列将在多个位点存在差异(这种差异主要包括单核苷酸多态性即SNP以及插入缺失即Indel)。通过对这些差异位点的统计分析,我们可以找出与那种疾病最相关的一组或几组差异位点。那么,现在我们至少可以做两件事情。第一,对这些差异位点所在的DNA区段以及周边区段做进一步的遗传分析,找出与这种疾病直接相关的基因。第二,如果第一点暂时做不到,我们也可以将找出的与疾病表型最相关的差异位点群作为诊断或预测这种疾病的代理标记(Proxy),即如果某个人的基因组在这些位点上与正常人的基因组存在差异,那么他患有这种疾病的风险可能比较大。总之,通过这种技术,我们可以快速简便的将基因组中的遗传差异(Genotype)与表现型(Phenotype)联系起来,为后续研究打下了很好的基础。尤其是伴随着新一代测序技术的产生(比如 Illumina公司的快速测序技术和ABI公司的SOLiD 系统技术),这种GWA分析有着非常好的应用前景,比如基于疾病分析的个体化医疗(Personalized Medicine),比如基于品质和产量分析的作物育种等等。

当然,现在这种方法还并不十分完善,主要是太依赖于统计分析了,所以假阳性(False Positive)和假阴性(False Negative)结果还是比较多的。比如说吧,通过这种方法找到的基因有可能和表型很难联系到一起(当然不排除我们现有认识还比较肤浅的成分),但统计结果却很显著,造成假阳性。再比如,有些在研究单一位点的试验中成立并且其生物学意义也合情合理的相关性位点在这种大规模的基因组水平分析中却由于统计显著性的缘故被排除掉了。但不管怎么说,至少这种方法为我们进一步研究基因功能提供了一个基本平台,相信通过后续研究的去芜存菁以及这种方法自身的改进,应该可以让我们在后基因组时代的探索征途中迈出坚实的一步。正如本文上方的插图,也许这张地图由于时代和技术的原因在很多细节上还非常模糊,但它毕竟已为我们勾勒出了这个世界的轮廓:P

参考文献

  1. M. Nordborg, D. Weigel (2008)Next-generation genetics in plants. Nature 456:720-723
  2. P. Donnelly (2008) Progress and challenges in genome-wide association studies in humans. Nature 456:728-731
  3. M.V. Rockman (2008) Reverse engineering the genotype–phenotype map with natural genetic variation. Nature 456:738-744