Sunday, December 14, 2008

Genome-Wide Association (GWA) Studies


随着DNA测序技术的飞速发展,测定某个物种的全基因组早已不是什么难事。从1995年第一个细菌基因组——流感嗜血杆菌全基因组序列发表算起,包括酵母,线虫,拟南芥,小鼠,人类,水稻,杨树等在内的各种不同演化等级的模式生物的基因组被相继测定并发表。然而,面对这一连串狂飙突进式的胜利,我们却不能高兴的太早,更大的挑战还在后面。而如何解读这些生命天书成了我们在后基因组时代所面临的首要问题。我们不禁要问这些基因都在执行什么功能?这些基因之间如何协调工作?这些基因与环境间的关系又是如何?

遗传学的发展让我们有机会揭开生命谜团的冰山一角,通过对突变体的筛选和研究,我们了解到了一些基因的功能和作用方式。但相对于生物基因组中庞大的基因数目,这些基于偶然性的研究成果还是显得杯水车薪。而且,通过突变体研究基因功能,存在着很大的先天不足。比如,对于那些对生命过程很重要的基因,我们拿不到相应的突变体(因为这些基因一旦突变将导致生物无法存活)。所以,我们就迫切需要一个全新的研究手段,这种手段最好能无偏见的覆盖所有基因,并且最好是高通量的以与不断公布和更新的各物种的基因组序列相适应。而我这里要介绍的基因组相关性研究(Genome-Wide Association Studies)正是这样一种研究手段。这期Nature(2008 Dec 11)就对这个研究方面做了特刊评述。

我先简要介绍下这个方法吧。比如我们可以分别测定患有某种疾病的人群以及正常人群的DNA序列(实际上并不需要全基因组测序,只需测定一定量的标识片段,即Marker),不难预见,病人和正常人的基因组序列将在多个位点存在差异(这种差异主要包括单核苷酸多态性即SNP以及插入缺失即Indel)。通过对这些差异位点的统计分析,我们可以找出与那种疾病最相关的一组或几组差异位点。那么,现在我们至少可以做两件事情。第一,对这些差异位点所在的DNA区段以及周边区段做进一步的遗传分析,找出与这种疾病直接相关的基因。第二,如果第一点暂时做不到,我们也可以将找出的与疾病表型最相关的差异位点群作为诊断或预测这种疾病的代理标记(Proxy),即如果某个人的基因组在这些位点上与正常人的基因组存在差异,那么他患有这种疾病的风险可能比较大。总之,通过这种技术,我们可以快速简便的将基因组中的遗传差异(Genotype)与表现型(Phenotype)联系起来,为后续研究打下了很好的基础。尤其是伴随着新一代测序技术的产生(比如 Illumina公司的快速测序技术和ABI公司的SOLiD 系统技术),这种GWA分析有着非常好的应用前景,比如基于疾病分析的个体化医疗(Personalized Medicine),比如基于品质和产量分析的作物育种等等。

当然,现在这种方法还并不十分完善,主要是太依赖于统计分析了,所以假阳性(False Positive)和假阴性(False Negative)结果还是比较多的。比如说吧,通过这种方法找到的基因有可能和表型很难联系到一起(当然不排除我们现有认识还比较肤浅的成分),但统计结果却很显著,造成假阳性。再比如,有些在研究单一位点的试验中成立并且其生物学意义也合情合理的相关性位点在这种大规模的基因组水平分析中却由于统计显著性的缘故被排除掉了。但不管怎么说,至少这种方法为我们进一步研究基因功能提供了一个基本平台,相信通过后续研究的去芜存菁以及这种方法自身的改进,应该可以让我们在后基因组时代的探索征途中迈出坚实的一步。正如本文上方的插图,也许这张地图由于时代和技术的原因在很多细节上还非常模糊,但它毕竟已为我们勾勒出了这个世界的轮廓:P

参考文献

  1. M. Nordborg, D. Weigel (2008)Next-generation genetics in plants. Nature 456:720-723
  2. P. Donnelly (2008) Progress and challenges in genome-wide association studies in humans. Nature 456:728-731
  3. M.V. Rockman (2008) Reverse engineering the genotype–phenotype map with natural genetic variation. Nature 456:738-744

Friday, November 21, 2008

Zebrafish Embryos Caught on Film


图1是本期Science(2008 Nov 14)的封面,描绘的是日本青鳉(Medaka)的神经系统,该图片采用了数字扫描激光荧光显微镜(DSLM, Digital Scanned Laser Light Sheet Fluorescence Microscope)技术。现在来自德国海德堡欧洲分子生物学实验室(EMBL)的Jochen Wittbrodt和同事将这种技术运用在了发育生物学的研究之中,取得了非常好的效果,甚至可以说给发育生物学的研究开启了新的窗口。


如图2所示,他们标记跟踪了斑马鱼从一个受精卵发育成胚胎的最初24小时内所有细胞的分裂和迁移情况,并用这种显微镜系统从各个角度加以记录,最后将整个全过程处理成影像。通过对这个影像的分析,我们就可以追踪斑马鱼发育过程中每个器官的形成历程,从而可以解决发育生物学中尚未研究清楚的许多谜团,比如这篇Science文章中就为长期来关于脊椎动物中胚层形成过程的争论画上了完美的句号。

其实研究人员曾经成功的在对线虫和海鞘的胚胎发育研究中做过相同的事情,但相对于只有671个细胞的线虫和2600个细胞的海鞘幼体,追踪记录比它们复杂的多,胚胎细胞数目上万的脊椎动物在技术上还一直存在困难。这次是有史以来人们第一次在如此长的时间内如此完整的记录复杂的脊椎动物的发育历程,将对脊椎动物的发育生物学研究往前推进了一大步。正如一个瑞士发育生物学家所评价的:"This is what we have always wanted to do--to follow everything in time and space."

我前面说过,这个成果可能为发育生物学的研究开启了一个崭新的窗口,顺着这个窗口望去,我们会看到怎样的风景呢?借助这种显微技术,我们可以类似的跟踪其它脊椎动物的胚胎发育过程中每个细胞分裂和迁移的情况。而对这些处在不同进化水平的脊椎动物的胚胎发育过程的比较研究将会大大丰富我们现有的对生物发育过程的认识,发育生物学研究在那时将会迎来里程碑式的成就。

其实,还有一个很有价值的方向就是将这种显微技术运用到临床医学上,用以记录病变组织(比如癌症组织)的细胞分裂和迁移情况,从而揭示出现在仍未研究清楚的很多疾病的发病机理和潜在的治疗方案。尤其考虑到这套显微系统的价钱还不算十分昂贵,大约8万欧元左右,应该有着很好的推广应用前景。


参考文献
  1. P.J.Keller,A.D.Schmidt,J.Wittbrodt,E.H.K.Stelzer (2008) Reconstruction of Zebrafish Early Embryonic Development by Scanned Light Sheet Microscopy.Science 322: 1065 - 1069

Sunday, November 09, 2008

From Genes to Social Behavior


在我们还是孩子的时候,当我们用那个阶段所特有的强烈好奇心观察这个新鲜的世界时,我们的脑海中总会蹦出许许多多的问号,比如“大狗熊为什么要冬眠呢?”“大雁秋天为什么要向南飞呢?”“一个蜂巢内住着成千上万只蜜蜂,它们怎么交流呢?怎么分工呢?”......随着我们的成长,我们学到了很多东西,但也同时或多或少的丢掉了很多东西,包括这些伴我们走过童年的好奇与疑惑。现在,当我们有机会从理性和科学的山巅出发,去追寻与重温儿时的那份好奇心,去探索那些或许有些稚气但却非常有趣的问题,怎能不感到开心和激动呢?:P

30多年前,Edward O. Wilson和他的同事们也正是怀着这种追问一切的童心,利用严谨的科学观察与分析,写出了著名的"Sociobiology: The New Synthesis"(《社会生物学──新综合理论》)(1975)。在这本书中,Wilson认为从蚂蚁到大猩猩的各种动物的社会行为都是建立在其内在的生物学基础之上的。他还把这个观点推广至人类:从战争到利他主义的许多人类行为,也有其生物基础,它们是动物特性的一部分。这本书当时无论在学术史上还是社会新闻史上都引起了不小的反响。支持的声音很多,但反对的也不少,因为这个观点或多或少颠覆了人类长久以来自以为是的优越感,一些人甚至将Wilson的理论夸大为基因决定论,视其为为种族主义张目。但不管怎么说,那本书的问世宣告了社会生物学的做为一门生物学分支学科的诞生,也激励了很多生物学家从此投身于对生物社会行为的探索之旅。

30年前,Wilson他们所做的开创性工作受当时技术条件的限制,还只能限于传统的宏观的观察、描述与分析。30年后的今天,生物学研究的面貌已经焕然一新,伴随着以分子生物学为代表的各分支学科的突飞猛进,让我们无论是在知识储备上还是技术能力上都感到前所未有的强大。我们现在对生物社会行为的认识已经融汇了微观与宏观,深入了时间与空间。

本文上方那张图是我从本期Science上的一篇综述中节选的。如图所示,一方面,从基因到社会行为(绿色箭头所示)。生物体内某些基因的调控和表达会形成输入信号并将这些信号通过神经系统传递给大脑,经过大脑的分析处理,再将输出信号通过神经系统传递给运动器官,从而形成生物的行为。也就是说,生物的行为源于它们体内相关的基因,这些基因就好比早已预制好的程序,而生物的所有行为(当然包括社会行为)在一定程度上只是这些程序被执行的结果。但如果仅仅认识的这个程度,就会陷入基因决定论的误区。大自然之所以如此迷人,就在于它是那么丰富,完善和精细,一切都趋于极致。因此,我们还必须同时认识到另一个方面的过程:社会信息会反作用于基因,从而调节生物的社会行为(红色箭头所示)。具体的说,生物所发出的各种特定行为会对它所在的生物社群中产生影响,而这种影响会通过生物的感官系统反馈其本身。该反馈信号经过大脑的分析处理,会通过神经系统传递出信号。从而指导引起生物特定行为的基因的表达开闭(包括转录调控和表观遗传调控),从而改善这种行为,以期获得更好的社会反馈。这样,两种途径结合起来,就形成了一个从基因到行为的网络,但它仍然是平面的,而大自然这个完美主义者是不允许这样的缺憾的:P。于是,在我们的讨论中需要增加时间尺度,而这又可以分为两个层次。第一个层次,以生物的一生为时间尺度。上面的那个从基因到行为的网络在生物一生中的各个生长发育阶段都会根据特定阶段的需求做相应的调整,某些行为被开启,某些行为被关闭,有序且精密。第二个层次,让我们把时间尺度再拉长,以这个物种的演化历史为尺度。漫漫演化路,沧海变桑田。一个物种要想在演化的长征中不被淘汰,就必须学会根据生存环境调整和自己的行为,使之更适应环境的要求。因此,迫于自然选择的压力,这个从基因到行为的网络必须与时俱进,推陈出新。至此,一个立体的,精致的,完善的从基因到行为的模型已经清晰的展现在了我们面前。其实,这仍然是一个简化模型,我们还没有考虑高等生物社群比如人类所形成的道德与文化认同相对于一般的社群反应的特殊性,更没有考虑不同物种间各自行为网络的互动与博弈,如此等等。其实,解析生物的社会行为之所以这么有趣,这么迷人,很大程度上也在于这种复杂度和深刻度。

正是因为这个问题如此迷人又如此有挑战性,现在,越来越多不同方向的生物学家都加入了解析生物社会行为的行列。比如,最近的很多重要进展都是综合借助比较基因组学,神经生物学,表观遗传学,系统生物学等生物学科的新兴力量做出来的。借助这种合力,我们有理由期待对生物社会行为的认识在不久的将来取得突破。正如本期Science上的那篇综述中最后指出的,“We have reasonably detailed knowledge of the two physical substrates responsible for behavior: the brain and the genome. We have a strong and growing arsenal of large-scale technologies and increasingly sophisticated methods of systems biology to profile changes in the brain during social behaviors. The time is ripe to combine this knowledge and these tools to aim for a comprehensive understanding of social behavior in molecular terms. ”

写在后面的话

我认为,上个世纪生物学的发展趋势可以概括为Diverge(分化),技术上的突飞猛进催生了众多新的生物分支学科的发展和繁荣,而以后生物学的发展趋势则应当是Converge(汇合),基于众多分支学科的新发现与新进展,我们逐渐有了将这些研究手段综合运用,从而解决生物学上的一些基本问题的能力。生物学的黄金时代并没有结束,生物学的研究曾经并且仍将是最激动人心的!


参考文献
  1. E. O. Wilson (1975) Sociobiology: The New Synthesis. Harvard University Press. (Twenty-fifth Anniversary Edition, 2000 ISBN 0-674-00089-7)

  2. G. E. Robinson, R. D. Fernald, D. F. Clayton (2008) Genes and Social Behavior. Science 322: 896 - 900

Monday, November 03, 2008

MEGA 4 LE安装手记

前言

MEGA(Molecular Evolutionary Genetics Analysis)以其友好的界面,简单的操作,强大的功能,当然还有免费的授权方式,成为分子进化领域最为常用的软件之一,现在版本号已经更新到了4.0。但长久以来,MEGA都是只能在Windows系统下运行的,直到最近才有了基于Linux操作系统的MEGA 4 Linux Edition(LE)。但这个LE版并不完善,它其实就是个绿色软件包,还是要借助Wine做平台,所以要在Linux系统上安装MEGA,就先得安装Wine。还有一个不完善的地方是这个LE版的安装说明过于简略,只有寥寥几行,忽略了安装过程中很可能遇到的一个问题,反正照着那个安装说明我是没有装成功的而且迷茫了好久-_-!。既然如此,还是有写篇手记的必要的:)

正文

1)Wine的安装和设置

从Wine的官网上下载最新的Wine源码包,下载地址为http://www.winehq.org/site/download,现在的最新稳定版版本号为1.0.1。然后解压到本地任意文件夹
$ tar jxvf wine-1.0.1.tar.bz2

切换到解压后的目录
$ cd wine-1.0.1

为了图省事,我这里用wine自带的安装程序配置和安装的,方法如下
切换到下级目录tools
$ cd tools

运行其中的wineinstall程序
$ wineinstall

该程序会自动运行./configure,然后显示:“We need to install wine as root user, do you want us to build wine,'su root' and install Wine? Enter 'no' to continue without installing(yes/no)”,键入yes,继续安装

安装过程耗时比较长,中间会提示让输入root的密码,照办就是。
待屏幕上出现:Installation complete for now. If you have problems with Wine, please read the documentation first,as many kinds of potential problems are explained there. 表示安装成功了。

这时wine已经可以用了,可以用wine自带的写字板做检验,在任意目录下,终端中键入
$ wine wordpad
就会看到和Windows下熟悉的写字板,亲切吧,嘿嘿,试试各项功能,一切正常。

这样就算安装结束了,在终端键入
$ winecfg
就会看到一个设置面板,可以在里面按照自己的需要设置一下,如果只为用MEGA是不用改动默认设置的。

2)MEGA 4 LE的安装

首先从MEGA官网上下载最新的MEGA LE 4.0.2的rpm包,放在本地任意目录 ,下载地址为http://www.megasoftware.net/mega_linux.html

然后就要开始安装了,下面是MEGA官网上的安装说明,似乎很简单

Installation Instruction
The installation of MEGA 4 LE depends on the X kernel that you use. Most of the time, the installation will start automatically after clicking the Submit and Download button on this page. Generally, the download window will open with two options:

Option 1: Open with Software Installer
By choosing this option, the package manager will guide you through the installation.
1. You will be asked to enter your root password
2. The Installing Packages window will be open: click the Apply button to start the installation
3. The installer will check the MEGA dependencies. If the Dependencies Added window opens, then click Continue or Install Anyway to install the necessary dependencies.

Option 2: Save to disk
If you choose this option, you can install MEGA manually.
1. Login as super user or root
2. Make sure that you have RPM installed. If you don't, then key in the following command to install it:
yum install rpm
3. If you don't have WINE installed, you will need to install Wine by yum install wine
4. After you get RPM, you can install MEGA 4 LE by typing:
rpm -i MEGA-4-01.i386.rpm
or:
rpm -Uvh MEGA-4-01.i386.rpm

但实际操作起来,可就没这么轻松了,我每次我尝试用 rpm -i MEGA-4-01.i386.rpm 安装mega,都会被提示缺少wine支持,可我明明装wine了啊,问题出在哪呢?我查遍baidu, google和wiki,也没找到答案,可能是使用人群过少的缘故吧,那MEGA官网上的用户论坛中总该有人碰到过相似问题吧,结果一点告我 The User Discussion Forum is currently under development and will become available shortly. 简直ft死了...那还是自己动手,丰衣足食吧。

既然没法直接安装rpm包,那先想办法看看其中的内容吧,在网上找到一个很牛的命令,顺利将rpm包解压。终端中键入:
$ rpm2cpio MEGA-4-01.i386.rpm | cpio -idmv
这样就会看到解压出usr和var两个子文件夹

另外还得看看默认安装的话MEGA会被装到那里,运行
$ rpm -qipl MEGA-4-01.i386.rpm
就会看到rpm包中各部分文件应被安装到的目录,发现基本上都在/usr/local/bin或者/var/下面

这样就好办了,照这列出来的安装目录,把我们刚解压出的/usr和/var下面对应目录的文件拷过去了事,具体操作如下。
在root下,将刚解压出的usr文件夹中/local/bin/下的MEGA文件夹和一个名为mega的文件拷到系统目录/usr/local/bin/下。再将解压出的var文件夹中的/log/下的mega文件拷到系统目录/var/log/下。

然后再在终端中敲入
$ mega
依然会提示不能运行,但这次列出了问题所在,提示在/usr/bin/下找不到wine支持,这是当然的,因为我们的Wine默认安装在了/usr/local/bin/下面嘛,呵呵。

知道了问题出在哪里,解决起来也就容易了。找到刚才拷过去的/usr/local/bin下的那个mega文件,其实就是一个bash脚本,用文本编辑器打开。
将其中的“if [ -e /usr/bin/wine ]”一行改为“if [ -e /usr/local/bin/wine ]”,然后保存

退出root,在普通账户下,再试试,终端中输入:
$ mega
会看到弹出一个安装Mozilla ActiveX control 插件的对话框,和Windows下的对话框一样,点击安装就行了。安装完毕后会自动启动MEGA LE,现在MEGA LE已经可以正常使用了。

为了支持多用户使用,还需要把拷到/usr/local/bin下的那个MEGA文件夹及其下面所有目录和文件的权限用chmod命令改为777。
$ chmod 777 文件或目录名

对于系统的每一个独立用户,直接在终端中敲入$ mega即可运行,首次运行时会弹出安装Mozilla ActiveX control 的对话框,照办安装即可。

至此全部安装结束:)

后记

这个安装过程比昨天写的那个hmmpfam的过程要复杂一些,还是希望MEGA能早日开发出不依赖于Wine的Linux版本,也省的我们再去这样折腾了,呵呵。

BTW:
本次安装所使用的OS平台为:Redhat Enterprise Linux Server Release 5.2 (Tikanga)

Sunday, November 02, 2008

HMMPfam的安装使用手记

前言

简要介绍一下HMMPfam吧。这还要从HMMER说起,HMMER是基于隐马尔可夫模型(profile HMMs),用于生物序列分析工作的一个非常强大的软件包,而hmmpfam就是HMMER软件包中的一个重要组成部分。同时,我们还需要了解Pfam (Protein families database of alignments and HMMs),它实际上是一个涵盖了生物蛋白质序列中常见结构域的序列及其相对应的隐马尔科夫模型的数据库,由英国的Sanger Institute维护。hmmpfam的工作原理简单的说就是将用户所提交的查询序列在Pfam库中做比对计算,然后预测出查询序列中所隐含的结构域信息。

正文

通过前面的简介,我们知道要使hmmpfam能成功运行,需要同时安装HMMER软件包和Pfam数据库。下面就让我们开始吧:)

HMMER软件包从http://hmmer.janelia.org/下载,现在的版本为2.3.2。下载下来的应该是源码压缩包,放在任意目录下解压
$ tar xvf hmmer.tar.gz

切换到解压后的目录
$ cd hmmer-2.3.2

下面运行configure进行配置,其实默认配置很简单,直接用./configure 就行了,不用加任何参数。但我自己装的时候设了以下两个参数。--enable-threads 是多线程支持,因为我是在服务器上安装,我们实验室的服务器为4颗双核CPU,因此在这里开启了HMMER对多线程的支持(默认可以使用所有可用的cpu同时进行运算),第二个参数--enable-lfs是开启对大于2G的文件的读写支持,以备不时之需。其它参数可以根据自己需要设置,我这里没有特别设定。
$ ./configure --enable-threads --enable-lfs

后面就很简单了,按部就班三步走。其中make install要在root权限下进行,默认安装路径为(程序:/usr/local/bin/ ,帮助文件: /usr/local/man/man1)
$ make
$ make check
# make install

这样HMMER就装好了,还是很简单的吧:)

下面从ftp://ftp.sanger.ac.uk/pub/databases/Pfam/current_release/上下载Pfam的数据库,现在的最新版本是23.0。Pfam的数据库主要有两个,Pfam_ls和Pfam_fs,我们主要使用Pfam_ls,所以就只下了这一个:Pfam_ls.gz ,解压后实际大小约700M。这里建议新建一个名字叫Pfam的工作文件夹,并把解压后的库文件放在这个文件夹下,以后做hmmpfam分析时的输入输出序列也放在这个文件夹下,这样使用起来不用特别指定目录,比较方便,个人经验,仅供参考,呵呵。

这样一切准备工作就都做好了,可以运行hmmpfam做分析啦:P

切换到Pfam目录下,并运行hmmfam程序。
$ hmmpfam --cpu 4 -E 0.0001 Pfam_ls InputSeq.fas >OutResults.fas

运行hmmpfam时我一般会设这两个参数,--cpu <n> 用于指定本次hmmpfam程序运行时使用的cpu个数,-E <n> 用于设定E-value的阈值。其实hmmpfam还提供了其它很多参数,具体使用时根据需要选用,下面简要列几个:

Usage: hmmpfam [-options]

Available options are:
-h : help; print brief help on version and usage
-n : nucleic acid models/sequence (default protein)
-A : sets alignment output limit to best domain alignments
-E : sets E value cutoff (globE) to ; default 10
-T : sets T bit threshold (globT) to ; no threshold by default
-Z : sets Z (# models) for E-value calculation

后记

回头看看这个安装过程,其实还是挺简单的,只要认真看看Manual文件,绝对没问题。
我对Linux其实也是一知半解,所以基本就是在摸着石头过河,在摸索中前进,在前进中提高嘛,呵呵。

另外,以上安装所使用的OS平台为:
Redhat Enterprise Linux Server Release 5.2 (Tikanga)

Saturday, November 01, 2008

Nov 1st, New Start for This Weblog

"Nothing in Biology Makes Sense Except in the Light of Evolution"

——Theodosius Dobzhansky

想来想去,就用这句话为改版后的Blog开篇吧! :P