欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
打胡跃清:为生命而奔走

来源:  发布时间:2014-01-05

本刊记者 王婷婷

 

  说起生物统计学,很多人可能一头雾水,不知道是研究什么的。“生物统计学是采用统计学的定量分析方法研究生命科学相关问题的一门交叉学科,目前已被广泛应用于生命科学的各个领域中”,作为复旦大学生物统计学研究所正高级PI的胡跃清这样解释道。因此,也可以说,生物统计学是一门始终围绕着生命而奔走的学科。
  胡跃清多年从事统计遗传学,统计法证学和统计诊断学的研究工作,在John Wiley & Sons出版著作“Statistical DNA Forensics: Theory, Methods and Computation”,在American Journal of Epidemiology, Annals of Human Genetics, Biometrics, Forensic Science International, Genetic Epidemiology, Genetics, Heredity, Human Heredity, International Journal of Legal Medicine, Journal of Human Genetics, Journal of the Royal Statistical Society Series A, Scandinavian Journal of Statistics, Statistics in Medicine, Transfusion等国际著名刊物上发表科学论文。
  
树立科学理想 走上研究道路
  
  1981-1988年就读中山大学数学系获理学学士学位和理学硕士学位,2003-2007年就读香港大学统计与精算学系获哲学博士学位。1988-2003年任东南大学助教/讲师/副教授,2007-2009年任香港大学统计与精算学系助理教授。从2010年,他开始担任复旦大学生物统计学研究所正高级PI。胡跃清的求学道路走得很顺畅,也走得相当精彩,令人艳羡。
  谈到自己的研究领域,胡跃清显得有些兴奋,一串串专业术语脱口而出:“我主要是利用和发展统计学方法和模型研究遗传流行病的病理机制,亲源效应检测,复杂疾病基因定位,全基因组关联分析,基因拷贝数变异和稀有变异相关问题研究,二代测序数据分析,DNA混合物的量化研究和相关统计软件编制。”
  科研道路上,胡跃清一直严格要求自己,立志创新。2005年,他凭借“DNA混合遗迹的法证研究及其分析软件,以改善罪证确认可靠性”项目获第九届“挑战杯”二等奖,该项目利用人体DNA纹印的独一无二性进行个体身份的鉴定,建立和发展了一套完整的统计模型,在多种复杂情形下得出评价DNA混合遗迹的计算公式,编制相应的电脑分析软件,程序运行效率高,界面友好,结果可直接生成分析报告。此套量化软件已在香港、澳门、文莱、捷克斯洛伐克、比利时等国家和地区的法证实验室得到应用。
  
承担重要项目 潜心致力研究
  
  从2004年第一次在人类基因组中发现大规模的拷贝数变异开始,越来越多的科学家将注意力转移到拷贝数变异这种新的重要的遗传变异形式。并且,他们坚信,随着测序技术的进一步发展以及在全球范围内收集更多的样本,将会发现更多的拷贝数变异。
  许多科学家推测,拷贝数变异可能会通过影响基因的表达从而影响人类的多态性和对疾病的易感性。随着对拷贝数变异研究的不断深入,人们发现越来越多的复杂疾病都可能和拷贝数变异有关联。另外也有报道称,拷贝数变异会涉及到一些药物代谢基因,从而影响患者的药物代谢能力,这可以帮助我们理解为什么同样的药物用在不同的人身上会有不同的效果。因此,拷贝数的变异和很多复杂疾病都有着密切的关系,而关于拷贝数变异和复杂疾病之间的关联分析研究是拷贝数变异研究中的一个重要组成部分。
  基于拷贝数变异在遗传学研究中的重要意义,胡跃清作为主持人承担了国家自然科学基金面上项目“基于拷贝数变异的疾病易感基因定位中的统计方法研究”,该研究项目属于统计遗传学的研究范畴,人类复杂易感疾病基因的定位是一个非常热门同时有异常困难的话题。
  伴随着人类基因组计划的不断深入和不断完善,研究人员可以利用分析的数据也越来越多,当然其数量是海量级的。如何去挖掘其中对我们有用的信息是目前的研究重点之一。统计学在其中扮演着一个非常重要的角色。统计遗传学则是统计学和遗传学的广度和深度结合。从已查阅到的文献来看,国外的研究队伍比较强大,而国内的研究队伍实力相对较弱,人员相对较少。应该说,我国非常需要同时具备统计学和遗传学的人才,此外还当然包括计算机编程的能力。已有的基于家系数据的研究结果限于双亲家庭,单个小孩,质量性状值,数据的缺失跟个体的基因型无关,并且大多都是SNPs数据,这在很大程度上限制了研究结果的应用范围。而胡跃清主持的这一项目则预期在一般家系基于基因拷贝数变异的关联分析研究、遗传印记基因的检测、各种性状基因的定位、当个体的生存状态依赖于个体本身的基因型时的疾病易感性基因的定位、以及数据缺失的依赖性研究有所突破。目前已在基于家系数据的关于疾病和基因拷贝数之间的关联分析研究方面取得了较好的进展。
  作为主持人,胡跃清还承担了上海市浦江人才计划项目“检测与癌症相关联的遗传及环境因素的统计学方法研究”,该项目的特色之处在于:用统计学方法研究跟癌症相关联的影响因素,具体来说是(1)发展交叉熵来衡量病例组和对照组中稀有变异的分布的不同,取代传统的只比较分布的平均值是否相同的做法,综合考虑SNPs之间的依赖关系和不同的影响方向,检测对癌症有影响的特有变异模式。(2)尽管可以利用当下热门的高通量二代测序技术来发现稀有变异,但由于测序成本的居高不下,要想在短时间内让它走向大众还不太现实。考虑到几个常见变异就可以组成一个稀有单倍型变异,直接对GWAS时期花巨资构建的宝贵数据资源进行二次开采,发展相应的检验稀有单倍型的方法,极大降低研究成本。(3)目前处理高维数据的成熟方法还相当匮乏,人们还没有合适的模型/工具来同时刻画遗传因素、环境因素、以及它们之间的交互作用的影响。发展logistic回归模型,结合Bayesian LASSO的思想,做高维参数的假设经验问题。(4) 为了极大的消除一些公共背景噪音对分析结果的影响,分层抽取对照组变得越来越流行。采用把分层变量看成协变量或基于分层变量的条件分布,高效检验出相关联的稀有变异。同时还可以考虑对照组匹配抽样和嵌套抽样场合下的数据分析。
  该项目亦有许多创新之处,诸如现有的大多数研究基因-环境因素相互作用的方法都是针对常见变异的,现有的定位稀有SNPs的关联分析方法常常不考虑它们跟环境协变量之间的相互作用。该项目着眼于研究单倍型遗传因素、环境因素以及它们之间的相互作用对癌症的影响。该项目提出的方法可以充分利用丰富的GWAS资源来研究稀有变异。对稀有单倍型来说,这是一块未曾开发的处女地,里面蕴含了极其有用的信息。与直接利用二代测序数据检测稀有变异不同,对GWAS数据库中的信息进行二次挖掘和利用是极具创新性的。同时,该项目首次考虑稀有单倍型和环境因素的互作,这在文献中也是属于首创。
  此外,该项目将着重对GWAS时期构建的基因型和表性数据库dbGaP这一宝贵资源进行二次开发,发展新颖的统计学方法,高效检测出跟各种癌症有关联的遗传因素(稀有SNPs和稀有单倍型)、环境因素以及它们之间的相互作用,评估稀有变异是否会增加患病的风险,以及在各种癌症数据中的应用。从而为癌症的基因疗法提供非常可贵的统计学依据,为疾病的预防提供很好的理论依据。这将较客观地评估和预测各种遗传因素、环境因素(包括它们之间的互作)的患病风险,以及对揭示各种癌症和其它复杂疾病的遗传基础做出重要贡献。
  2012年12月16日复旦大学成立了生物统计学和计算生物学系,我国生物统计学专业高等教育的历史由此翻开了新的一页。“这是我生命中的一件大事”,胡跃清动情地说。寄予这样一个崭新的高等教育平台,培养出我国自己的生物统计学专业人才,吸引一批既懂统计学又懂生物学的年轻人加入到生物统计学研究队伍,极大发展和提升我国的科学研究实力,在国际大舞台上发表更多高水准的科学研究论文。
  

分享到:
杂志
本期封面

2024年3月

上一期 下一期