欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
刘汉中:大数据时代的“新力量”

来源:  发布时间:2017-12-10

本刊记者  杜月娇

  
  
  随着科学技术的发展和大数据时代的到来,人们可以较容易地获得海量数据,比如基因芯片数据、卫星传感数据、文本数据、互联网数据(百度、谷歌、脸书、推特等)。“这些数据的最大特点就是海量、高维。”刘汉中说道。海量可以理解,高维又是什么概念呢?
  “高维数据是指数据的维度远远大于样本量,例如基本芯片数据、大脑核磁共振成像数据、传感数据、社交网络数据等。”刘汉中给出了解释。如何利用统计学的模型和方法有效地分析和处理这些高维数据并用于指导实践活动,这将是一个非常有意义的研究问题。
  对于作为2016年执教于清华大学的刘汉中来说,致力于研究解决高维数据和大数据问题的统计学方法和理论,把高维统计学和因果推断发展成清华大学的核心课程,并应用高维统计分析的方法解决与大数据相关的实际问题,则是他回国的最大初衷。
  
机器学习和因果推断的完美结合
  
  在大数据和数据科学时代,统计学家和数据科学家经常面临解决高维数据的问题。这些问题来源于各种不同的领域,如基因学、生物信息学、神经科学、环境科学、信息学和金融学等。也因此,高维统计和变量选择成为最近20年最为热门的研究问题之一。而目前,刘汉中正致力于高维数据相关的领域的研究,这其中包括高维统计推断和大数据因果推断。
  2009年,刘汉中从中国科学技术大学统计学专业毕业,优异的学习成绩让他获得了保送北京大学研究生的资格,这也让他遇见了对自己研究方向有直接影响的导师郁彬教授。2012年,他又获得了国家留学基金委博士生联合培养项目的名额,在加州大学伯克利分校度过了两年丰富的时光。之后,在加州大学伯克利分校统计系从事博士后研究,导师为郁彬教授。至今,刘汉中已发表高水平SCI论文3篇,其中一篇发表在世界四大名刊之一的美国科学院院报(PNAS)上(刘汉中为共同第一作者)。此外,他还担任了多个SCI国际学术顶级期刊和重要国际会议(包括AoS,AoAS,JASA,JMLR,ICML)的审稿人。在多项成果中,“利用机器学习的方法,解决大数据背景下如何更有效地进行因果推断的问题”是刘汉中的突出成绩之一。 
  机器学习和因果推断是两个非常重要的研究领域。机器学习的方法已经被广泛地应用于研究相关性关系,并以此进行分类和预测等。但是利用机器学习的方法推断因果性关系的研究却很少,这是因为因果性关系的确定比相关性关系要复杂得多。随机试验是进行因果推断的重要手段。在现代的大规模随机试验中,研究者们能够观察到大量的解释变量。然而,在大数据背景下,解释变量的个数往往大于样本量,而且并不是所有的解释变量都对感兴趣的因变量有影响。因此,变量选择或者一定形式的正则化对于提高因果效应的估计精度非常重要。传统的因果推断方法不能很好地利用大数据的信息,这也使得研究者们迫切需要发展新的理论和方法研究大数据因果推断。
  考虑到机器学习在相关性关系的研究中获得的巨大成功,如何把机器学习的方法和大数据因果推断结合起来,这将是一个非常重要的研究方向。在郁彬教授的指引下,刘汉中很快就捕捉到了这一点。他和合作者们(Adam Bloniarz博士、Cun-Hui Zhang教授、Jasjeet S. Sekhon教授、郁彬教授)首次提出了利用高维变量选择的方法(Lasso)进行大数据因果推断的理论框架,把Lasso的理论和方法推广到Neyman-Rubin因果模型中去,为研究者们提供了分析大数据因果推断的重要工具。这项研究给出了Lasso能够更有效地估计平均因果效应的充分条件,并在此基础上证明了该估计方法的渐近正态性。同时,给出了渐近方差的一个保守估计,可以用于建立平均因果效应的置信区间。而刘汉中的研究成果也被《美国科学院院报》接受发表,初步探索了机器学习和因果推断这两个领域的结合方法。
  
奋力开启新征程
  
  除让机器学习和因果推断两个领域完美结合,刘汉中还有多项非常有意义的创新研究成果。其一就是基于残差Bootstrap和Lasso+OLS的高维统计推断。统计推断,即建立参数估计的置信区间、求p值等,是统计学研究的核心之一。“在高维即大数据背景下如何进行统计推断是一个非常困难的问题”刘汉中直言。这是因为高维的统计学估计方法,例如Lasso、Elastice Net等,他们的极限分布十分复杂,难于估计。传统的残差Bootstrap的方法也不能给出渐近合理的置信区间。
  迎难而上是科研者的使命。最终刘汉中和导师郁彬教授独辟蹊径,创新性地把传统的统计学思想和方法(Bootstrap和最小二乘法)和现代高维变量选择的工具(Lasso)结合起来,提出了基于两步估计Lasso+OLS的残差Bootstrap方法来建立高维稀疏线性回归模型中参数的置信区间。这项研究从理论上证明了该方法的合理性,并且和已知的方法相比,该方法更加通俗易懂,计算速度更快,非常适合数据科学家分析大数据时使用,其相应的成果也发表在数理统计类SCI期刊上。
  科学理论和方法研究的意义之一就是实际应用。研究带有非负约束的Lasso估计的变量选择和参数估计的理论性质,并把该方法应用到中国股票市场的指数追踪问题中,正是应用意义的体现。指数追踪是重要的经济金融问题,据刘汉中介绍,在当时的中国股票市场,由于无法卖空股票,只能依靠买入股票追踪某种指数,比如沪深300指数。由于昂贵的交易费用和管理费用,人们通常不会选择持有构成指数的所有股票来追踪该种指数。如何从大量的股票中选择出能够最有效地追踪指数的那些股票?这个问题就变得非常重要。为了解决这一问题,刘汉中和合作者们(杨?含博士、吴岚教授)提出了带有非负约束(即只能买入股票,不能卖空股票)的Lasso方法,并且在一定的条件下证明了该方法具有变量选择相合性和参数估计相合性。在追踪沪深300指数的实际应用中,发现只用30只股票就可以实现年化追踪误差在5%左右。该项研究成果发表在数据分析方向重要期刊上。
  2016年,学成归来,带着理想和抱负,刘汉中毅然加入清华大学。在已有研究成果的基础上,回国后的他积极开展有关高维统计分析和大数据因果推断方面的教学和科研工作。在教学方面,他立志尽全力把高维统计学和因果推断发展成清华大学的核心课程;在科研方面,将致力于应用高维统计分析的方法解决与大数据相关的实际问题,同时发展大数据背景下进行因果推断的新理论和新方法。
  “大数据因果推断将是未来统计学研究的重点方向之一。”高维统计推断和因果推断是清华大学统计学研究中心未来的重点发展方向之一。回国后的刘汉中将作为主要研究人员,承担高维统计推断和大数据因果推断的教学工作。在国外的学习和研究工作经历,不仅让刘汉中掌握了大量经典的和最新的高维统计学理论和方法,更了解了高维统计学和大数据的学术研究前沿动态,同时受到了国外先进的教学授课方法的熏陶。基于此,刘汉中表示将结合清华大学的实际情况,把国外所学倾囊传授给清华的莘莘学子,同时希望能够发展具有清华大学统计学中心特色的高维统计学核心课程。
  科研上,刘汉中表示除了完成现有课题的论文写作工作,还将致力于高维统计分析理论和应用研究、机器学习和因果推断研究。具体而言,将在因果推断的Neyman-Rubin框架下,研究各种机器学习方法(例如Elastic Net、Ridge等)的统计性质,发展适合大数据因果推断的统计学新方法,并把这些方法应用于研究实际中出现的各种因果推断问题,比如个人医疗、A/B检验(例如互联网点击率影响因素探索)等。
  如何利用好大数据时代提供的海量高维数据?尽管“还有相当长一段路要走”,但在刘汉中看来,“同时充满了各种机遇和机会”。但作为大数据时代的新生力量,他将奋力开启一段新的征程。
  
  

分享到:
杂志
本期封面

2024年2月

上一期 下一期