来源: 发布时间:2013-12-23
本刊记者 廖潇莎
如果我们列出“复杂高维数据分析”、“半参数模型”、“变量选择”??这一连串儿的专业名词,大部分人一定不明白这是什么意思,那么来看看这个例子:2012年年初,一名美国男子闯入了他家附近的乐购超市,“你们怎么能这样!”男人向店铺经理大吼道,“你们竟然给我女儿发婴儿尿片和童车的优惠券,她才17岁!”店铺经理不知道发生了什么,立刻向来者道歉,表明那肯定是个误会。然而,经理没有意识到,公司正在运行一套大数据系统。一个月后,这名愤怒的父亲打来电话道歉,因为超市发来的婴儿用品促销广告并不是误发,他的女儿的确怀孕了。
这就是大数据领域有名的“少女怀孕事件”。自20世纪末以来,信息变革一直在发生,但此前都集中在技术上,大数据时代的到来让人们开始关注信息本身。“大数据”这一名词也已经成为继云计算、社交网络之后,信息技术领域最时髦的词汇之一,并且与我们每个人息息相关。
必须承认,大数据是个非常年轻的领域,充满激情与活力,而大数据价值背后的分析则需要沉稳与踏实,这两者在北京工业大学副教授李高荣的身上得到完美融合。
激情与活力:创新思维
曾有人比喻:“如果说20世纪是一个石油为王的时代,21世纪就是一个数据为王的时代,21世纪数据的价值有可能等同于20世纪的石油。”大数据的价值实现在于分析和预测。李高荣近年来一直从事非参数统计、变量选择、复杂高维数据分析及其相关领域的研究工作。在对数据分析的半参数模型和变量选择等方面,他和合作者提出了自己的创新理论并作出研究成果。
高维数据分析中变量选择的研究。在这项研究中,提出了稳健的变量选择方法。首先提出了稳健的秩相关筛选(screening)方法处理超高维数据,这是一种非参数统计方法,解决了现有文献中要求解释变量是正态分布或类似正态分布这一很强的条件,仅仅要求二阶矩存在,也可用于分析离散型变量数据的情形。新方法不仅对重尾分布和异常值的超高维数据具有稳健性,还可用于超高维数据半参数模型的研究。其次,当数据存在重尾分布和异常值时,提出了非凹惩罚M估计方法,这一方法不仅具有稳健性,更重要的是在方法论上建立了超高维数据分析方法和SCAD、Lasso和MCP等惩罚变量选择方法之间的桥梁,并为超高维数据分析两步估计提供了理论支持。最后,对高维纵向数据的分析方面,基于光滑阈值的广义估计方程,提出了数据自适应的变量选择方法,这一方法的优点是避免惩罚变量选择方法在算法上面的凸优化问题,能够方便有效地同时进行变量选择和参数估计。
所提出的方法被用于一些超高维基因数据和医学数据的研究,验证了有效性。
复杂数据半参数模型的研究和纠偏技巧。半参数模型是一类重要的统计模型,可以描述和概括众多的实际问题,不仅具有很强的解释能力,而且还可避免高维数据分析的“维数祸根”问题。李高荣和其合作者提出了“纠偏”或“修正”的统计思想,解决了复杂数据半参数模型研究的瓶颈问题,证明了所提出的数据适应的估计量和检验统计量具有标准的渐近结果。如对测量误差半参数模型的研究,首先提出了纠偏的经验似然方法,证明纠偏的经验对数似然比统计量依分布渐近收敛到标准卡方分布。其次,提出了修正的Profile最小二乘估计和修正的Lagrange乘子检验统计量,并研究了估计量和检验统计量的渐近性质,数值模拟和实际数据研究显示所提方法有很好的表现。《Computational Statistics and Data Analysis》杂志的副主编对此项工作的论文评价道:“经过认真阅读,我确实很喜欢这篇文章,文笔流畅,而且工作相当扎实。”
最后,他把所提的纠偏的经验似然方法推广到了半参数变系数模型,单指标和多指标等半参数模型的研究,并受到了国内外统计学者的一致好评。
纵向数据和面板数据的研究。纵向数据的研究方面,提出了适应于纵向数据组内相关结构的广义经验似然方法,使用纠偏技巧,解决了困扰纵向数据半参数模型(如部分线性模型和单指标模型)的理论结果不具有标准结果的瓶颈问题,从理论上和数值模拟上证明了所提方法的优良性。他们把此方法应用到美国艾滋病研究中心得到的具有HIV的同性恋病人的数据,研究了吸烟、年龄和HIV感染之前CD4的百分比,以及对于艾滋病感染之后CD的百分比的影响。通过对面板数据的研究,把经验似然方法用于部分线性固定效应模型的研究,进一步提出加权的group-SCAD的变量选择方法研究固定效应变系数模型。这项研究主要创新点是在不损失信息的基础上,可以有效的消除模型中的固定效应,并具有很好的理论性质,模拟结果和实际应用也验证了这一方法的有效性。
大偏差理论的研究。基于刘文教授研究大偏差理论中提出的分析方法,李高荣和合作者们提出了把拉普拉斯(Laplace)变化和矩母函数的工具用于连续型随机变量序列极限理论的研究,结合似然比的思想,建立了一类用不等式表示的大偏差定理,并把所提方法推广到了信息论中Shannon-McMillan定理的研究。
沉稳与踏实:两次破格
2013年5月2日,国家统计局马建堂局长在科研所等单位上报的有关大数据的报告上批示:“我们对大数据对我国统计工作的机遇与挑战,无论如何强调都不过分,甚至都不够。抓住这一机遇和挑战,当前的关键还是统一思想,坚定意志,主动进取。如果我们不想成为落伍者,而欲成为弄潮儿,就必须清醒地认识这一点。”
李高荣无疑是这次新机遇中的“弄潮儿”。他的勤奋与努力、沉稳与踏实,都使得他在这个人才济济的领域里稳步攀升。2007年,李高荣获得北京工业大学概率论与数理统计专业博士学位,其后的两年间在华东师范大学金融与统计学院做博士后。完成博士后仅仅三年,2012年,李高荣就破格入选北京工业大学“京华人才”支持计划项目(要求40岁以下的正教授),第二年又一次破格成为博士生导师。
目前,李高荣正在主持国家自然科学青年基金(纵向数据单指标混合效应模型的有效统计推断),高等学校博士学科点专项科研基金联合资助课题(高维数据半参数模型的变量选择及其应用)和北京市教育委员会科技计划面上项目(函数型数据半参数模型的统计方法、理论及应用)。
此外,他还担任着中国现场统计研究会生存分析分会副秘书长、美国数学评论评论员及众多国内外统计学术期刊的审稿专家。几年来,李高荣多次访问香港浸会大学、新加坡南洋理工大学和山东大学,促进合作研究,短短几年已经积累了丰硕的研究成果,在《Annals of Statistics》、《Journal of Multivariate Analysis》、《Statistica Sinica》和《Computational Statistics and Data Analysis》等国内外重要学术期刊发表学术论文47篇,其中有27篇被SCI收录,4篇被EI收录,SCI期刊论文他引60多次。2010年,李高荣分别入选北京市属高校人才强教深化计划“中青年骨干人才培养计划”和北京市优秀人才培养资助计划。
新兴领域中,人才的培养亟待解决,在专注科研的同时李高荣也没有放松基础教学工作,他一直是北京工业大学数学建模指导组成员,2011年指导美国大学生数学建模竞赛获一等奖(Meritorious)。指导的第一个硕士生获得北京工业大学2013级优秀硕士学位论文。在教学方面,他主要承担着本科生的《概率论与数理统计》和《多元统计分析》课程,以及研究生的《统计软件选讲》、《数理统计与随机过程》和《现代管理统计》课程。
2012年3月,美国政府就已经启动了“大数据研究和发展创新计划”。2013年9月举行的北京市第17次统计科学讨论会上,“大数据背景下的统计”成为大会主题,可见在信息化的今天,大数据或高维数据的统计方法对各个领域的重要影响和作用。李高荣表示,自己未来的工作重点依然在发展复杂超高维数据分析、半参数模型、以及面板数据交互固定效应模型的统计方法、理论及其应用研究上。同时,大数据已经存在于各个行业和领域,他希望继续在高维数据和复杂数据方面进行研究,发展处理复杂超高维数据的统计方法和理论。