来源: 发布时间:2018-07-04
本刊记者 刘玉杰
当今时代是科技的时代,信息的时代。为了能达到最大限度地节约时间、资源成本,人们越来越依赖于共享知识、信息提供的便利。然而,有效的知识、信息需要经过庞大复杂的数据整合、提取来获得。而海量的数据搜集、分析在为我们提供更多实用信息的同时,伴随的是数据复杂性和维度多样性等相关问题的产生。这就为统计学方法研究和应用带来了巨大的挑战。
挑战即机遇,中国人民大学统计与大数据研究院副教授郭绍俊,这些年来一直致力于高维统计学习、大维统计计算、生物统计及函数型数据分析等研究。他表示:“目前大数据时代,对中国的统计学来讲是个很好的机会,可以让更多人把统计学应用并发扬光大。”着眼当下,统计学发展前景十分广阔,其必将吸引更多的人投身至此。
统计学热潮不会太久远
统计学作为研究数据方法的一种,在被提及时,大部分人印象还停留在分类、汇总、制表等浅层层面,且不明实际应用效能,这是统计学面临的尴尬之一。此外,统计学虽渗透领域广泛,但作为思想工具充当的大都是“幕后英雄。” 部分基于统计学思想进行数据研究的学者,更乐于自称经济学家、金融学家,而非统计学家。此类现象,相信不是统计学个例,有关现象成因是值得学术界探讨思考的。
“目前,大数据热潮集中在硬件的管理、存储等功用能力上,尚未转移到对数据本身的价值研究。”郭绍俊如是分析。他还表示,由关注数据存储到关注数据本身是一个循序渐进的过程,而统计学研究将在过程中承担重要角色。“当数据管理、存储的火热退却,数据分析势必会成为主向导,届时统计学优势也将显现出来。”
统计学不可能只是泛化的纸上谈兵,它的实际应用如何呢?郭绍俊结合国内外差异,做出相对细致的回答。“国外应用相比国内发展较快,以生物统计为例,国外发展甚至远超统计系,经典统计学奠基人之一Karl Pearson也曾致力于此。”生物统计应用覆盖范围广,囊括了医院、制药厂等众多机构。
此外,区别国内外统计知识的传承,郭绍俊补充道:“国外学者乐于推广宣传知识技艺,长期积淀的基础相对扎实,理论和应用能够双管齐下。二战时,国际著名统计学家John Tukey已经使用应用统计学解决实际问题。而我国介于文化缘由,很多先进的知识和方法论未能传承。”从发展角度看,国外统计学遵循了数据分析、方法论建立、基于方法搭建理论框架这一渐进过程,而中国统计学则直接从数理角度起步,跨过了应用直达理论,在认识上难免存在不足。“如今数据分析和统计学研究是一个分离状态,这样其实并不合理。而大数据时代数据和数据分析的认识被不断刷新,两者之间交流是必不可少的。”
事实上,在统计学研究的导向之下,郭绍俊格外关注高维数据建模领域。针对数据喷发带来的一系列问题,如考虑高维线性模型的参数估计以及变量选择问题,基于最小二乘方法的传统回归技术就不再奏效,基于稀疏性假设下的正则化方法已成为研究高维数据的一类基本方法。他一直致力从各角度思考,寻找新的出发点,从而能够在理论上揭示高维数据建模中正则化方法可能带来的优势及风险。研究过程中,他提出了一连串新的高维统计分析和建模的工具。它们不仅能巧妙地利用稀疏性思想,还具有解决大范围问题的普适性,从广度和深度上直接推动了高维数据处理工具的发展。
“中国不缺少人才,缺少的是顶尖人才”
被问及身为科研工作者所具备的专业素养时,郭绍俊有一套自己的见解。“一如既往地坚持科研是乐趣,而不断思考才会促使短暂的人生升华。”科研是一个漫长的过程,工作难度与时间付出呈现非绝对性正相关,耐心、韧性也就成为必需品。除此之外,保持好奇心是孜孜不倦学习的动力之源,摆正心态、自身的勤勉、对物欲的节制亦是郭绍俊分外看重的。
树人先树己。对待研究工作,郭绍俊始终秉持“宁缺勿滥”的准则。他认为文章的精华在于新的统计思想的阐述,并一再强调,统计学注重的是方法学习、统计思想交流,而非照本宣科。“思想是书本无法印刷的,却恰恰是最重要的。同理,文献的价值并非文字本身,而是其背后所要传达的思想。”
扎实的计算机基础,深邃的统计思想是一个统计学者必备的。而现如今,统计学门槛过低,计算机技能要求尚浅,同时拘泥于学科维度限制,这些对统计学发展都不是好的现象。统计学从业人员并不适用“木桶效应”,相对而言,硬性化计算机能力、灵活化统计学思想、辅以厚重的历史感、深度的知识层,打破平庸地均衡发展,用尖端效应带来的独立优势打造联动模式明显更符合当前局势。
因兴趣做出选择
从最初对数学的喜爱转变成如今对统计学的专注,郭绍俊走过了一个漫长的过程,感触颇多。
说起选择,对郭绍俊来说,本科选择数学专业是没有丝毫迟疑的。之后,通过对数学的接触,他确定自己更想向应用数学的方向发展,而在应用数学范畴,他没有被当时火热的金融证券吸引,转身投入到更加注重方法的统计学。选择中国人民大学统计与大数据研究院,郭绍俊也有过一番深思熟虑。作为国内数据研究的前沿平台,研究院致力构建世界一流水平的统计与数据学科,开展学科原创性研究,同时在领域内展开多种形式的学术交流与教学合作。研发与教学并重,发展与育人同行,这正是吸引他的缘由所在。
提到恩师,郭绍俊表达了由衷的感谢之情。在中科院读博士时,是陈敏研究员引领他进入富有魅力的统计学领域,而后在导师的极力推荐下,他赴国外跟随国际一流统计学家进行前沿课题研究。在普林斯顿大学展开博士后研究时,他师承范剑青教授,在英国伦敦经济学院访问时,他师从姚琦伟教授。他坦言从3位老师身上受益颇深,无论是教书育人还是学术研究,正是得益于恩师们的言传身教,他感悟到什么是高水平的科学研究、什么是高尚的学术品味、什么是谦虚严谨的学术风范。
现在,郭绍俊在专注科研工作的同时,走上三尺讲台教书育人,为统计学及数据科学注入新鲜的血液。闲暇时,他会打打羽毛球,还和记者笑称之所以爱好羽毛球,是因为打羽毛球和统计科学研究一样更注重方法和思想。虽然教学工作占据了他相当部分的生活,但在科学研究这条路上,郭绍俊将继续义无反顾。
专家简介:
郭绍俊,中国人民大学统计与大数据研究院副教授,统计与大数据研究院研究生委员会主任。他于2003年获山东师范大学应用数学学士学位,2008年获中国科学院数学与系统科学研究院统计学博士学位。博士毕业后,留任中国科学院数学与系统科学研究院担任助理研究员。工作期间,曾两次远赴国外,开展高维数据推断领域的博士后研究工作。2009-2010年,在美国普林斯顿大学做高维数据分析方面的研究;2014-2016年,在英国伦敦经济学院做大维时间序列建模方面的研究。他的研究方向涵盖了生物统计、高维数据、时间序列等多个领域,其理论和方法研究取得了一系列的成果,先后在Journal of Royal Statistical Society、 Series B、Journal of the American Statistical Association、Biometrika等统计学权威期刊上发表数篇高水平论文。