欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
以今日代码建构明日医疗

    发布时间:2025-11-25

——记北京大学医学部与国际数学中心双聘研究员刘默雷

郑 心  文卓君  谭 凯

  

  医疗改革(简称“医改”)是什么?在一些人眼中,医改是盘大棋局,牵涉一系列政策和制度;也有人表示,医改是张成绩单,汇集一项项工作和数据;更有人说,医改是一种获得感,勾连一幕幕场景和记忆,让身为个体的“你我他”真切可感……总而言之,医疗深入改革与发展,正在以一种不可阻挡的态势改变着每个人的生活。而当站在真理背后的科研者身披数据统计、融合分析相关技术的弧光融入此浪潮,则无疑又一次托举起了其快速抵达远方的希望。“统计是篇大文章。”这其中,极具代表性的青年骨干——北京大学医学部与国际数学中心双聘研究员刘默雷如此说道。

  从事高维复杂数据推断、数据融合、半监督学习、迁移学习等研究方向多年,积极在医学信息学、基因组学、儿科学等应用领域开展广泛合作的刘默雷始终坚信:数据最有说服力。“人工智能、数据挖掘和生物信息等新技术的应用,正在推动健康医疗领域向着更加精准、更加个人的方向发展。换言之,医疗数据只有通过更进一步的流通共享,才能更多地实现其公共价值。”所以,在刘默雷的日常工作中,一个个民生数据正连缀成向上的曲线,不断织密扎牢一张巨大的社会保障网,汇聚成人民群众实实在在的幸福感与安全感。


年少何妨梦摘星

  如此关乎人类健康的宏大愿望,其实在刘默雷少时还远未成形。但不得不承认的是,他是极具天赋的科研者——在身为工程师的父母以身作则地引导下,即便没有诸多课外班的推动,年少的刘默雷也很清楚:以书导航,才是开启精彩人生的密钥;越成长、越学习,人生才能越丰富、越开阔。因此,学校里的课程,他不敷衍、不被动,课外唯一的奥数课程,他也将其当作知识的补充,更有甚者,将其当成探索世界的新路径。正是在这样的态度中,他发现了理学世界的魅力,虽然有时掉进“逻辑的陷阱”,但非对即错的严谨与复杂却有序的特性,无不如同植入刘默雷脑海的飓风,使他越思考越深陷其中。

  借着这股思维的东风,刘默雷参加的比赛越来越多,成绩也越来越优异,当初高中走入人民大学附属中学后,他对理学竞赛的热情与天赋也并未被繁重的课业挤压分毫。相反,愈发耀眼的思维之光帮助他获得了他人求之不得且是我国最高学府之一——北京大学数学科学学院(简称“北大数院”)的保送资格。而在接下来4年人与平台双向奔赴、互相成就的动人故事里,有个人的奋斗,也有环境的温情;有发展的红利,也有时代的际遇。

  从怀揣数学梦想的青年学子到启蒙科研梦想的有志青年,刘默雷回想起的第一个瞬间,有关一堂名为“研究型学习”的课程。“我记得应该是大学二年级的时候,是张平文老师生动有趣的讲述和引导,带我叩开了科学研究的大门。”有别于输入理论知识的课堂,在学生印象中,张老师的授业既在书中,更在书外。“他会把考核设定为一个完整的科研项目,以此让我们自主体验未来可能的职业方向。”在这样的标准下,刘默雷订立了人生中首个“科研项目”——以父母工作的场景为灵感蓝本,他开发了一套机器学习建模方法,利用生产参数预测工业产品质量。“其实这时候我对于神经网络模型的掌握还仅仅是一点皮毛。”但重要的是,这个看似有些“粗糙”的项目让刘默雷完整地体验了科学研究链条上的几乎全部环节——从选题立项到思考创新方式,再到撰写论文报告,全部由他亲自操刀完成。“而更加意外的是,当时这套模型取得的效果还挺不错的。”这份预期之外的成就感也从此悄然激发出刘默雷心中“笃行不怠,不肯稍离”的闯劲,也是他后来一直坚持前行在这条路上追梦圆梦的信心源泉。

  大学三年级,刘默雷向着统计研究道路又迈出了坚实一步,在合作导师葛颢教授的指导与帮助之下,他们沿着流行的贝叶斯计算方法——MCMC方法,即马尔可夫链—蒙特卡罗(Markov chain Monte Carlo)方法,将相关理论进行优化改进,探索了关于单细胞测序数据批次效应的处理问题。“这次研究经历告诉我,在每个个体的许多细胞里,不同种类的细胞基因是如何表达的,但由于这类数据的噪声很大、维数很高,分析的过程很有挑战。”结果当然是完满的,但对于彼时的刘默雷而言,成功不是目的,培养探索深度与思考广度才是彼岸。

  而当本科生涯即将走到尽头的时候,一个“出外看世界”的念头也开始在刘默雷的脑海中酝酿。庆幸的是,家人的支持为他提供了足够的底气和帮助,让他在接到哈佛大学面试通知的时候淡定从容了许多。“但说不紧张也是假的,其实我没想到我会成功申请到哈佛。”而真诚往往是最打动人的,即便面对来自哈佛的考官时,刘默雷心中多少有些无措,但他还是将对数学的热忱与对科学探索的执着表达得清楚明白。所以,顺理成章地,世界名校的橄榄枝被他紧握在手中,他走向了下一段人生新程。


少年无向易中轻

  如果追溯起刘默雷与美国的交集,其实大学三年级的一次交流学习便已初见端倪。彼时,即便不知道能否得到回音,他还是向远在耶鲁大学的赵宏宇教授投递了邮件,表达了自己的合作意愿。“在学有余力的情况下,北大数院非常支持我们开展本科生科研的相关尝试,这既是探索未来职业方向的路径,也是让教育不仅仅停留在斗室之内的举措。而赵宏宇教授刚好是我北大数院的前辈,我就抱着试一试的心态,没想到误打误撞为自己找到了一条宏阔的研究道路。”

  笔尖计算难替实践深耕,本该游玩放松的假期时间里,刘默雷用一封邮件、一张机票将自己远送至大洋彼岸,跟随前辈埋首学习,真正走进生物统计前沿领域。在暑期的数月时间里,他与赵宏宇教授一起,为构建同时处理生存数据和大量纵向生物标志物的联合建模方法而殚精竭虑。“在最终呈现的学术论文里,我们提出了一种全新的贝叶斯框架下的联合建模方法。此方法能够使用因子分析模型来推断以往未被观察到的潜在变量,这大大降低了生物标志物的维度,同时也解释了高度相关性的生物标志物。”

  有了此次实践经历,在回国继续学业的一年“留白”里,刘默雷的想象与思考都有了更大的成长空间,他开始思索:普通的个体究竟要如何借助科学的工具触摸社会的脉搏?平凡的科研者如何唱和家国时代的凯歌?

  带着对未来的思考和逐光而行的憧憬,刘默雷在哈佛遇到了又一位令其感恩至深的导师——曾以“天才”之名名冠中西的蔡天西教授。14岁进入中国科学技术大学少年班,22岁获哈佛大学博士学位,28岁被聘为哈佛博士生导师,30岁成为该校历史上最年轻的终身教授之一,其研究聚焦生存分析、医学诊断和半参数回归分析等生物统计学前沿领域,曾获生物统计专业著名奖项“罗伯特·里得奖”……其实至今,学术界仍流传着这位“学霸”的成长传说,但对刘默雷而言,这些成就并不是令他信服的唯一原因。生长在非传统教育的家庭环境之下,蔡天西教授这位年少时便有为的执牛耳者“因材施教”的本领与“前瞻未来”的大局观,才真正是刘默雷读书期间“看得见的哲理”。“在蔡老师的指导下,我切实认识到自己此前学习的统计和数学能帮助人们解决诸多具有科学价值和现实意义的问题。并且,她让我看到医学领域的复杂性为方法和理论创新提供了丰沃的土壤,这种学科间的互补与交叉性不仅为我的探索方向提供了新的可能,还进一步激发了我的研究热情。”刘默雷说。于是,他的首篇统计学顶刊文章便在此时应运而生。

  数据的异质性分析,一直是学界必须面对的难题之一。在超高维数据环境中,困难无疑还在加剧。因此,在博士期间,刘默雷与导师一起对此发起挑战。从构建框架、提出方法到理论验证、实证研究,过程中他所付出的努力不胜枚举,但最终能令刘默雷深深铭记的只有每一次越山过坎之后收获的“实战经验”,而非那些轻易就被消解掉的负面情绪。不过,论文终是科研者的千重风雨、万里关山,两次大修还是颇让刘默雷费了些工夫,“如何能从现实世界里浩如烟海的电子医疗数据中得到足够具有创新性的研究动机,到如何更清晰地阐述自己的创新理论,这其中其实光靠数据的堆叠是远远不够的,论证的角度、原理的阐释、结论的严谨性,都是可以一辈子精益求精的东西”。而这篇高水平学术论文,最终论述了一种新的数据屏蔽高维整合回归(SHIR)的综合估计方法。它可通过基于汇总统计的整合程序保护个体数据,适应研究间协变量分布和模型参数的异质性,并实现一致的变量选择,渐近等同于通过共享所有数据获得的理想估计器。

  然而,阶段性的成功并未唤起太多的欣喜,反而让刘默雷再一次切身体会到研究不易。于是,在接下来“独当一面”的工作历程中,他的深思熟虑、大胆推理、小心求证在磨砺心性的过程中达到了高度的辩证统一。当独立完成的有关模型-X条件随机化检验(CRT)的论文被统计学顶刊发表时,他才终于厚积起面向未来的底气。“这篇论文是由我和高中同学李双宁合作完成的,它重要的意义在于说明了我们有能力以一个独立研究员的身份完成高质量工作了。虽然这其中一定离不开蔡老师与另一位导师卢卡斯·扬森(Lucas Janson)的帮助——他们在我博士阶段后期就开始鼓励我更独立地做研究。这篇论文的思路刚出现时我也问过他们要不要作为指导老师参与,他们都出于对我长期发展的考量,建议我独立完成它。但我仍然不吝啬赞赏当时坚持下来的同伴和自己,在无数次来往于图书馆和住所的日夜里,我们始终保有奋斗的恒心和沉潜的定力。”

  而当看到自己解开了一些现象背后的“数学问题”,以及开发的方法与工具真正落地产生价值时,双重的实现感让刘默雷深感惊喜,并且更加坚定地选择继续在数据科学和生物医学的交叉领域深研下去。直到2025年年初,刘默雷还在哥伦比亚大学公共卫生学院出任教职,其间还荣获了学校颁发的桑福德·海博尔顿(Sanford Bolton)学者奖。针对高维推断的模型鲁棒性与多来源数据整合的异质性与隐私问题,他均有创新性见解与建树。但在一派顺风顺水之中,刘默雷还是于20253月正式决定回归母校,据他坦陈,做此决定的原点有良师与亲友的“召唤”,但更多是文化与情感的归属。


犯其至难而图其至远

  最能慰藉乡愁的,莫过于一场久别重逢的团聚。阔别故土与母校8年,刘默雷重新踏足故乡热土的直观感受是,什么都变了,又仿佛什么都还依旧:北京大学(以下简称“北大”)校园依然钟灵毓秀,莘莘学子勤奋上进,良师旧友也在科学的蓝海与自己的岗位上坚守;然而,国家却多了一些繁荣发展的故事,尤其是在AI的助力下不断推进的数字健康与医疗创新建设,正在成为全民健康的核心驱动力之一,这与刘默雷的研究方向可谓不谋而合。

  “聚焦于统计学/人工智能方法与生物医学大数据应用的交叉领域,近期我在聚力开展可信赖和可解释AI方面的相关研究;在交叉应用方面,我从事的合作研究也在逐步涉及基于电子健康与生物样本库大数据的风险预测、药物安全性研究、多人群基因组学研究等领域,目的是通过数学与医学的深度交叉,实现由数据驱动的医疗决策支持与精准医疗。简单来说就是从生物医学研究和临床实践所积累的海量数据中发掘规律和知识,以改善现实世界中健康与医疗方面的决策。”从这样的定位中,刘默雷清晰地知道要理解数字健康,不仅要在突飞猛进的科技创新中寻找答案,还要从现实生活中发现逻辑,在安定有序中洞察缘由。因此,他表示,对之后的教研工作十分期待。“一方面,我希望能依托北大医学部和数院的宝贵平台,建立一个能将统计学、信息学、生物医学有机结合的复合型研究团队,团队成员有不同背景和专长,能够很好地合作与互补,从而在数据科学与生物医学的交叉研究上取得成果。另一方面,我希望能通过高质量的教学和科研指导,从北大发掘与培养适合从事交叉学科研究的学生——未来计划开设一门融合数据科学、人工智能和生物医学的课程,把理论与应用有机结合起来,培养复合型人才。”

  为达成此愿,刘默雷心中也在逐渐成形一个“脚踏实地”的教学宗旨,即课堂上口授的知识易逝,板书也会被轻易抹去,只有动手实践过的道理与个人积攒下的经验会长留心中。所以,他未来将大力提倡“找准书本与广阔世界连通点”的教学方式,着重培养数学基础、概率统计及写代码此类“动手”能力,同时在学有余力的基础上,力争创造更多带领学生走进科研实践的机会,让“读万卷书”与“行万里路”碰撞出更精彩的火花。此外,尽管自己拥有较长时间的国外留学经历,但他却不拘泥于必须经历“跨文化环境教育”学术背景的理念,“多种文化碰撞有其好处,但并不是每个人走上科研的必由之路。同时,国内的教育环境与水平都在持续增强,这些年培养出了大批能够达到国际一流水准的优秀学生”。

  随着大语言模型的飞速普及,如刘默雷一般的科研者心中很清楚:未来已来,但并非凭空而来,无限的可能,就藏在今日与明日、传统与现代的连接里。因此,他们“以有涯随无涯”,视科研如攀岳——虽然难免有巉岩阻碍,但科学的“至道”从不是遥不可及的境界,而在于脚下每一步的坚持。路途漫漫,躬行必至,数字健康战略从今日提出到明日成势,其动力既藏于一串串代码的堆叠,更发源于一代代人的接力中。

专家简介

  刘默雷,北京大学医学部与国际数学中心双聘研究员、助理教授、博士生导师,入选国家级海外高层次人才计划青年项目。2017年获北京大学数学科学学院统计学学士学位,2022年获美国哈佛大学生物统计学博士学位(导师为蔡天西教授),20222024年在美国哥伦比亚大学任助理教授(终身教轨预聘)。主要统计学理论与方法研究方向包括高维复杂数据推断、数据融合、半监督学习、迁移学习等,论文成果发表于《皇家统计学会杂志B-统计方法》(JRSSB,统计学四大顶刊之一)、《美国统计协会杂志》(JASA,统计学四大顶刊之一)、《生物识别》(Biometrika,统计学四大顶刊之一)、《机器学习研究杂志》(JMLR,机器学习顶刊)、《生物计量学》(Biometrics)等学术期刊。同时,在医学信息学、基因组学等应用领域开展交叉合作研究,论文成果发表于《科学》(Science,共一作)、《自然·数字医学》(npj Digital Medicine)等学术期刊。

分享到:
资讯