来源: 发布时间:2025-11-28
——记南开大学统计与数据科学学院教授郑伟
张方方 周晴晴
不夸张地说,没有蛋白质,生命就无法存在。蛋白质由20种标准氨基酸组合而成,它们通过不同的排列组合方式折叠成独特的三维结构,并在细胞内发挥特定的功能,从而支撑人体的基本生命活动。这些蛋白质结构是如何形成的呢?过去几十年,科学家一直致力于破解其中的折叠密码。尤其当以德米斯·哈萨和约翰·江珀为代表的深度思维(DeepMind)团队将人工智能技术应用于解决蛋白质折叠问题后,他们推出的阿尔法折叠(AlphaFold)算法惊艳亮相,AlphaFold2更是以近乎实验手段解析的精度实现对蛋白质三维结构的精准预测。
“这是能获得2024年诺贝尔化学奖的算法。”南开大学统计与数据科学学院教授郑伟说。早在2020年,他就见证过AlphaFold2的一战成名。那年,当AlphaFold2在第十四届世界蛋白质三级结构预测大赛(CASP14)人工组一举夺魁时,“隔壁”的自动服务器组,美国密西根大学张阳教授团队也荣登榜首。彼时,郑伟正在张阳团队做博士后研究,是参赛算法的主要开发者之一。
“那年,AlphaFold2的算法精度出现了一个巨大的飞跃,给我们带来极大的震撼,也让蛋白质结构预测从一个相对小众的研究领域变得越来越受重视。但它不是这个领域的终结者,相反,我们仍有许多问题要解决。”郑伟说。自那之后,他在基于深度学习及统计能量函数的生物分子及其互作的结构预测研究上日益精进。在他看来,蛋白质折叠里蕴藏着关于生命的奥秘,唯有不断探索与创新,才能为人类健康与福祉贡献力量。
探索“折叠”人生
南开大学是郑伟的母校。
“高中时我特别喜欢数学,也因为敬佩陈省身先生,对南开大学十分向往。”郑伟说。2007年,他考入南开大学数学科学学院。根据专业培养范式,经过两年系统学习后将进行学科方向细分,而郑伟选择了信息与计算方向。此前,时任信息与数据科学系系主任阮吉寿教授曾多次谈到过生物信息学的相关进展,郑伟发现,这是一门前沿交叉学科,可以将计算机、数学、生物、物理等多个方向融会贯通,挑战性很强,但也极具生命力。郑伟并不畏难,高中阶段他就是个理科高手,曾多次参加数学、物理、化学、生物竞赛,如果能在交叉融合间挖掘出新的“宝藏”,他乐在其中。
最早接触蛋白质结构预测工具时,郑伟正在追随胡刚教授攻读硕士学位。“我当时主要基于蛋白质结构的一些计算问题展开研究。”计算就需要工具,最初,郑伟对统计工具、传统算法、机器学习等进行了广泛涉猎,他也是在当时读到了张阳教授所研发的基于穿线法的蛋白质结构预测方法I-TASSER。这是一种综合算法,比传统单一算法的鲁棒性和精度更高,能够预测蛋白质结构并提供关于蛋白质功能的预测,经过不断迭代更新,逐渐成为主流算法之一。自从2006年起,张阳团队的I-TASSER算法系列就连续在CASP自动服务器组位居榜首,这也在郑伟心中留下了深刻的烙印。
2014年,郑伟硕士毕业后继续在南开大学读博,师从阮吉寿教授。第二年,团队引入一位青年教师杨建益。“杨老师在蛋白质结构预测方向颇有建树,与他合作,我算是介入了这一领域。在他的推荐下,我得以加入密西根大学张阳教授团队,开始系统学习蛋白质结构预测的基础问题。”
“蛋白质主要由20种氨基酸组成,通常由英文字母来表示,而氨基酸分子里也含有很多原子。因此,蛋白质结构预测问题可以概括为:输入一个由这些字母组成的氨基酸字符串,使用计算算法去预测蛋白质序列中每个氨基酸中的每个原子的三维空间坐标(x,y,z)。”郑伟介绍道。由于蛋白质只有在折叠成特定的空间构象后才能具备相应的活性和生物学功能,因此结构预测对于理解蛋白质功能、揭示疾病机制及进行药物设计具有重要意义。传统的结构解析依赖于X射线晶体学、核磁共振等实验技术,不仅耗时长、成本高,还对实验条件要求苛刻。而随着计算机信息技术的发展,蛋白质结构预测进入新的阶段,让高精度、快速、低成本预测成为可能。
经过几年学习后,当郑伟踏上CASP赛程时,已经是团队骨干成员了。在2018年举行的CASP13中,他们将深度学习接触图预测引入“久经沙场”的I-TASSER,从而开发出C-I-TASSER算法,拿到服务器组第一名;两年后的CASP14中,他们在蒙特卡洛模拟中引入深度学习预测的距离和氢键的约束,进一步开发出D-I-TASSER,再次在服务器组夺魁。
“其实,当时还只是这两项算法的初版。”郑伟说。话虽如此,他却已经折服于蛋白质结构预测所呈现出的力量,尤其当自己的一些工作可以成为新算法的基石,并在世界级比赛中拿到好成绩,他产生了强烈的成就感。但紧接着,新的挑战来了。
2021年年底,郑伟得知一个消息:张阳教授即将离开密西根大学,课题组也将随之解散。霎时间,“何去何从”成了郑伟不得不面对的问题。更重要的是,要如何参加第二年举行的CASP15呢?郑伟的压力很大。
“CASP14对整个学术界影响非常大,AlphaFold2的横空出世让人欣喜,又有点颓废。欣喜是因为蛋白质结构预测真的能把精度做这么高,而且有人成功了;颓废是总有人怀疑会不会以后在这个领域就没有什么可做的余地了。”郑伟说。在这种情况下,要应对CASP15本来就是个巨大的挑战,郑伟也为此做了很多准备工作,可一旦课题组解散,他就不得不独立参赛。“CASP比赛是这样的,它会将新近通过实验确定的蛋白质结构不断‘释放’出来作为团队测试其结构预测方法的对象,每次测试任务都要在规定时间内完成,这个时间甚至可能只有3天。而整个赛程中,可能会‘刷’出几十次任务。”
时间太紧张了,郑伟没有太多时间去犹豫。认真考虑后,他与密西根大学莉迪亚·弗雷多利诺副教授达成一致意见,进入她的实验室。“莉迪亚老师与张阳老师有过不少的前期合作,对我的工作比较熟悉,很爽快地接纳了我,并提供相应的研究经费。”就这样,在莉迪亚副教授的支持下,郑伟与妻子乌云其其格合力迎战CASP15。蛋白质结构预测非常繁琐,要耗费大量算力,两个人轮班的状态下,他们每天只有五六个小时的休息时间,而这种状态持续了4个月。“在服务器组,按照高精度全局距离检验分值(GDT-HA)排名,我们又拿到了冠军;而按照全局距离检验—总合分值(GDT-TS)排名,杨建益老师团队排名更高。”郑伟介绍道。不仅如此,他在多结构域蛋白质结构预测和蛋白质复合体结构预测中也名列榜首。也是在这场比赛中,他发现,AlphaFold2似乎也不再是不可逾越的大山了,这令他愈发坚信蛋白质结构预测领域还有更多问题尚待发掘。他也带着昂扬的斗志走向了CASP16,这一次,他成了真正的带队者。
“当预测精度在某些领域上难以精进,大家就会转向其他新问题的研究。”郑伟表示,在CASP16中,他和团队参加了多个赛道,并针对不同赛道构建了专门的算法来应对比赛。其中,他们在生物分子多构象预测、蛋白质核酸复合物预测、复合物整体折叠精度估计等算法上排名第一。值得关注的是,CASP16开赛一周后,AlphaFold 3服务器上线,当即有参赛团队开始尝试用其代替自己的算法,而郑伟团队是当时预测排名榜上唯一没有使用AlphaFold 3的队伍。
“这也是我回国之前最后一次参加CASP。”郑伟说。从张阳教授离开密西根大学,郑伟就在考虑回国了,“但是找教职需要时间,我也有未完成的工作”。他与妻子都是从南开大学走出的学子,有着浓郁的母校情结,尤其当远在国内的导师也询问他要不要考虑回来时,南开大学就成了他们的首选。就这样,在经过深度沟通与准备后,2024年年底,他重新站在了南开大学的校园里。
共建理想团队
郑伟所在的南开大学统计与数据科学学院(以下简称“学院”),正式设立于2018年,以“学科立院、人才强院、交叉互融”为办学理念。近年来,学院依托传染病溯源预警与智能决策全国重点实验室、天津市医药数据分析与统计研究重点实验室,成立了生物医学平台,致力于将统计和人工智能方法深入应用到生物医学数据分析中。整个平台包括生物统计学、生物信息学、计算机视觉与影像分析等5个研究团队,郑伟就是生物信息学团队中的重要一员。他很欣喜地发现,可以在这一平台上与不同领域的研究者开展深度合作,并向生命科学、临床医学、药物研发、公共卫生等领域进行应用探索。
刚入职不到一周,郑伟就收到了参加药物化学生物学全国重点实验室郭宇老师主持的学术沙龙的邀请。学术沙龙涵盖了来自统计与数据科学学院、生命科学学院、医学院、药学院、化学学院的学者,可以通过讲座、研讨等形式交流。“我们互相探讨在科研中遇到的问题,期望能碰撞出热烈的火花。”郑伟很喜欢这种学科互融的氛围,并在其中找到了不少志同道合的合作者,他认为这样的开端,对于他开展后续工作大有裨益。
“当我以青年教师视角来看母校时,感觉与学生时代有点不太一样。但没过多久,适应了节奏之后,熟悉的感觉又回来了。”郑伟很喜欢这种亲切感。出国这些年,他与南开大学之间的连接并未中断。在他带队迎战CASP16期间,南开大学也是他重要的合作团队之一,而他的硕士导师、数据科学系系主任胡刚也推荐了一些学生到他的团队中学习交流。“但这种指导与系统培养学生并不相同,回来之后,一切都要从头开始。”
作为一位新晋博导,郑伟入职时已经错过了第一批博士生招生。到第二批招生启动时,他的申请报告递交后,第一时间就得到了研究生院及前沿交叉学科研究院的批复。对于获得的支持,郑伟很是感激。如此一来,加上在他名下联合培养的硕士和博士生,他也初步形成了一个将近10人的团队。
“做科研有时候可能有点辛苦,有点枯燥,心态不好特别容易钻牛角尖。真正热爱科研,由衷地会因做科研而开心,才是长久的动力。”郑伟希望能够打造一个朝气蓬勃的团队,期望团队成员能够乐观积极、不受桎梏地去自由探索。“学术态度要严谨,但学术风气尽量自由。”
暑假之前,除了定期去给本科生上课,郑伟每周都要组织大组讨论会,针对蛋白质结构预测相关进度展开。此外,他还要处理合作对接事宜,并对学生进行一对一指导。假期里,他反而有了更多时间去参加学术会议,也会根据情况带学生前往交流。
郑伟更强调“一起”,对这位年轻导师来说,他更习惯将自己定位为朋友和师兄,给予学生方向上的指引和建议,帮他们明确责任和意义,找到自己的目标,也和他们一起去看“外面的世界”。在他的理想中,这个团队具有团结、务实、自由、协作的精神内核。随着科研计划逐步铺开,郑伟也欢迎更多对生物信息学感兴趣的成员加入,他们将共建这个理想的团队。
走向应用落地
2025年5月,郑伟以第一作者在《自然·生物技术》发表了重要研究成果。该研究开发了一种融合深度学习空间约束与统计能量函数的蛋白质结构预测算法——D-I-TASSER,实现了超越AlphaFold算法的高精度蛋白质结构预测。
“AlphaFold存在两个主要的短板。”郑伟认为,一是对孤儿蛋白(同源序列较少的蛋白质)的预测效果仍不理想;二是难以处理由多个结构域组成的复杂蛋白质。D-I-TASSER正是为应对这两个难题而设计的。早在CASP15期间,它就展现出在复杂蛋白结构预测中的领先优势。在困难单结构域蛋白预测问题中,D-I-TASSER在84%的案例中生成了比AlphaFold2质量更高的结构模型;在多结构域蛋白结构预测问题中,D-I-TASSER的全链预测精度较AlphaFold2提升了近12.9%。不仅如此,当D-I-TASSER对人类基因组的蛋白质进行结构和功能预测(基因本体标签、酶分类和小分子结合位点)后,结果显示,它能够成功预测80.5%的单结构域和72.8%的全链蛋白质结构,并准确预测了其中3020个令AlphaFold2难以预测的蛋白质,彰显了其在弥补结构预测盲区的价值。
没有最好,只有更好。回国后,郑伟依旧要围绕蛋白质结构预测算法进行拓展研究。“蛋白质结构预测问题其实还没有完全解决,很多工作都要继续开展,比如多结构域蛋白质结构预测、蛋白质复合物结构预测,甚至更为复杂的生物分子动态变化预测等,大多都处于起步阶段。我希望能与相关学者共同努力,将国内蛋白质结构预测研究做大做强。”
郑伟另一项想要大力推进的工作则是落地应用。这些年来,他所研发的系列算法已累计服务超过100个国家的近10万名用户。但他更想看到实实在在的技术转化。以D-I-TASSER算法为例,它不仅能助力理解蛋白质折叠与功能,也在抗体筛选与优化、罕见病致病基因识别、病毒感染性预测、辅助冷冻电镜结构解析等任务中取得了初步进展。“我们做这么多算法,最终是希望它们能服务于生命科学研究,并帮助企业去解决药物研发过程中所遇到的问题。”
2025年年初,在国家自然科学基金数学天元基金项目交叉重点专项的支持下,郑伟启动了“结合高维统计与人工智能的抗体类药物筛选、优化及脱靶研究”,针对可感染人的病原体,使用蛋白质结构预测计算手段,加速中和抗体类药物的研发进度。与此同时,在南开大学“百名青年学科带头人培养计划”、传染病溯源预警与智能决策全国重点实验室的资助下,他所主持的“蛋白质结构与功能的预测与应用研究”和“基于新型人工智能及蛋白质复合物结构预测的X病毒早期发现预警”也在有条不紊地展开。
“这些项目之间存在一定的联系。蛋白质结构预测可以贯穿在传染病防控及相关药物研发的整个大流程中,我们想做的是利用蛋白质结构预测工具去探索新型疾病,一旦有传染可能,就要及早布控、主动防御,避免新疫情初期引发的被动局面。”对郑伟而言,目前最大的痛点就是开展蛋白质结构预测面临的海量算力缺口,他正在努力开展各方尝试,希望能处理好这个棘手的问题,真正打开局面。而在这之余,他还要为明年可能举行的CASP17做好筹备。
工作很忙,但一想到刚回国就能开展这样的课题研究,郑伟就很激动。“算法开发时一般是用模拟数据来测试,真正到生物医药实践中面临的问题会更复杂,这些工作能让我有机会去与相关研究机构和药企产生碰撞,从而探索如何在医药研发领域落实这些算法。这很重要。”在他眼中,那些大大小小的蛋白质结构中,折叠出的是通往健康中国的未来。
专家简介
郑伟,南开大学统计与数据科学学院教授,传染病溯源预警与智能决策全国重点实验室成员。入选国家级青年人才项目。担任蛋白质预测结构文件存储格式(ModelCIF)国际标准制定委员会委员、《分子》杂志特约编辑,《自然·通讯》《自然·机器智能》《自然·计算科学》等期刊审稿人。长期从事于基于深度学习及统计能量函数的生物分子及其互作的结构预测研究,开发的算法多次在国际蛋白质结构预测竞赛(CASP)名列前茅,已服务于100多个国家的近10万名用户。在《自然·生物技术》《自然·方法》《自然·通讯》《美国科学院院刊》等高水平科学引文索引(SCI)期刊发表文章50余篇,累计引用3800余次。主持国家自然科学基金-数学天元基金项目交叉重点专项等项目,入选南开大学“百名青年学科带头人培养计划”。

