欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
梁会营:唤醒数据 点数成金

来源:  发布时间:2022-06-27

卫婷婷

 

 

医学数据自古有之,它是对疾病状态的精确刻画,也是对诊疗足迹的普遍记录。随着医疗卫生信息化建设进程的不断加快和生物检测技术的革新发展,医学数据的类型和规模正以前所未有的速度增长。毋庸置疑,作为资源和资产的庞大医学数据,“大容量”只是表象,“大价值”才是根本,对这些数据的有效利用关系到国家乃至全球的疾病防控、新药品研发和顽疾攻克的能力。

如何在合理的时间内实现海量医学数据的撷取、管理和整合,如何以数据创新探索未来的医学科学,如何在庞大的数据资源中快速获取信息以提升人类医疗集体经验,是亟待探讨的现实问题。这也是广东省人民医院信息管理处和广东省医学科学院医学大数据研究中心负责人梁会营主任一直思考的问题,他带领团队致力于打通医学大数据基础研究、原始创新“最先一公里”和成果转化、信息化应用“最后一公里”。

 

扎根一线的医学

大数据交叉复合型人才队伍

 

当前,医学大数据、人工智能、远程医疗等核心技术的应用,改变了当代医学的价值观、思维模式、诊疗策略、技术特征。如何顺势而为、抢抓机遇?基于广东省医学科学院和广东省人民医院两大优秀平台,梁会营聚焦“医学+信息化建设”和“医学+大数据应用”双引擎,注重学科交叉,突出医工融合,形成了鲜明的团队组建特色,人才汇聚成绩斐然。在30余人的“医学+信息化建设”团队基础上,全新组建了一支覆盖了医学、数学、计算机、金融、生物医学工程、模式识别、统计学、生物信息学等13个不同专业,知识结构合理、功能齐全的“医学+大数据应用”高层次人才团队。

作为“双引擎”理念的践行者,梁会营带领众多年轻骨干奋斗在信息化建设和大数据应用的第一线,始终走在医学信息化建设和数据智能化应用的最前沿,提出了“借助这个‘培养皿’,培养具有打通大数据挖掘原始创新‘最先一公里’和信息化建设转化应用‘最后一公里’能力的复合型人才”。

在广东省人民医院,全新的信息化建设和大数据应用人才培养方案正在生成,梁会营直言,只有依托一线实战平台,培养符合行业需求的“原生新医科人才”,才能进一步弥合“研—建—用”的过度脱节,为我国智慧医疗的标准化建设走在国际前列作贡献。

 

紧贴需求的多模态

医学数据智能化应用技术体系

 

不同模态医学数据是从同一患者的不同角度和不同检查检验途径获取到的信息,这种不同模态之间的关联性和互补性使得同时使用多种模态信息可以更加全面地描述疾病的复杂特征。其中,文本模态、影像模态(包括信号和视频类型)、组学模态是最重要、最复杂、最具代表性的三大关键模态数据。

文本模态是医生从经验和知识出发,面向患者的个性化表现,生产的医学知识最丰富的数据类型;影像模态在医疗数据中占比超过75%,也是标准化程度最高、信息负载最高、离人工智能落地最近的数据模态;组学模态是指基于测序、质谱等先进的高通量组学方法获取的基因、蛋白、代谢等微观层面的生物学数据,是实现精准医学的基石。

多模态医学数据来源众多且形式异构,不同模态需要不同方法进行针对性处理,多模态医学数据分析主要分为单模态分析和多模态融合两个阶段。其中,单模态分析是多模态融合的基础,多模态融合是单模态分析的发展和延伸。因此,从具体模态切入,研究不同模态医学数据的分析方法,进而通过不同模态数据间的互补学习来更加准确地挖掘疾病的复杂特征,支撑后续的智能决策、预测,是多模态医学数据分析与传统医学数据分析的主要区别,也是多模态医学数据开采关注的技术难点。

在文本模态数据中,蕴含着丰富的层次结构关系,如呼吸系统疾病细分到哮喘分支过程中有丰富的类似家系式的层次结构。然而传统算法多将这些特征扁平化同等看待,没考虑其中蕴含的家系关系。如何捕获这些家系关系?通过利用这些家系关系是否可以加快模型的学习过程、提高模型的诊断性能?

针对这一现实需求,梁会营带领团队以疾病名称、药物名称、症状体征、检查部位等家系关系最丰富的临床文本类数据为基础,基于137万份电子病历数据,耗时3年构建了4棵家系关系树,通过关系树可以为提取到的特征赋予家系关系。为了验证家系关系对AI算法的助力效果,团队以儿童发热症候群疾病为研究方向,将家系关系作为先验知识融入AI算法,这是首次将家系关系作为先验知识融入AI算法的创新。成果发表在《自然·医学》(Nature Medicine),衍生发明专利2项,被评为2019年中国百篇最具影响国际学术论文,并成功入选2019年中国重大医学进展成果。

在影像模态数据中,拥有精标注结果的高质量医学影像数据非常少见,传统的算法模型多是基于单一类型影像,并未考虑不同类型影像间的迁移应用,因而无法解决标注数据量少导致的模型性能低下的问题。可否基于迁移桥接信息的捕获,实现跨影像类型的模型迁移?不同影像类型间迁移关系的应用是否可以达到降低训练样本量、提升模型性能的目的?

面向多源多模态医学影像学数据间的差异性和潜在关联性,梁会营带领团队创新性以迁移学习模式的深度卷积神经网络为主体架构,结合多重迁移和多桥接迁移的思想,形成全新的多重多桥接迁移学习模型,并引入了基于“遮挡测试”思想的黑盒行为检测机制,通过这一模型为多模态医学影像数据间互补特征的提取与融合提供了新思路。成果以封面故事发表在《细胞》(Cell)杂志,成功授权发明专利1项,基于此成果的儿童肺炎/肺损伤智能识别产品获得了良好的临床转化。

组学模态医学数据具有鲜明的小样本、高维度、价值稀疏的特点,导致标志物在数据层面很容易被淹没,需要算法来识别,但传统的算法多基于单组学数据差异性分析,效率低下。面对这种情况,梁会营带领团队思考的是多组学数据间互作关系的利用是否有助于标志物的精准筛选。

于是,团队将不同组学水平的数据整合形成多组学水平滤网,进一步融合机器学习的相关模型,实现了从单一组学数据孤立遴选标志物到多组学水平过滤标志物的转变;从而大大提高了标志物的筛选效率和精准性。采用这一设计,团队先后基于新冠肺炎患者队列的蛋白组学数据和代谢组学数据、儿童人群的表观组学数据,实现了预测早期轻症患者后期病情进展及准确拟合儿童生物学年龄的最具辨识力标志物子集的筛选,相关成果先后发表在《自然·医学》(Nature Medicine)、《欧洲呼吸杂志》(European Respiratory Journal)等期刊。

但山巅之上还有星空,为了更紧贴多模态医学大数据创新应用需求,梁会营带领团队正向着“多模态医学数据无损压缩调用”“跨系统数据智能互联理论与算法”“低质量多模态医学数据聚类”“医学人工智能产品偏倚检测及评价”等一个个多模态医学大数据“采集—应用—转化”的瓶颈难题发起冲锋。

 

释放大数据价值

畅享祖国的美好未来

 

5年,梁会营带领团队先后主持医学人工智能相关国家重点研发计划课题3项,国家自然科学基金重点项目2项,申请发明专利15项、实用新型专利2项、新产品软件著作权20余项。2021年,继广东省青年拔尖人才、广州市高层次人才、广州市医学重点人才等称号之后,梁会营实现了广东省人民医院“国家优青”零的突破,更彰显了他和团队的不懈努力和卓越追求。“这些成绩,不是我一个人的努力,而是在优秀平台的基础上,团队一群人的付出!”优秀的成绩来之不易,而梁会营关于未来医疗数据智能化的研究也不会停下。

回望过去,2015年,我国提出实施国家大数据战略。2017年,习近平总书记在中共中央政治局第二次集体学习时强调,要瞄准世界科技前沿,集中优势资源突破大数据核心技术,加快构建自主可控的大数据产业链、价值链和生态系统,以数据为纽带促进产学研深度融合,形成数据驱动型创新体系和发展模式,打造多层次、多类型的大数据人才队伍。2021年,“十四五”规划中提到:“时代的发展,要求我们加快数字化发展,建设数字中国。”梁会营及其团队基于广东省人民医院(广东省医学科学院)这一实战平台,发挥“唤醒数据,点‘数’成金”的作用,正是顺应国家政策的引导方向。他和团队坚定地相信属于祖国的数据驱动型智慧医疗浪潮将会以更加迅猛的速度向前发展,美好的未来已经在路上了……

(责编:苏寒山)


分享到:
杂志
本期封面

2022年7月

上一期 下一期