来源: 发布时间:2024-10-09
——记东南大学计算机科学与工程学院副教授胡宇韬
李 莉 户 万
对科学的热爱、对世界的好奇,驱动胡宇韬去寻找答案、探索未知、发现新事物。从北京航空航天大学、香港大学到东南大学,在时空变换中突破知识的藩篱,在不同科研体验中发现兴趣,他的科研方向也逐渐明晰。
早在本科求学时,胡宇韬就在尝试做科研,虽学的是偏通信的电子信息工程专业,但出于兴趣爱好他学了编程知识,这为他后来从事人工智能研究打下了基础。而参加科技竞赛,让他对如何做科研有了一些认识。
兴趣使然,博士阶段胡宇韬转向了人工智能研究。这一时期的求学,让他得到了全方位锻炼,论文投稿、带领师弟师妹完成项目、出差实地验证科研成果,虽忙碌但充实。
通过参与大项目,胡宇韬的科研能力获得迅速提升。在国家重点研发项目“天临空地车轨道交通安全监视”中,他完成了系统中多个视觉算法的模块化实现并完善了各个功能模块间的信息传递、整合与分析,实现对铁轨异常状况的识别与预警。
胡宇韬坦言,在博士求学后期,在课题选择上他已有了更多自己的判断,“基于动态自蒸馏机制优化的细粒度分类网络”就是个人能动性得到充分发挥的一个课题。“课题涉及的问题,我在刚读博士时就发现了,但那时我的研究还不够深入,就把它先放了放。后来,我看到一篇论文,它解决问题的思路,我觉得可以拿来用,就去做了实验,发现效果很好。基于这个模型我后面还参加了图像分类比赛,并获得了好名次。我们是以轻量化的参数和结构,在有限的资源情况下获得了很好的表现。”
在北京航空航天大学求学9年,博士毕业后,胡宇韬想到不同的环境中去体验一下。香港大学罗平教授在计算机视觉领域的实力很强,胡宇韬慕名联系到他,并顺利跟随他做博士后研究。
在科研中,罗平非常尊重胡宇韬的想法,同时又会及时纠正他的偏差。多模态学习是计算机视觉领域的研究热点,刚到香港,胡宇韬做的是用文本知识辅助图片完成一些视觉任务。“一开始我很关注精度的提升,罗老师提醒我,做科研更应该关注如何解决领域内的问题,如果只是提升了一点点精度,意义不大,很难做出有影响力的工作。”胡宇韬说。
在罗平的带领下,胡宇韬的科研进展很快。而这些前期研究,也为他之后开展多模态大模型在医学领域的能力评测研究奠定了基础。“计算机视觉领域涌现出多种不同的多模态大模型,为了准确评估它们的能力,研究人员从不同角度对模型进行了评测,但这些评测工作大多只关注模型在通用视觉任务中的效果,它们在医学领域的潜力尚未被充分探索。”胡宇韬介绍。
准确评估多模态大模型在医学领域的能力,构建一个大规模、全面的医学评测数据集十分重要。为此,胡宇韬他们建立了OmniMedVQA数据集,并对现有主流多模态大模型进行了全面评测。评测结果显示,现有主流多模态大模型面对很多医学问题仍然无法得到很好的结果。同时,医学大模型的效果并没有明显优于通用大模型。“因此,我们认为可以尝试从某一器官的部分模态入手,建立一个针对某个科室或某几种疾病的专门化医学大模型。我们希望OmniMedVQA数据集可以为未来医学多模态大模型的发展提供评测基准。”
胡宇韬介绍,除医疗领域,在罗平带领下他们也做了其他方面的多模态大模型评测。“多模态大模型是更灵活的模型,未来在应用中,它需要有一些基准,通用的、行业的基准,这些都需要我们深入去研究。”胡宇韬说。