来源: 发布时间:2024-10-09
——记香港大学计算机科学系副教授罗平
李 莉 户 万
2011年,在中山大学即将硕士毕业的罗平寄出了一份厚厚的邮件,这份邮件要寄给彼时正在香港中文大学任教的汤晓鸥教授。汤晓鸥是全球人脸识别技术的“开拓者”和“探路者”,为补香港中文大学信息工程系在图像处理上的短板,他于2001年创立了“多媒体实验室”(又称MMLAB),主要研究系统性能与人脸识别。在研读学术论文时,MMLAB的研究吸引到罗平,促使他萌生了加入实验室继续深造的想法,于是认真准备了一份简历。塑料皮精美封装、彩色打印,这份用心设计的简历成功引起汤晓鸥的注意。“汤老师曾回忆,他之前和后来从未遇到过设计如此独特的简历。”罗平笑着说。
正是这份简历,牵起了罗平与汤晓鸥、王晓刚(商汤研究院院长、香港中文大学电子工程系教授)的师生缘。师从两位计算机视觉领域的顶级专家读博士,罗平获得了在学术上的迅速成长,并成为亚洲最早将深度学习应用于计算机视觉的研究者之一。
梳理罗平的科研足迹,从红楼叠影的中山大学、万木葱笼的莲花山计算机视觉研究院、兼容并蓄的香港中文大学、坚持原创的商汤科技到亚洲“常春藤”香港大学,伴随时空的变化,他的研究也经历了从软件工程、计算机视觉、深度学习向更广泛的人工智能方向转变。歪打正着,罗平在科研上的步伐都不偏不倚踩在了计算机学科发展的点上。在庆幸这份幸运的同时,罗平也承认面临的压力。计算机视觉在过去5年的发展,对于罗平这些身处领域中的研究者来说,是带有“洗劫”性质的破坏性创新。如何打破壁垒,在瞬息万变的破坏性创新中建立更合理的机制,让罗平的思维一直保持在最活跃的状态。
莲花山“朝圣”
“罗平博士开发了具创新性的人工智能技术,以教授机器人理解丰富的人类语言与行为,如人脸姿态与语言、人脸属性与情感、肢体动作、服饰和社会关系等。相信人类智能在任何人工智能系统中都扮演着重要角色,通过构建人类智能和人工智能的协作桥梁,能够极大提升AI技术的性能。”这是2020年入选“35岁以下科技创新35人”亚太地区榜单时,《麻省理工技术评论》给罗平的颁奖词。
其实在此前,罗平已赢得诸多奖项,2014年国际图像识别挑战赛(ImageNet ILSVRC)亚军、2017年DAVIS视频分割挑战赛冠军、2017年八百万Youtube视频识别挑战赛金牌及2018年自动驾驶可驾驶车道区域分析冠军等。为表彰他们最早把深度学习应用于人脸识别的原创性工作,罗平和汤晓鸥还在2013年被授予微软学者奖。奖项对于罗平,不仅是领域内对他工作的认可,也记载了他的科研轨迹。
成为医生,是高中时罗平对职业的向往。报考大学时,他的第一志愿是中山大学的8年制医学专业,但未能如愿,最后被第一年招生的软件工程专业录取。所以进入计算机这一正在快速发展的领域,在罗平是机缘巧合。
学习过程中,罗平发现自己对计算机科学有极大兴趣。专业开设课程丰富,让罗平迅速积累了不少知识。因在课后加入了朝红阳老师组织的科研小组,罗平在大三时就有机会参与到一个“863”课题的攻关中。完整参与一个大项目,对于一个本科生来说是一个很高的起点,罗平幸运地踩到了这个点上。
项目由莲花山计算机视觉研究院、北京电影学院动画学院、中山大学三方共同申请,目标是研发中国第一个具有自主知识产权的动漫制作系统与数据库。由全球著名计算机视觉专家朱松纯教授带领的莲花山计算机视觉研究院负责算法与理论研究,北京电影学院动画学院提供动画素材与专业的动画制作流程,中山大学负责软件工程实践。
大三被派至莲花山,直到从中山大学硕士毕业,罗平一直都在那里开展研究。莲花山环境优美,令人心旷神怡。在风景如画之处能跟随领域内的大专家学习,接触当时最顶级的计算机视觉研究,对罗平来说是一种超值的收获。
朱松纯是湖北鄂州人,2005年,他在故乡创办莲花山计算机视觉研究院,筹建了世界上最早的大数据标注团队之一,发布了以精细化程度高、语义信息丰富著称的大规模数据库LHI Dataset。“用概率模型做边缘提取,进行人脸识别研究,是当时计算机视觉的主流,朱老师又是代表人物,因此莲花山成了‘圣地’,吸引了大批人来此‘朝圣’。”罗平说。
被誉为“AI教母”的李飞飞,创建了数据库ImageNet。业内评价:“没有ImageNet,就没有现在的深度学习革命。”而ImageNet概念的起源,与2005年李飞飞到莲花山的一次参会有或多或少的关联。
2003年,朱松纯因在做图像解译方面的突破拿到了计算机视觉的最高荣誉马尔奖,随后他牵头举办了首届“莲花山计算机视觉与模式识别国际研讨会”,此时李飞飞刚从美国加州理工学院博士毕业,受邀参加了会议。
会后,李飞飞认识到基于统计的算法极度依赖数据集的规模和代表性,大多数研究者都只是在尽可能地寻找更好的算法,但他们训练模型所基于的数据却并不能反映真实的世界,这样即使再好的算法也不会训练出有用的结果。因此她决定构建一个足够大的能够反映真实世界的开放数据集。
2007年年初,李飞飞回到美国普林斯顿大学任教,同时启动了ImageNet项目。通过众包平台,李飞飞有效避开了此前朱松纯在构建LHI
Dataset时遇到的资金和时间上的瓶颈问题。到2009年,ImageNet已经完成了320万张图片的标注,而后来ImageNet大规模视觉识别挑战赛(ILSVRC)的成功举办,更是大家有目共睹的。
“莲花山上最前沿的计算机视觉研究启发了很多曾在那里待过的人,也包括我。”罗平说。本科时,他已在图像处理的顶级会议发表论文,2009年硕士第一年他就在计算机视觉三大会之一的欧洲计算机视觉国际会议(ECCV)上发表文章。
“那个年代没有深度学习,通过设计图像的语法,像名词、动词、形容词那样去描述图像,每一个计算部件在模型里负责什么,解释得非常清楚、完美。”用统计建模的方式去做计算机视觉,开拓了罗平的视野,也为他后来的研究奠定了扎实基础。“能在莲花山接触到当时世界最好的计算机视觉科研,我觉得是一件很神奇的事情。”罗平说。
探路新方向
在莲花山研发动漫制作系统时,罗平注意到了一些新的系统功能需求,例如把各种场景重新分割,不同因素再组合,制作新的动画。这需要做视频结构化研究,包括视频解析、视频分割、物体跟踪等。另外如何把二维图片做成三维模型,也是一大功能需求。
在研读论文时,罗平了解到香港中文大学的汤晓鸥在做这样的工作,在平面上画线,能直接生成三维图形。被这项工作深深吸引的罗平,认真准备了那份自荐信。收到信后,汤晓鸥没有犹豫,将罗平收入麾下。师从汤晓鸥和王晓刚两位计算机视觉领域的领军人物,罗平在香港中文大学度过了3年的博士求学时光。
两位恩师给罗平带来的影响很大,包括从论文选题、实验到写作风格,刚开始都需要通过学习和模仿他们来得到提高。通过持续学习,罗平逐渐发展出自己的风格。
罗平之前的研究注重计算机视觉的建模跟理论,不太关注性能指标的评估。到香港后,他发现原来计算机视觉可以有非常严谨的,甚至严谨到有些夸张的大量性能评测。“他们非常注重算法实际落地的效果,会想方设法地证伪,去跟别人‘PK’,来确定究竟哪些方向真正值得提高,这是我之前从未接触过的。”罗平说。
在香港求学更将罗平领入了一个全新的方向。2009年,微软第一次将深度学习应用于大规模语音识别,只用了很短的时间就完成了微软一个庞大团队花几个月做的事,在业内引起了轰动。敏锐的汤晓鸥很快嗅到这个新方向的潜力:他心想,语音的信号与视觉差不多,既然深度学习能在语音上取得惊人的效果,那深度学习也可能在视觉上取得惊人的效果。于是他当即和王晓刚商量。
王晓刚在读博时研究计算机视觉的方法主要是概率图模型,但也听过深度学习,也很感兴趣,坚定要研究深度学习。对于这个当时很少人关注的方向,汤晓鸥和王晓刚选择了两位学生来探索,其他人继续做原来的工作。这两位被选中的学生之一便是罗平。“汤老师后来跟我聊,因为他觉得我在入学前已经有顶会的文章,不用那么着急发文章,可以慢一点尝试一些新探索。”罗平说。
汤晓鸥团队算得上是亚洲计算机视觉领域最早进行深度学习研究的团队。2011年开始做深度学习时,条件还很差。早期深度学习框架还没出现,全球能跑通深度学习的团队屈指可数,他们从零开始,是摸着石头过河。最开始,他们是用C++写代码在笔记本电脑来跑数据。罗平回忆,他发表在国际计算机视觉与模式识别会议(CVPR)上的第一篇深度学习文章是在个人笔记本电脑上完成的。因为当时他们根本没有拿CPU跑数据的意识,结果一个研究做了几个月,都没有获得好的实验结果。
汤晓鸥在深圳先进院有任职,与内地学者深入合作,可以申请一些内地的项目,拿到经费后才买了很多CPU。而那时王晓刚也还是一个处于长聘制考核中的助理教授,其实很有压力。但他一直坚持和大家一起失败了又继续,从来没有放弃。
当时卷积神经网络用于深度学习研究的工具属性已初见端倪,但一开始,罗平并没有尝试使用卷积神经网络,因为大家开始注意到它,其实是在2012年的ImageNet比赛上它取得很大成功后。“我们最早使用的还是玻尔兹曼机这样的模型,其实还是统计学习建模那套东西,我在莲花山学的就是统计建模,这套东西对我来说非常熟。后来卷积神经网络提供了强大的工具,把它与统计建模结合,有基础加上工具,这可能也是我后来进展比较快的原因。”
随后,罗平在计算机视觉和深度学习上做出了一系列开创性成果,2012年他率先将深度学习用于人脸分割、人脸生成等领域。与此同时,他做的人脸关键点工作还是多任务深度学习的代表性工作。
罗平和团队伙伴的探索,掀起了深度学习应用于计算机视觉研究的热潮。2011年计算机视觉领域顶会CVPR与深度学习相关的文章只有4篇,如今CVPR一年接收2000多篇文章,全部都与深度学习相关。而对于罗平他们来说,先行一点点,就与别人拉开了很大距离。据统计,2011年到2013年,罗平所在的MMLAB在国际计算机视觉大会(ICCV)和CVPR上一共发表了14篇基于深度学习的研究论文,占了两大顶会在全球范围内接收的深度学习论文总量(29篇)的一半。
当时,香港中文大学的学者在全球计算机视觉研究领域被封神。罗平记得去北京领微软学者奖时,已故旷视科技公司首席科学家孙剑曾对他说:“我从来没想过人脸识别可以这么做。”这对罗平是一个肯定的评价。
如此年轻,又在一个崭新的领域取得如此突出的成绩,有人曾问过罗平当时有没有膨胀。他笑着坦言,确实出现过小插曲,让他错过了一个更大的成果。获得微软学者奖,就等于不用面试,直接拿到微软重要科研小组的实习入场券,但罗平是为数极少的拿到奖却从来没去实习过的人。
“汤老师当时给我的规划其实是跟着何恺明(计算机视觉领域著名学者)去做一些事情,但我手上有很多课题,觉得都能出不错的论文,所以就完美错过了下一波热点——何恺明领衔的深度残差网络开发。”罗平说。
尽管如此,罗平所在的香港中文大学MMLAB还是吃到了深度学习应用于计算机视觉领域发展的红利。到了2014年,MMLAB在深度学习视觉上的研究已经突破了学术与科研的边界,开始体现出落地与产业化的态势:2014年3月的高斯人脸识别(GaussianFace)算法在LFW数据库上准确率达到98.52%,首次超过人眼识别率;6月的DeepID系列算法将准确率提升至99.55%,突破落地门槛。
资本的嗅觉很敏锐,MMLAB获得了高达数千万美元的天使轮投资。中国视觉人工智能市场从此拉开帷幕。2014年10月,商汤科技成立。
在“破坏”中突围
2014年年底,从香港中文大学毕业后,罗平加入商汤科技,偏向于市场和企业需求,他为淘宝、阿里巴巴做了服装品类分析、识别,线上换装等相关的计算机视觉落地应用研发和技术储备工作,虽然工作开展顺利,但他一直有回到学术界的想法。
罗平感恩路上遇到的恩师、前辈,汤晓鸥、王晓刚及香港大学的王文平教授都是助力他成长的贵人。前两位恩师将他带入一个全新的领域,后一位前辈则将他带回了学术界。
与王文平的两次交集,罗平记忆深刻。一次是2011年申请读博士时,王教授曾去中山大学面试,面试完后与罗平握了手,说“希望你能来”。另一次是2019年找教职,王教授告诉他香港大学有好机会,入职第一天,他又跟罗平握了手。王文平温文儒雅、德行高尚,尤其他的两次握手为罗平留下了深刻印象。“因为一个德高望重的人会主动过来跟你握手,对年轻人是非常大的触动。”罗平说。
回到学术界的罗平,也回到了血雨腥风的“主战场”,回顾过去5年,他坦言自己一直在寻求突破,尝试在破坏中建立新的机制。“学术界变化非常快,深度学习的定义、计算机视觉的一些根本假设,它们的变化都是破坏性的发展,特别是2022年OpenAI发布了ChatGPT,计算机视觉领域在过去5年被‘洗劫’了很多次。”罗平说。
每次面对破坏性的变化,罗平都不会回避,而是直接迎上去。从卷积神经网络、基础模型到生成式模型,在破坏性创新带来的挑战中,罗平带领团队不断突围,力图去建立更合理的机制。
2023年8月,上海举办了第一届生成式人工智能(AIGC)国际会议,罗平参会并担任会议程序委员会联合主席。“在ChatGPT、AIGC快速发展的背景下,首届、也是世界范围内第一个专门针对人工智能生成内容的国际会议在上海举办,也证明了我们直面破坏性变化的勇气和胸怀。”罗平坦言。
香港的科研支持主要来自于企业的捐赠,在此支持模式下,罗平追踪着计算机视觉最前沿的技术发展。同时,他也承担着科技部2030下一代人工智能重点研发计划课题。他透露了目前课题进展情况:“各项指标超前,甚至还在不停迭代。”
罗平回忆,在MMLAB求学时,开会时每个学生都要上台用一句话总结自己想要做的工作,而汤晓鸥的要求是,这句话必须总结到位,只要别人听这一句话,就能立刻判断出这个课题是否有研究的价值。
汤晓鸥选题就两个标准:一个是开辟一个新方向,另一个是结束一个方向。2019年回到香港大学后,罗平指导学生和开展研究的要求也是如此。
“我指导学生的风格完全受汤老师的影响,他是那种不会说‘不’的人,你有任何想法、意愿跟要求,他都尽量想办法无条件地满足。他学生很多,博士生加上一些访问学者,整个师门算下来有四五百人,我相信大家都觉得他是世界上最好的人。”罗平说。
罗平想成为汤晓鸥那样的人,他也在用行动去成为那样的人,给学生创造机会,鼓励他们做独一无二的创新,尊重他们的想法,并适当引导。在学生眼中他是一个很棒的人。采访中,罗平的学生胡宇韬和纪源丰提到老师时都非常敬重和佩服他。
汤晓鸥将香港中文大学建成了中国计算机视觉的“黄埔军校”,在他选择一条冷清的道路时,有一批校友与他同行,随后又遇到罗平等同路人继承出新,他们走在了时代的前面,也得到了时代的馈赠。2023年汤晓鸥的故去,让罗平对未来要走的路做了认真思忖。