欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
机器学习从自动到自主化

    发布时间:2022-12-27

——记清华大学电子工程系助理教授姚权铭

刘玉杰

 

作为一门多领域交叉学科,机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等,是研究怎样使用计算机模拟或实现人类学习活动的科学,被公认为人工智能的核心。早在1950年,计算机科学之父艾伦·麦席森·图灵(Alan Mathison Turing)就曾提议建立一个学习机器,但是直到2000年年初,机器学习才有了突破性的进展。20世纪80年代以来,机器学习作为实现人工智能的关键途径引起了广泛关注,尤其是近十几年来,机器学习领域的研究工作发展进入快车道。随着以深度学习为代表借鉴人脑的多分层结构、神经元的连接交互信息的逐层分析处理机制,以及自适应、自学习的强大并行信息处理能力取得多方面的突破性进展,机器学习不仅在基于知识的系统中得到应用,而且在自然语言理解、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。

在今天,大数据时代的到来为机器学习的发展带来了新的挑战。大数据时代的机器学习更多地被视为一种服务技术,如何基于机器学习对复杂多样的数据进行深层次的分析,更高效地利用信息成为当前大数据环境下机器学习研究的主要方向。但随着数据产生速度的持续加快,数据的体量有了前所未有的增长,同时,需要分析的新的数据种类也在不断增加。这就导致了如今机器学习在应用层上面临三大困境:复用(使用)门槛高、数据门槛高、认知门槛高。几十年来,研究发展机器学习的方法种类很多,清华大学电子工程系助理教授姚权铭认为:“机器学习这一基础学科最大的作用,就是帮助人们从数学角度搞清楚人工智能为什么能工作。因此,要解决当下机器学习技术面临的三大困境,可以从一种抽象的数学双层优化模型入手。”这将是他在未来几年中的工作重心之一。

 

求学与积淀

——如何做好的研究

 

2009年是姚权铭人生中意义非凡的一年。这一年,他以优异的成绩考入华中科技大学电子工程系,迈出了通往科研殿堂的第一步。

在华中科技大学计算机科学与技术学院“只争朝夕,不负时代”“协作、创新、修德、开拓”的学科特色文化影响下,姚权铭逐渐具备了“服务国家,敢于竞争,团结协作,勇于创新”的精神品格。他所在的基于导师制的人才孵化站(Dian团队)更是以培养队员高尚的道德情操、优秀的工作作风和扎实的专业技能为目标,将导师制、科研团队及工程实践相结合,通过“在干中学”的方式,以科研课题为牵引,选拔优秀学生直接参与科研活动。得益于这样优秀的人才培养模式,姚权铭早早地就奠定了自己工作和探索的风格,并获得校园年度“发明创造之星”称号和香港科技大学直博资格。

“物有甘苦,尝之者识;道有夷险,履之者知。”在旁人看来枯燥的博士生科研历程里,姚权铭以攻坚克难为乐,学以致用、以用促学,让理想之火熊熊燃烧,收获了累累硕果:2015年获谢卓毅研究卓越奖,2016年获谷歌全球博士奖学金(2016年全球13位获奖人中,泛亚地区唯一获奖者),2019年获香港科技大学工程学院博士研究卓越奖,成果“抗噪标签算法合作教学(Co-teaching)”为当年十大高引论文之一……“这背后离不开学校、导师、团队的悉心支持与培养。”他说,“在我科研生涯的第一个阶段——求学阶段中,如果要问‘我得到的最宝贵的财富是什么?’那就是我明白了‘什么是好的研究’‘应当如何做好的研究’。”由此,姚权铭迈出了通向科研生涯第二个阶段的坚定步伐。

 

社会与实践

——明确意义和需求

 

于香港科技大学计算机系取得博士学位之后,姚权铭前往第四范式创业公司担任高级科学家,创建和领导第四范式创业公司的机器学习组,成为国内最早一批从事自动化机器学习的研究团队。

彼时,之所以选择第四范式创业公司,是因为姚权铭想要明确一个问题:“科研的社会意义是什么?我所学习的知识,我所从事的研究,到底能为社会发挥怎样的积极作用?”在他科研生涯的第二个阶段中,找寻这一答案既是行为动力,亦是主要目标。实践报国的精神在他身上传承,经世济民的梦想在他身上延续。他知道,只有面向社会、面向市场,才能真正了解社会对技术的需求是怎样的。

在面向需求,追求效益的同时,姚权铭也从未放下心中崇高的理想信念:“比起短期内高回报的‘流水线’工程,我更愿意做需要长期投资的,具有深远影响的工作。”这一点在他的人才培养理念上表现得尤为明显。面对每一位想要加入团队的年轻学者,无论对方多么优秀,姚权铭做的第一件事情都是“劝退”,他解释说:“团队优秀与否并不取决于规模大小,我想寻找的是愿意长期在这一领域专心做研究,能够沉下心服务社会和国家的合作伙伴。如果在‘劝退’的前提下,对方仍坚持加入,我虽然不能断定对方一定有这样的觉悟和坚持,但起码他是有准备的。”姚权铭相信,只要心中有共同的信念和目标,无论面临怎样的困难,团队最终都能克服并一起走向成功。

虽然嘴上从来不对团队成员说起,但姚权铭打心眼儿里看好团队中的年轻学者。“他们都是一帮很优秀的学生,我希望他们能够考虑得更长远,让研究更深入一点,让职业发展前景更广阔一点。只有独立认真思考,努力拼搏拿到的成果,自己过5年之后才愿意看,如果太急功近利,把团队的部分积淀变成自己的文章,虽然短期内看起来收益很高,但其实是害了自己。”因此,他对学生的要求一向很高,就连他自己也不得不承认:“做我的学生很辛苦。”

带领公司的机器学习组在市场中摸爬滚打3年,积累了丰富的成果产业化经验之后,对于当初的“科研意义之问”,姚权铭已然有了深刻体悟:“即便是从事基础研究,我们也必须立足需求,在基础之上,解决领域内的务实问题。归根结底,自动化机器学习的意义就是要降低社会解决某一问题的成本。”

2020年,国际财经商业杂志《福布斯》公布了“2020年中国30岁以下精英榜(30 Under 30)”。由于一直以来带领机器学习研究团队为行业发展作出的突出贡献,姚权铭荣登科学与医疗健康领域的精英榜。然而,正当其所带领的“第四范式机器学习组”逐渐成长并预备走上正轨时,姚权铭却意识到,从企业发展的角度来看,支撑科研团队不计成本地从事影响更加深远的研究并不现实,细水长流的科研和优质人才的养成需要更加稳定的平台,团队创新力、洞见力的维持与提升也需要有源源不断的优质人才加入。基于以上考虑,姚权铭认为,高校无疑是更加合适的发展平台。于是20216月,他正式辞去企业职务,来到清华大学,开启了科研新征程。

 

研学和育人

——开拓机器学习新范式

 

从工业界回到学术界,成为清华大学电子工程系助理教授后,姚权铭关心更长远的问题:“一个人走很快,一群人走更远。怎么能够凝一群优质人才,让大家愿意承受失败的风险去做一些更有创造力的事情?这是非常重要的。”为国家的长远未来储备优质人才、积累更具影响力的科研技术,就是其当下科研生涯第三个阶段中的奋斗目标。

在人才培养方面,姚权铭充分发挥自己的“桥梁”作用,积极推动产业界和学术界的广泛合作与交流。在他的极力促成下,清华大学与第四范式创业公司及香港科技大学的一些研究团队之间已经形成了研究上互补、人才培养上互助的良好合作模式。同时,姚权铭在清华大学新组建的课题组也已初步成长起来,并且和百度、斯坦福、加州大学洛杉矶分校等企业、高校建立起了长期合作关系。得益于这种良好的产学研合作环境和各方的协同合作,近两年来,姚权铭团队已发表论文超过30篇,积累了小样本学习工具包等产品的商业化成功经验,获得了学术界与产业界的高度评价。

在科研创新方面,姚权铭带领团队延续此前自动化机器学习方向,展开了更深一层的探索。具体而言,在大数据时代到来的今天,机器学习更多地被视为一种服务技术,这也为机器学习学科的发展带来了新的机遇与挑战。如何基于机器学习技术对复杂多样的数据进行深层次的分析,更高效地利用信息,成为当前大数据环境下机器学习研究的主要方向。与此同时,数据稠密型的机器学习方法,即“海量参数+巨大模型”,已经成为机器学习应用的主流范式。但是此类方法在3个方面的问题日渐显著:使用门槛高、数据门槛高、认知门槛高。这意味着在进行机器学习的自动化编程过程中,即便要做到对写字、画画这样的简单情景的识别与理解都伴随着巨大的成本支出。可要想逾越这些门槛,无疑是耗时又耗力的,它们的存在一方面将机器学习服务变成了垄断资源,使其成为大厂的专有权利;另一方面抬高了各行各业应用机器学习技术的成本,限制了相关技术在社会层面的智能升级。而姚权铭的主要研究内容就是用自动化机器学习的手段,通过知识与数据融合的双层优化方式来降低这些门槛,使更多个人和企业能用上相关技术,进而为全社会谋福利。

目前,姚权铭团队已经在知识图谱上实现自主表示学习方法。实验结果表明,这种新方法不仅在知识图谱学习代表性任务链接预测上的表现超过手工设计模型的效果,并且还在大型生物知识图谱谷歌百科和维基百科图谱上表现优异,曾力克蚂蚁金服、斯坦福等研究团队,刷新大规模知识图谱榜单(OGB)纪录,助力第四范式创业公司在2020年完成7亿美金D轮融资。

未来几年,姚权铭会带领团队继续深入自动机器学习方向的工作,聚焦知识与数据融合的技术手段,探索如何高效地求解双层优化问题,推动机器学习从自动化到自主化发展,将其拓展至人工智能的科学场景中,探索前沿科学问题,进一步助力各行各业智能升级。

(责编:袁园)


分享到:
资讯