欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
张煦尧:打造更加鲁棒的智能系统

来源:  发布时间:2020-07-21

刘有婷

    
  当下哪些科技最火?毫无疑问,人工智能技术名列前茅。提起人工智能,人们总能想起它带来的便利,比如智慧医疗、无人驾驶、人脸识别等。尽管人工智能在市面上的应用如火如荼,但是中国科学院自动化研究所副研究员张煦尧表示,从研究的角度来看,这门技术仍有很多问题有待解决。
  其中,人工智能系统不够鲁棒是阻止这门技术进一步大规模应用的主要原因之一,而如何打造更加鲁棒的智能系统,就是张煦尧的主要研究内容。涉足人工智能领域多年,他在模式识别,机器学习,以及深度学习等方面做出了一系列有影响力的成果,已在相关顶级期刊和会议上发表论文70余篇。
  对张煦尧来说,人工智能领域就像一座初见光芒的宝藏,他致力于在其中发现更多的“财富”。
  
打破三个“假设”
  自1956年夏,麦卡锡、明斯基等科学家首次提出“人工智能”这一概念以来,相关的科学技术迅速发展起来,并越来越多地应用到人们的生活当中。尤其是以深度学习为代表的人工智能技术,取得了巨大的成就。然而,人工智能系统却并不完美,因为它既不够鲁棒,也不够可靠。
  人工智能经过60多年的发展,为什么还不足够鲁棒?这就要从人工智能领域发展基于的三个假设说起。
  第一个假设是封闭世界假设。张煦尧简单解释道:“世界是开放的,因为它有无数不同的事物。但是人工智能的世界是封闭的,你教给它一样东西,它就认为整个世界就只有这样东西。比如,阿尔法狗会下围棋,但是它不会做其他事情。”人的学习是一个“主动的”增量学习过程,但机器的学习却是“被动的”批量学习过程。正是由于封闭世界假设,导致机器在面对开放环境中的新类别数据以及噪音数据时往往会出现过于自信的明显错误。
  第二个假设是独立同分布假设,即人工智能训练的环境和测试的环境是独立同分布的。举例来说,语音识别的机器在训练时接收的是普通话,但是有人对着它说广东话,它就无法识别或识别率低下。这就是导致人工智能不够鲁棒的第二个因素。现实世界中的很多数据不是独立的,充分利用非独立数据的上下文关系如语言上下文和几何上下文,可以显著提升识别的准确率。此外,在非独立同分布情形下,通过自适应以及多模态和多任务学习,也可有效提升鲁棒性。
  第三个假设是大数据假设。张煦尧表示,人工智能之所以这么强大是因为其背后有大数据的支撑。如果想要实现某一个功能,一般的做法就是采集大量相关数据,然后对数据做精准的标注。但在实际应用中,这两者是相矛盾的。“如果想要利用大数据,就避免不了噪音数据的出现。”因为在海量的数据中,不可能保证每一个数据都是高质量的。为克服这一问题,人工智能系统需要具备数据的容错学习能力,以及小样本和弱监督学习能力。
  “只有打破这三个假设,才能实现更加鲁棒的人工智能应用。”为了克服这三个假设的局限性,学术界一直在探索新的模型和新的算法,涌现出大量研究成果和学术论文。近期,张煦尧有关“三个假设”的研究论文“Towards Robust Pattern Recognition: A Review”以综述的形式发表在国际期刊Proceedings of the IEEE上。
  
走进人工智能的“无人区”
  进入21世纪后,人们对于人工智能的关注大多聚焦在其应用上,但是张煦尧认为,人工智能的长远发展一定要突破基础研究中的问题。2008年,张煦尧从武汉大学毕业以后,进入中国科学院自动化研究所跟随模式识别国家重点实验室主任刘成林研究员攻读博士学位。刘成林研究员深厚的学术功底和严谨的学术态度对张煦尧产生了深远的影响,同时张煦尧本科时期学习的是计算数学专业,这为他之后的研究工作打下了坚实的基础。
  张煦尧的博士论文从大类别集和非独立同分布角度出发,对模式分类中的维数削减、分类器设计及分类器自适应等重要问题进行了深入研究。所取得的关键成果发表在人工智能顶级期刊和会议上,在国际上取得了较好影响,并被TPAMI选为该刊2013年7月的焦点论文。此外,中国计算机学会(CCF)奖励委员会还授予他2014年度“CCF优秀博士学位论文奖”。
  博士前期,张煦尧的科研工作经历了一段瓶颈期。因为没有成果产出,他曾一度处于低落、迷茫的状态中。为了使自己尽快从迷茫中脱身,张煦尧前往加拿大模式识别与机器智能中心访问学习,跟随加拿大皇家科学院院士Ching Y.Suen教授学习模式识别的相关知识。2015年,已经在人工智能领域小有成绩的张煦尧又前往深度学习发源地蒙特利尔大学进行访问研究。
  在蒙特利尔大学,张煦尧认识了深度学习三巨头之一,也就是2018年图灵奖获得者Yoshua Bengio教授。经过一年的学习和研究后,张煦尧取得了很大的收获,并与Yoshua Bengio教授合作发表了三篇与深度学习相关的成果论文。
  说起Yoshua Bengio教授,张煦尧语气中有着藏不住的仰慕之情。他说,深度学习三巨头之所以在这一领域能够取得这么大成就,是因为他们十分注重基础平台的搭建以及基础理论研究工作。在其他人还不看好深度学习的时候,他们就一直在持续地研究和探索,并向学术界开源其深度学习平台,如早期的Theano平台等。无论神经网络研究经历了怎样的起落,他们都一直在坚持。可以说,他们是从无到有地推动了深度学习的发展。
  虽然跟随国际热点进行“超车”十分重要,但是中国要想实现科技强国的目标,还要重视原始创新的研究。用张煦尧的话来说,既能够“从1做到100”,也能“从0做到1”。他的研究工作就是一个“从0到1”的过程,进入一个“无人区”,其起步必定艰难。所幸,张煦尧获得了中国科学院基础前沿科学研究计划从0到1原始创新项目的支持,以及中国科协青年人才托举工程的支持。
  最近,中国科学院开始筹建人工智能创新研究院,并成立了“2035创新任务团队”,张煦尧入选了自主进化智能基础理论团队。目前,在项目和团队的支持下,他的研究工作正在顺利进行当中,但是他表示,研究真正想要取得大的突破,乐观估计,还需扎扎实实地坐好几年冷板凳。
  
要锦上添花更要雪中送炭
  如今,人工智能应用无处不在,但是它不能凭空创造需求,而是必须依附于各个已有的产品,为用户提供更好的体验。所以从一定角度来看,人工智能技术的应用大多是锦上添花,而不是雪中送炭。
  在一些关键领域,由于人工智能不够鲁棒和不够可靠,很可能造成这一领域的巨大风险,如在无人驾驶、金融、医疗等领域。张煦尧生动地形容道:“人工智能有个很大的缺点,那就是它明明错了,却还十分自信。”因此置信度估计是提高智能系统鲁棒性的有效途径之一。张煦尧以无人驾驶汽车为例介绍说:“当一辆无人驾驶汽车要转弯时,如果它的置信度是0.999,那它就直接转弯了。但是,当它的置信度只有0.1时,它的识别不是很可靠,这时就需要人为的干涉来避免风险。”另外,当人工智能的应用环境、条件、数据规模、数据质量发生变化时,如何能依旧保证较高的准确率,也是智能系统获得普适应用所面临的挑战。
  对于人工智能威胁论,张煦尧认为谈这些为时过早。在他看来,人工智能与人的智能有着本质不同,最显著的是,人有“自知之明”,而人工智能却没有,这也是造成它不够鲁棒的根本所在。所以,我们所看到的人工智能应用大多是锦上添花。未来,张煦尧希望可以真正触及人工智能的技术痛点,实现这门技术雪中送炭的作用。
  研究工作之余,张煦尧还指导了多名博士研究生和硕士研究生。他在中国科学院大学参与教授的“模式识别”“深度学习”等多门课程,受到了同学们的广泛欢迎,并获得2019年中国科学院大学校级研究生优秀课程。
  作为新时代的青年教师,张煦尧在教育上有着自己的见解,他常常告诉学生们,要有质疑精神。在他看来,科研就是一个新旧结合、新旧博弈、新旧更替的过程,只有敢于质疑,才能衍生出新的方向,才能真正推动科技的发展。
  

分享到:
杂志
本期封面

2024年3月

上一期 下一期