欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
现实的理想主义者

来源:  发布时间:2015-04-10

——记百度研究院副院长、深度学习实验室主任余凯
本刊记者 祝传海 张欣浪  
  

   21世纪进入第二个十年,互联网也进入了一个新的时代。最明显的标志,就是互联网巨头们对人工智能 (Artificial Intelligence,AI) 技术的重视,甚至到了“得人工智能者得天下”的程度。2013年初,百度成立深度学习研究院(IDL),在中国互联网企业中,第一个把深度学习提升到核心技术创新地位。
   百度是一扇门。门内,是一个基于深度学习的智能平台。门外,通往普罗大众的俗世生活。百度IDL团队所创造的,是一个更加“聪明”的百度,是一种更加“智慧”的生活方式。“我们是做的是现实的理想主义”,IDL负责人余凯如此说。

互联网时代,深度学习是一个趋势

   几年前,大家都在猜测,百度要不要像微软和IBM一样设立研究院。当时百度内部给出的答案是:时机未到。百度要等的,究竟是怎样一个时机?2013年1月19日,从百度2012年年会现场传出了一个爆炸性的消息,百度要成立一所专注于Deep Learning(深度学习)的研究院,并命名为Institute of Deep Learning (IDL,深度学习研究院)。
   互联网时代开始后,科技创新已经从机器时代“让人类跑得更快、飞得更高”,发展为“让数据和信息说话”。而到了大数据时代,人类社会对于数据和信息的追求又上升到了另一个境界——把数据转化为价值。“这里面最重要的核心技术,就是人工智能。包括机器人在内的人工智能可能是下一个产业革命的爆发点。”余凯说。
   2013年4月,《MIT技术评论》评选出2013突破性科学技术,深度学习位居榜首,其余九个分别是:临时社交媒体、育前DNA测序、基于3D打印的制造业、蓝领机器人、记忆移植、智能手表、超高效太阳能、廉价手机大数据和超级电网。
   “到了该发力的时候了”,百度前瞻性地抓住了国际大趋势,也一下子站住了前沿。2014年8月,同样是《MIT技术评论》,长篇大论地发表了一篇文章,介绍百度最近两年在人工智能方面的技术进展。文章标题叫做《一个中国互联网的巨人开始有梦想》。“以前从来没有主流国外科技媒体介绍中国企业的科技创新,我们觉得很自豪。”这不仅是余凯的感受,也是整个百度的荣耀。但他们并没有沾沾自喜,就算再多人误以为百度只是个搜索引擎,他们自己却知道,从第一天起,百度就是个基于大数据的人工智能公司。“只不过这两年更加高调地去投入做这件事。”余凯说。
   近年来,智能手机、智能手表、智能汤匙、智能手环、智能冰箱……整个业界,“智能”产品层出不穷,但这些产品都真的具有人工智能么?
   余凯给我们科普,人工智能其实包括感知、理解、决策等几个环节,每个决策所产生数据再次进入感知环节,通过理解,做出下一步决策,形成迭代循环。广义上,这和人有相通之处:人通过感官可以感知到周围的环境是什么样子,可以通过人与人的的交流来获取信息,从而理解哪里有障碍物,哪里可以行走,做哪些事情带来什么样的风险或收益。当人在形成理解之后,会决策该怎么做出相应的反应,继而把思考的结果转化为一个更加接近目标的现实。人工智能,就是让机器像人一样去感知、理解和决策,自主的完成一定的任务。
   人类能够“吃一堑,长一智”,真正的智能,也会随着经验的累积,不断去提升自己的感知、理解和决策的能力。一个基于人工智能的产品或服务,开始可能并不聪明,但用户使用的时间越长,它就会越来越感受到用户的习惯、喜好和需求,并把由这些数据在后台建模分析判断,进而来调整自身的行为。余凯指出:学习能力,才是人工智能的本质。
   现在很多产品宣传中所说的“智能”,大多时候是“操控”,是一种完全被动的完成任务,而人工智能想要达到的是“自主”的目的。真正的智能空调,会根据室温和空间热源分布的变化来调节温度。而网页上的热门频道和焦点的排序推荐,也是根据用户历史行为数据自动调整的。而更重要的是,绝大多数的所谓“智能”产品,都不具备学习的能力——它们并不会随着用户的不断使用而变得越来越聪明。所以说,人工智能的一个本质属性是学习的能力,是随着经验积累不断成长的能力。那么什么是经验?其实经验就是数据。这也就是为什么今天人工智能变得触手可及,因为我们处在大数据的时代。而移动互联网的普及,使得海量数据每天都在产生。余凯举了一个例子,同样是发生在梵蒂冈圣彼得教堂的新教皇选举,2005年,人们还只是在教堂前的广场上等待;2013年,新的一届教皇选举来临,而站在广场上的那些人,几乎手里都举着手机在拍照。拍照这种行为本身,就意味着数据的产生。“今天,我们每人身上平均带着两到三个联网设备,到了未来,可能你的每个扣子都是一个联网设备。有一种说法是,到2020年,每个人会有1000个联网设备。”
   那将是一个数据暴增的时代。要应对这种大规模的数据,传统的人工智能算法已经力不从心,毕竟在数据达到一定规模之后,它的学习效果就不再增长。要实现飞跃式地发展,还要开发深度学习技术。深度学习能有效挖掘大数据带来的红利,数据规模越大,学习效果也越明显,系统也更加智能。所以在大数据时代,深度学习受到极其广泛的重视。“到那时,人们感受到的将是VIP式的服务”。
   “假如说你想在网上订一个披萨,第一步就要从网上找披萨店,找喜欢的口味。这一步就已经可以实现个性化,网络通过对你以往每天的搜索习惯进行行为分析,来推荐你喜欢的披萨,避免了盲目海选的烦恼。这一点用户已经在享受了。”
   余凯试图用订披萨作为一个例子来诠释人工智能给生活带来的改变,他认为机器人将使互联网服务从线上延伸到线下。就像订披萨的流程,当网络订单传到特定的披萨店后,即开始做披萨。现在的披萨店里同一种披萨的口味当然是基本无差别的,但在将来,机器人可能会参与到制作披萨的过程中,它们会与网络系统直接关联,当你的个人喜好以数据形式导入它们的“大脑”中,制作出来的将会完全是“你的披萨”——口轻或者口重,放不放洋葱,甚至其他看起来“诡异”的要求。
   经过真正的私人定制之后,披萨店还要把这份特别的披萨送到你手中。这时,“高度自动化驾驶”就要上场了。在高度自动化驾驶的帮助下,送餐车可以在百度地图上找到距离送餐地点最近或者不堵车的路线,行进中随时了解前方路况,以便安全及时送达。
   “深度学习就是从现在连接到未来。现在,线上部分已经通过搜索、语音识别、图像识别、自然语言理解来实现了个性化。未来,全套流程做下来,就是将线上累积的能力往线下延伸。装有深度学习的大脑的机器人服务,就是互联网服务的最后一公里。到那时,人们感受到的就是VIP式的服务。”余凯补充道。

“一路向西,正好绕地球一圈”

   深度学习研究院是百度成立的首个研究院,也是中国第一家成立的深度学习研究机构。“我们把深度学习带入中国,而在国际上,我们也是最早把深度学习上升到战略角度的四家公司之一。”余凯所说的四家公司中,除了百度,还有Google、微软和Facebook。百度也高度重视人才引进、培养和优化配置,当年,余凯就是被百度吸引过来的。
   早在南京大学读本科时期,余凯就对人工智能和神经网络非常痴迷,四处寻找相关书籍,每每看得热血沸腾。用他的话说,看到人工神经网络可以模拟人的大脑做那么多事情,就会激动得睡不着觉,非要泡在实验室里,哪怕通宵达旦也要手把手地尝试去编程序做实验。到了硕士阶段,他已经在尝试用神经网络来研究语音系统的处理。1999年,他第一次参加全国性的学术会议,他发表的有关神经网络的论文就拿到了大会最佳论文奖。
   读研二那年,余凯做了个大胆的决定,到德国去进修数据挖掘和机器学习。“这是我最喜欢的方向,而到欧洲那么有文化底蕴的地方去待一段时间也是个很美妙的人生经历。”为了心底的坚持,余凯申请到了西门子奖学金,又说服了导师让他提前一年拿到硕士,终于去了德国著名学府慕尼黑大学,师从著名计算机科学家、ACM Fellow、Hans-Peter Kriegel和著名机器学习专家Volker Tresp。“真的蛮幸运的,从一开始就做自己最喜欢的事情,一直都没有改过。”余凯微笑着说。博士毕业后,余凯进入西门子公司总部。两年半之后,他已经是西门子的高级研究员,却开始向往美国NEC研究院。
   多年后,他坐在百度大厦这间会议室里,给我们讲述当时的选择。“在机器学习过去的20年中,曾经有过两次热潮,第一个是SVM模型及其理论的兴起和普及,其发明者是统计学习理论奠基人、美国工程院院士Vladimir Vapnik。当时Vapnik就在美国NEC研究院工作。第二个热潮就是深度学习,代表人物之一是Yann LeCun,现在我们在深度学习中最常用的卷积神经网络,就是他发明的。他曾经在美国NEC研究院做机器学习部门的主任,而深度学习最广泛的应用的随机梯度下降算法SGD,NEC研究院的Leon Bottou是权威学者”。
   在当时,美国NEC研究院是机器学习领域当之无愧的几个重镇之一。余凯希望自己能够在那里得到进一步的提升。加入美国NEC研究院之后第三年,余凯成为研究院最年轻的部门主任,领导一支有国际声誉的团队在机器学习、图像识别、多媒体检索、视频监控、数据挖掘和人机交互等方面的技术研发。数年下来,他在顶尖会议和杂志发表的高质量论文,被同行引用7000多次,带领团队多次获得国际技术评测的第一名。2014年底,已成为Facebook人工智能实验室主任的Yann LeCun在一个访谈中,提到深度学习最初的几个重量级研究团队,包括多伦多、斯坦福、NEC加州实验室等。其中,NEC加州实验室指的就是余凯领导的团队。
   在美国工作期间,他在加州大学Santa Cruz分校给研究生讲授“ ISM245: 数据挖掘”,在斯坦福大学计算机系为研究生讲授“CS121: 人工智能概论”,也曾多次出现在Google、Microsoft、MIT、UC Berkeley等著名研发机构的讲坛上。在国际人工智能/机器学习领域,余凯的影响力已经不容小觑。可是,2012年4月,他飞过太平洋,来到了北京海淀区上地十街10号,这里是百度大厦所在。
   “我回国是因为我确实想回国。”余凯形容自己过去的旅程,是从中国向西飞到德国,6年后又往西飞到美国加州,再过6年,再一次西飞回到中国。“正好绕地球一圈”,余凯笑言,这种“全球化”的人生经历,让他可以和不同文化背景的人在一起,用比较开放的心态来工作和生活,是他人生中的一笔宝贵财富。但无论如何,飞得久了,总要回来。
   当然,还有一个重要原因是美国NEC研究院只是一个研究机构,不能持续地产生数据,而人工智能只有在有大数据的互联网企业中才能得到真正的发展。这一点,把人工智能当成使命的余凯是不能忍受的。他要寻找一个重视技术的互联网公司,继续自己的理想。“最好的数据在互联网公司。Robin本来就是人工智能专家,非常重视技术,百度是一个最好的选择。”
   事实上,余凯不是杞人忧天。缺乏数据基础成为美国NEC研究院的尴尬,到2014年,曾经在美国NEC研究院工作过的机器学习代表人物Yann LeCun、Vadimir Vapnik、Jason Weston等都已经投入Facebook门下,而Leon Bottou加入微软。早在2012年,余凯加入百度后,出自美国NEC研究院的著名的机器学习专家徐伟、黄畅等也相继加入百度。
   近两年来,百度在人工智能和深度学习方面投入几十亿的资金。从2014年乌镇峰会上传来风声看,百度还将继续加大对此的研发力度。有了这个后盾,余凯也有了对未来的底气。从百度多媒体部技术副总监,到百度研究院副院长,他和团队可以走的路越来越敞亮。

推陈出新,让百度更懂你

   假如你漫步在博物馆,对某幅画产生了兴趣,只要你用手指在虚空中对着这幅画画个圈,你头上的BaiduEye就能确定你所要了解的对象,将这幅画的作者、创作背景,甚至商业价值等都“悄悄”告诉你。
   假如你在商场购物,看到一件时装,BaiduEye可以立刻把品牌、款式、价格,甚至用户评价的对比结果都反馈给你,轻轻松松就可以货比三家。假如你是位医生,正在进行手术,BaiduEye可以忠实地记录手术现场,并实现实时远程会诊。
   “BaiduEye是一个原型性产品,我们已经在和银泰百货合作开展零售业的应用,跟国家博物馆进行旅游业的合作。现在,还在进行医疗行业的试水。一来可以通过远程分析和语音指导来做手术,二来一旦出现医疗纠纷可以调出手术记录来分清责任。”余凯说。

   2014年上线的BaiduEye绝对是一个热点,无论从功能还是外观上,关注度都超过了之前的谷歌眼镜。“因为Eye是自然的人的身体的一部分,Glass是附带外加的。它就像一个助手一样,它真的知道你此时此刻在看什么东西,从而真的把互联网后台的服务变成你的大脑,让你知道如何去更加精准的决策。”
   支持BaiduEye的就是百度大脑。或者说,百度大脑支持着百度旗下的众多衍生品。百度大脑系统,是一个大规模的计算机系统,有几千台服务器并行计算。它具备随着经验的不断演化的特点,随时都在不断学习和演进,每天的数据(用户在网上的行为)都会放入百度大脑去分析,以便于百度大脑积累经验。它具有构建百亿级参数,也是世界上最大的深度学习神经网络。在物种上,从单细胞生物到哺乳动物到灵长动物,随着神经元数目的增长,它们的智能水平在增长。百度大脑也一样,它的网络规模和智能水平成正比,神经网络参数越多,智能水平发展的潜力也越大。
   有了这两个最基本的能力,百度大脑就能够开发世界上最领先的深度算法和系统。“深度学习很有意思的一点,是与人脑的表示方式有相通之处。譬如说视觉系统处理模式,从低层次的信号,到高层次的语义,是逐层变换的。我们通过数据去训练一个深度学习系统,也是形成一层一层的数据表示——从底层的像素到边界的提取,再到对物体各个部位的检测和提取,一直进展到对整个物体的检测。”
   深入百度大脑,里面用到一种叫深度语义神经网络的模型,它是百度大脑用自然语言去匹配query和网页的语义相关性。这是业界第一次把深度学习用于提升搜索精度的成功案例,也是迄今为止深度学习用于语言文本信息最成功的应用。
   提到搜索,很多人想到的可能都是在搜索引擎上输入一串词语,按一下回车键,再逐个点开查看哪个是自己想要的。用惯了的人可能不觉得,但这种传统的搜索方式其实是把不习惯键入文字内容甚至不会输入法的人排除在外的。
   而在这间会议室,余凯用自己的手机给我们展示百度大脑为移动搜索带来的新体验:用手机拍下一盆不知名的室内植物,就可以看到百度百科对它的描述;拍下农夫山泉的瓶子,价格和供应商等相关信息都会跳出来;对着话筒说一句“请问怎么到科学中国人杂志社”,路线就有了;拍一张中文菜单,可以翻译成英文;不会做的作业,拍下来上传搜索,就能在百度知识库里找到相应的解答……
   百度翻译、百度作业帮、涂书笔记、百度识图、百度魔图……它们都有自己的名字。网上抢票的验证码太过奇葩,百度可以帮你转化;运单上的手写电话号码看不清,百度也能来识别。“现在的单字准确率可以达到95%,但按照整个序列来说只有80%,不过我们的内部技术每个月都在提升。”余凯很为百度出品自豪,他们的图像检索技术可以实现高精准的以图搜图,在相关产品的精准度对比上,68%优于谷歌,4%相仿,18%略差于谷歌。这个成绩已经是世界最好的精准度了。何况,他们不仅能识别图片主体,还能识别图片背景,在某项世界级的大赛中,超过谷歌,拿到了冠军。
   “一辆黄色的巴士开过来,沿途绿树成荫。”余凯指点着一幅画图下的说明文字,告诉我们那是百度大脑自动生成的语言。“人在看到图片的时候往往会反应出相应的信息,并可以用自然语言描述出来。机器是不是能做到这件事呢?经过我们在人工智能技术上的突破,终于可以了。”
   回国后,余凯就带领百度的语音和图像等团队开展面向互联网搜索和移动应用的基础技术研发,推动了深度学习技术在互联网各业务方向的突破和应用。这些,是他和团队积累下来的成果。到现在,利用深度学习之后,百度在移动搜索上的语音识别技术的成长,超过了过去15年里用所有技术带来的提升总和。
   在图像方面、OCR、人脸识别、物体检测等方面,百度都取得世界最领先的成绩。在百度核心广告业务方面,深度学习也显著提升了广告投放的精准性,在提升用户体验的同时,也大大提升了百度的营收。在2015年1月18日极客公园大会上,Robin说到:“三年前我决定大手笔投入的时候,我觉得这个事儿五年、十年以后才能受益,但没想到一两年以后已经看到了对我们现有业务的提高,这是超出自己想象的”。
   对百度来说,仅有这些还是不够的。他们还在延展真正的线下服务,譬如说“高度自动化驾驶”。注意,是高度自动化驾驶,不是无人驾驶。余凯认为,像谷歌那样直接做无人驾驶,遇到的阻力会比较大,不容易成功。技术问题虽然好解决,但是中国现有的道路状况是不是合适?政策法规有没有合理的规范?路上同时有自动驾驶车辆和人工驾驶车辆时,要如何协调?“这是整个行业产业的问题,但是我们不一定非要等到理想状态实现的那一天才有事情做。”
   他分析道,第一个阶段是辅助驾驶,当行车途中遇到行人或其他障碍时,车辆会自动报警,但能不能采取措施是司机的事。第二个阶段是主动安全,也就是说,假如真的检测到前面有个小孩,不管司机有没有应对,车子自己都会停下来。第三个阶段是在限定条件下的自动驾驶,比如在高速公路上自动巡航、保持车距、识别弯道等,目前还做不到,但是在大型仓储中心内部进行货物运输会先一步实现,也就是特定场景下的自动驾驶。再往后,自动化程度会越来越高。“每个阶段都有商机,我们会采取更加现实主义的做法,一步步推进,看如何与市场和国民经济对接。”
   在现实的理想主义思路下,百度已经在开发高度自动化驾驶项目,开发大规模的高精度三维地图。“业界的地图精准到几米,我们可以精准到车道线、电线杆的位置,大概10~20厘米。这是高度自动化的先决条件。”现在围绕北京五环以及京新高速公路(G7)的三维地图已经建设完成。结合高精度地图和动力系统的仿真建模,自动驾驶的控制算法就可以不必每次都上路调试,完全可以在计算机上仿真完成。“我们是用低成本的设备和高端的算法来做事。不然的话,像谷歌现在加到车上的传感器,都够买好几辆车了。”余凯调侃道。

团队建设,一流的人要在一流的平台上工作

   “外界媒体总是把IDL和微软、谷歌等国际公司的研究院放在一起比较,其实我们比它们做的事情还多,对公司核心业务的影响更大。”在余凯心里,百度IDL是个极其特殊的团队。在设计之初,百度对IDL的期待很多,首当其冲的,就是为百度保持对世界一流人才的吸引力。余凯说,“我很幸运,不仅Robin对人工智能高度重视,而且百度还拥有一支从上到下、志同道合的强悍的团队,我的直接上级高级副总裁王劲对我也非常支持。IDL的很多进展离不开他的直接领导。”
   在余凯的带领下,相关技术团队分别于2013年、2014年三次获得百度百万美金最高奖。“2014年百度的6个最高奖,我们拿了两个。百度好声音,我们也拿第一名。”余凯对现有团队的评价是:一个充满激情和理想主义的团队——work hard,play harder。
   他总是说,IDL这两年推出的成果,真正做出努力的是这个团队,而非他本人。“我没有什么管理经验,也不认为自己是个管理者。”在国外时,余凯曾经的上司跟他说过一句话:管理者一般都是命令人,优秀的领导者启发人、挖掘人的潜能。余凯想做的是引导者,引导方向、创造环境、激发团队每个人的潜力。绝大多数时候,他都在鼓励和赞美队员,然后适当给予调整。他相信,只懂得听从和服从的,不会成为真正的创新团队。而百度IDL需要他们的主动性和创造性。
   “谷歌要做深度学习的话,周边IBM、微软等企业都有丰富的储备人才。而我们是在中国互联网企业第一个做深度学习的,招聘的时候没有可参照的样本。直到现在,整个产业也是偏弱的。所以,我们从全球招聘最优秀的人才,也在通过百度项目让人才得到成长。希望能够通过展现优秀的成果和团队氛围,吸引更优秀的人和我们在一起。”他的中心思想只有一个——精英,数量不重要,只要是精英。2014年5月,余凯成功的说服多年的好朋友,将美国斯坦福大学人工智能实验室主任Andrew Ng教授吸引到百度,成为轰动全球科技界的一个标志性事件。
   百度IDL的第二个使命是为公司现有的核心业务以及长期的业务发展提供技术动力,这一点,他们显然做到了。         
   “能在整个互联网发展上提供指引性的、创新性的思想。”余凯说,这才是百度IDL的第三个使命。就像百度不只是搜索,这群践行现实理想主义的人,他们的野心也从来不只是在百度内部,他们想要争取的是业界的影响力和话语权。

分享到:

杂志
本期封面

2024年10月

上一期 下一期