来源: 发布时间:2020-09-04
——记国防科技大学计算机学院教授徐凯
方 方 张静怡
“我们生活在一个三维世界里,对世界的观察是三维的,与世界的交互也是三维的。我们的生产生活对数字化三维世界的表达与交互需求正不断升级,未来一定是三维数据的天下。”国防科技大学计算机学院徐凯教授肯定地说。作为一位计算机图形领域的科技从业者,他对这样的趋势很兴奋。
“计算机图形学研究已经接近饱和”——自20世纪90年代起,这样的论调就一直存在。徐凯却不这么想,他认为,图形学当前的一个主要瓶颈就是“三维内容生成”,一旦突破,就有望令三维数据真正实现爆炸式增长,而三维大数据反过来也会对三维内容的生成与创作产生变革式影响。如今,三维数据的生产-消费生态正在逐渐建立,围绕三维内容的产业链也正在形成。数据驱动下的三维几何建模乃至近年来热门的人工智能的出现,不断拓展着各行业的应用边界,伴生出层层叠叠的新问题。“这是计算机图形学的生机”,徐凯说。在这份生机里,他看到了计算机图形学更广袤的天地,任凭驰骋。
做手持两把利剑的奔跑者
第一次参与与图形学相关的科研项目时,徐凯还在国防科技大学读大三。这项名为“膝关节镜手术仿真模拟系统”的工作,在几年后获得全军科技进步奖二等奖,其成果也被北京301医院应用于手术医生的教学培训和术前演练。但对大三学生徐凯来说,他无法预估这项工作的结局,只当是在科研大道上迈出了“一小步”。
“一大步”要怎么迈出去?徐凯也在思考。博士期间,他有个阶段甚至困惑于如何从研究过程中找到合适的切入点。为了找到答案,他去加拿大西蒙弗雷泽大学待了两年。那两年,实验室成了他最熟悉的地方。讨论问题、钻研难点、撰写论文他和导师张皓教授经常工作到凌晨三四点,有时不知不觉就通宵了。而在张皓教授的推荐下,他得以与国际领域内的大师们密切交流,学术视野也越来越开阔。
辛苦,但成长也是迅速的。徐凯成功解决了三维几何形体局部内蕴对称检测这一国际同行公认的难题,论文被当年的图形学顶级会议S I G GRAPH高分录用。峥嵘渐露,但思考却没有停下,因为他发现视野放开之后,图形世界明显有了更多可能性,尤其遇到陈宝权教授后。
那时,他在中国科学院深圳先进技术研究院做博士后研究,陈宝权教授是其导师。“他提出,传统的机器人视觉是基于普通相机拍出来的RGB图像去做导航和抓取,但真实世界是通过三维视觉表示出来的。这意味着计算机图形学可以和机器人方向结合在一起。”刚听到这种设想,徐凯觉得似乎也太跳跃了,但很快就感受到这的确是大势所趋,并坚决地投身进来,成为国际较早、国内最早走上相关方向的研究者之一。“在面向电影、游戏等有限应用上,计算机图形学很成熟,但当科学家解决了三维重建、形状分析等基本问题后,在与机器人结合过程中要求在线建模、实时分析,就是一种颠覆。所以说,不应该被固化思维束缚住,要以变化的眼光看待学科及其周边应用的发展,研究才能被盘活。”
对徐凯而言,“结合机器人方向=为图形学界打开研究思路”这件事真的很酷。近年来,每年的S IGGRAPH等顶级会议上都会涌现出数篇相关论文,“机器人”逐渐成了国内外图形学界的时髦元素。他本人每年在该方向都有顶级会议文章发表,经过深入的积累,他在2016年获得国家自然科学基金优秀青年科学基金的支持。
“这个年轻人成功了!”外人眼中的徐凯光环罩身,他却在获得一系列荣誉后,决定让自己沉静下来。2017年,他前往美国普林斯顿大学做访问学者,跟随SIGGRAPH杰出成就奖(计算机图形领域最权威的奖项)获得者ThomasFunkhouser教授做研究。“我们讨论问题,他提到一个好点子,我觉得确实不错,散会后还跟学生交代能如何实现这个设想。结果第二天再讨论时,他自己已经把代码编程写好了。”徐凯忍不住自省起来,无论何时何地,都不能和一线工作脱节,而亲力亲为的好处是,不仅能够在思路上给学生指导,还能够及时发现可能会被错过的细节问题。
这一年,徐凯彻底稳了下来。用他的话说这是一场“内功的修炼”,在前沿研究上,天马行空的思维脑洞和扎实稳固的基础步调缺一不可,这将是他潜心锻造的两把“利剑”,在充满未知的科学探寻中,助他披荆斩棘,无畏无惧。
用数据驱动数据生成
数据驱动,就是要让数据说话。徐凯认为归根结蒂就是要“让数据帮助数据理解,用数据驱动数据生成”,即将数据驱动方法引入到三维几何分析和建模中。
在SIGGRAPH Asia 2010的一篇论文中,他与合作者提出了三维模型集“联合分析”概念,打破了以往三维几何模型分析只针对单个模型的模式,被认为是数据驱动几何处理与分析的核心概念之一,引发了数据驱动三维形状分析的研究热潮。而以此为起点,徐凯围绕数据驱动的三维模型结构分析和语义理解,以及数据驱动的三维建模,开展了大量研究工作。经过近十年的积累,发表了30余篇顶级会议论文,相关成果获得2014年湖南省自然科学奖一等奖。
“有了数据驱动方法,我们在三维几何建模上就有了更大的发挥空间。”徐凯表示。目前,三维几何建模的主要途径仍是交互式建模,对专业技能要求很高。如何让普通用户方便、快速地构建想要的三维模型,是几何建模领域长期追求的目标,也是徐凯提出一系列数据驱动三维建模方法的宗旨。
比如在基于演化的三维模型自动生成方法中,徐凯大胆地融入了生物遗传演化的思想。“新三维模型脱胎于旧模型、旧数据衍生出新数据,这与种群后代繁衍异曲同工。”通俗地说,他将维模型看作生物个体,让一组模型像生物种群一样繁殖和演变,并在一定的用户交互引导下,生成符合用户要求、多种多样且结构合理的三维模型,大幅度提高了建模效率。“但让这个想法变成一个能够实操的东西,我们花了很长时间去定义。”徐凯说。该方法一出,得到了大量关注和引用,收获了同行的高度评价。
不过,在2014年以前,徐凯团队的许多“脑洞”受限于实际性能,还无法落实到应用上。深度学习时代的到来,让徐凯看到了一种可能——让图形学与深度学习相结合,三维数据的表达能不能更加高效、实用?
“我们尝试了一个跨学科交叉创新,把自然语言处理中的一种特殊的、能够处理层次结构的所谓递归神经网络,引入到三维模型结构的编、解码中。”他解释道:“以往的方法是逐个体素地生成三维模型,而我们的方法是逐个部件地生成,且在生成中很好地保持了部件间的结构关系。”
因此,他们提出了首个基于深度学习的结构化三维模型生成方法GRASS,结合深度对抗学习实现了三维模型的多样化、保结构生成。该方法在SIGGRAPH2017上发表后,被大会方选送国际多家媒体报道。
得到学术界的认可值得自豪,但徐凯在数据驱动分析和建模上研究多年,终极目标还是希望让技术可以落地,他没想到契机竟然源自帮父亲选家具的一次经历。
“父亲喜欢中式风格,这种家具的纹路特别精细,比如椅子扶手上雕刻的线条等,尤其能体现风格。”受此启发,徐凯想如果提取三维模型在不同视角下的特征线,是不是更容易区分家具风格了呢?最终,这个灵感在他带领国防科技大学和南京大学联合研发组开展的“数据驱动的三维家具风格分析和推荐方法与系统”研究中被“用活”了。他们提出了一种基于多视点投影轮廓中层特征的多视图学习方法,能够有效地解决三维家具风格的精确、高效分析,以及基于风格的家具推荐。然而,基于这项成果的论文投到图形学顶会却遭到5次退稿。“我们还真没遇到过这么多次退稿”,徐凯说。
短暂迷惑后,他和团队迅速找回了状态,开始对方法与系统不断打磨,终于找到了更为可靠的解决方案。这项研究成果最终得以在SIGGRAPH 2018成功发表。由于实用性很强,他们的成果一经发表,很快被阿里巴巴盯上了。正因为前期投稿屡屡挫败,他们做了大量细致的打磨,使得该方法性能出色、稳定,仅仅经过半年多的产品化工作,这项成果就被应用于2019年阿里巴巴淘宝研发的Homestyler家居风格处理系统。这套系统能够实现基于风格的自动搭配功能,不仅很好地提高了设计师的工作效率、节约了工作时间,还大大提升了用户的体验和直观感受,引发家居爱好者、设计师和消费者的极大兴趣。系统上线至今,中国注册用户人数20万,全球用户1000万。
做机器人的最强“三维视力”
“三维视觉是图形学,特别是几何建模与处理的用武之地。2015年之后,我们考虑的就是如何把图形学和机器人感知与交互创新性地结合在一起。”徐凯说。
相比传统工业机器人仅能执行既定动作,现代机器人往往需要面对未知、复杂、变化的环境,通过与环境、甚至与人之间的交互以完成各种复杂任务,这对机器人的柔性和智能化程度提出了极高要求。此时,3D视觉对于精确引导和精准交互尤为重要。
徐凯团队提出了一种基于主动交互的机器人环境感知——机器人在环境感知过程中不应只是通过不同角度去“看”,还应“动手”去“探”。例如,一件物品放在桌子上,机器人可以通过不同角度的观察获取其三维几何形状,但这件物品究竟是一个独立的整体还是由多个部分构成,仅用几何数据分析很难得到100%正确的结论。可如果机器人能用“手”去触碰它,通过检测触碰前后的三维几何形状的变化(是否分离),便立即可以得到正确结论。
“对于场景分割来说,机器人上手推,对分割结果的交互式的物理确认,是以往任何基于静态视觉数据的分析理解都无法比拟的。物理上确认分割结果,可以为基于学习的分割方法提供训练数据。”徐凯解释道:“我们这样一个简单的思想,随后在一个实际工业应用场景中得到了很好的运用。”
2018年,徐凯带领团队研发了世界上第一个多品类无序拆垛机器人ZeroPick,并于同年在国内某知名电商的物流水饮仓落地应用,成功经受住了“双十一”的高强度压力测试,得到用户高度认可。ZeroPick融合了当前最先进的三维视觉、三维深度学习和机器人规划控制技术,具备识别精度高、抓取速度快、对复杂场景适应性强等优势。其强大的三维视觉检测技术能胜任尺寸、纹理差异极大且随意、混合堆放的上千种纸箱的快速准确识别和分割。特别是,他们将主动交互的思想巧妙地运用于纸箱分割中:“对于分割不确定的箱子,让机器人上手试抓,根据观察交互结果即可判断分割正确与否。”从理论迈入实践,ZeroPick让徐凯的梦想距离现实更近了一步。
有拆垛机器人,就有码垛机器人。ZeroPick的“兄弟”——ZeroPlace也紧随其后诞生。“人在码放箱子的时候是基于直觉和经验的,他不需要了解未来每一只箱子的形状,而只需看到眼前两三只箱子就可以立刻做出规划反应。对于机器人,要在码垛过程中进行动态、在线规划就非常难了。”徐凯团队为ZeroPlace做的一个重要能力加持就是3D空间在线智能规划。他们将最先进的3D视觉感知与机器人规划深度融合,基于深度强化学习,使ZeroPlace具备强大的三维空间动态规划能力,能够在保持垛体稳定的情况下,使托盘利用率达到80%以上,码垛效率最高能达到600件/小时,单件节拍最快能达到6秒/件。“大量实测结果显示,ZeroPlace比人工摆放的空间利用率还要高”,徐凯说。
“我们选择研究问题的原则就是不随波逐流”,徐凯再次强调。这几年,打通了机器人与图形学之间的路径,他的研究如鱼得水。最近,他又惦记起了“三维数字孪生”——以真实世界为蓝本,借助图形学和人工智能构建一个三维的、动态的虚拟镜像世界,令很多智能学习和推演等都能在这个虚拟世界里进行。“得到精准可靠的学习和推演结果后,再用它驱动真实世界的机器人去执行。反过来,真实世界发生的改变也可以通过三维感知实时反馈到虚拟仿真环境中。”
这是徐凯关于未来的更大愿景:“借助虚拟与现实之间的平行与互动来更好地改造真实世界”。