欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
以计算机为载体 打造视觉盛宴

来源:  发布时间:2021-11-12

李 桐

  
  
  2019年,一部动画电影《哪吒》横空出世,耐人寻味的剧情,冲击眼球的画面,给观众带来一场视觉盛宴,也给中国动画电影的崛起注入一针强心剂。然而,少有人关注的是这1400个特效镜头背后强大的计算机视觉技术。事实上,从《阿凡达》开始,计算机视觉就在电影领域大放光彩。那么除了电影,计算机视觉还能应用在生活中的哪些方面?它的崛起会给人们的生活带来什么样的改变?香港中文大学(深圳)教授韩晓光一直在寻求答案。
  
走进陌生的计算机领域
  
  毕业于南京航空航天大学数学系的韩晓光,硕士时期因导师的研究方向是计算机图形学而走进计算机研究领域。跨领域的学习并没有让韩晓光感到遗憾,反而兴趣十足。“进入计算机领域后,我发现这个领域还挺吸引人的,而且至今兴趣未减,所以我算是自然而然地进入了这个领域。”
  推开计算机领域的大门,韩晓光的目光很快就锁定在计算机图形学和计算机视觉两大方向。计算机图形学是一种使用数学算法将二维或三维图形转化为计算机显示器的栅格形式的科学。简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形,以及利用计算机进行图形的计算、处理和显示的相关原理与算法。而计算机视觉是一门研究如何使机器“看”的科学,更进一步地说,就是指用摄像机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,用电脑处理成为更适合人眼观察或传送给仪器检测的图像。简单来说,“计算机图形学是研究图像生成的学科,计算机视觉是对图像进行理解的学科,这两个学科联系紧密,相辅相成”。
  在计算机图形学领域,建模、渲染、动画、人机交互是四大主要部分。2014年,在香港城市大学创意媒体学院担任两年研究助理后,韩晓光于香港大学计算机科学专业读博,并在三维人脸建模方面发力。兴趣的指引加上勤奋的助推,他在博士期间取得了一系列出色成果,包括:提出了一种新颖易用的草图绘制系统,通过学习2D草图与3D形状间的相关性自动从2D草图生成3D人脸模型。同时,系统支持基于手势的交互,以便用户编辑初始面部模型;他设计了一种新颖的、基于CNN的深度回归网络,融合卷积和输入草图的形状特征,从粗糙的2D草图推断精确的3D人脸;构建并开源了具有多种身份、表情和夸张程度的人脸数据库,造福后续研究。
  人脸建模一直是计算机领域的热门研究方向,虽然高端应用(例如故事片中的虚拟角色)需要从现实世界中获取高保真人脸模型,但在许多场景(如卡通、游戏)中,低成本的3D人脸建模仍占主导;囿于身份和表情的多样性以及丰富的面部几何,即使是熟练的建模师借助成熟的软件(如MAYA、ZBrush)交互创建像样的3D人脸模型也十分耗时费力,而在韩晓光的带动下,这项任务正渐渐变得简单。
  2017年,在获得香港大学计算机科学专业博士学位后,韩晓光来到香港中文大学(深圳)任教。此后,他一路前行一路高歌,共在著名国际期刊和会议发表论文40余篇,获得CCF图形开源数据集奖,计算机图形学顶级会议Siggraph Asia 2013新兴技术最佳演示奖,2019年和2020年连续两年计算机视觉顶级会议CVPR最佳论文列表(入选率分别为0.8%和0.4%),入选2021腾讯AI Lab犀牛鸟专项研究计划,他的团队还在1700多支参赛队伍中脱颖而出,于2018年11月获得IEEE ICDM全球气象挑战赛冠军。
  
建立大规模三维服装数据库
  
  近些年来,深度学习令基于图像的三维人体数字化领域有了前所未有的进展:通过输入一张图像,现有技术能够准确地估计三维人体姿态,恢复图像中非穿衣的三维人体模型。
  然而,与从单张图像估计人体三维姿态、非穿衣人体形状相比,恢复图像中三维服装的研究进展相对缓慢。除去重建三维服装模型任务自身的难度外,更重要的原因是缺乏大规模的、包含现实中多种服装的三维服装数据集。不同于图像能够通过网络快速搜集,高质量的三维模型往往需要在实验室环境内,通过扫描或多视角重建获得。由于服装的形状十分复杂,从采集的三维人体点云剥离出边界分明的服装部分通常需要烦琐的人工操作,增大了建立大规模三维服装数据集的难度。
  “服装模型这件事,其实国内外都有研究,但是研究得都很少,最大的阻碍在于衣服褶皱这块非常难。”韩晓光说。在此之前,他一直忙于三维图形重建,了解这一现象后,“当时我们做的时候国内还少有人做,我就想能不能把这件事往前推一推”。
  着手这一挑战后,韩晓光及团队很快就迎来了第一个难点:没有衣服数据集。人工智能时代,没有数据集,相当于盖房子没有水泥。因此他们从零开始搭建,经过近9个月的努力,最终建立了大规模的三维服装数据集Deep Fashion3D,该数据集在服装模型的数目、种类以及标注多样性上都胜于现有的三维服装数据集。
  为体现现实世界中服装款式与种类的多样性,Deep Fashion3D共采集了10个服装种类共563件不同的服装,包括长/短/无袖衫、长/短裤、长/短/无袖连衣裙以及长/短裙。通过将每件待采集服装穿着于假人或真人模特身上,并摆出不同的姿态以产生多样化的真实褶皱,进行数据增强,最终共重建出563件三维服装模型。
  Deep Fashion3D数据集建成之后,研究组又提出了一种新颖的单幅图像三维服装重建方法。该方法通过结合显式网格表示方法与隐式形状表示方法实现了高保真的服装重建:在网格表示学习分支中,模型根据输入图像生成三维服装特征线并引导服装模板网格形变至与图像中服装宏观形状相近的形态;在隐式形状表示学习分支中,模型通过输入图像预测服装表面的高频细节;最终,将隐式分支中生成的服装细节迁移至显式分支生成的服装网格以获得具有准确宏观形状和丰富细节的服装网格。
  与现有单视角三维重建方法相比,Deep Fashion3D更能准确恢复图像中服装的形状和表面褶皱细节。因此,在计算机视觉领域三大顶级会议之一的ECCV2020中,相关成果论文《Deep Fashion3D:大规模三维服装数据集与单幅图像三维服装重建基准方法》被录取为口头报告文章(Top 2%)。随后,相应数据集又荣获Chinagraph“图形开源数据集奖”。
  韩晓光团队现有本科生10人、硕士生6人、博士生10人,加上访问的学生,目前共有30余人。在充足的战斗力下,他希望未来的三到五年,可以完成两大目标:“一是在完成前沿科研的同时,在一些基础研究上也多花点时间;二是希望能够产业化落地,真正以应用驱动科研,实现产学研一体化。”计算机视觉就像一个万花筒,每一面有每一面的惊喜,未来韩晓光还将继续发挥团队优势,为挖掘计算机视觉的多面性而努力。
  

分享到:
杂志
本期封面

2024年4月

上一期 下一期