来源: 发布时间:2018-05-25
本刊记者 黄 健
200万年前人类祖先最早依靠一些简单的手势彼此沟通,在漫长的进化过程中,人类慢慢学会说话,取代了初始的手势。以致于在即将迈入人工智能的时代,很多人似乎忘记了人类先祖曾用的手势和现代社会依然存在手语族。然而姚登峰却痴迷于用现代科学技术,探索与破解无声世界的手语。手语表面看起来很简单,和一般模仿的姿势没有两样,但一个看似简单的手势其实蕴含着语言学奥秘,必须逐层剥除拆解,里面是一群三维空间组合的动态模型,层层相裹......
穿越阻碍,重塑生命放光华
不畏艰难,科学高峰摘硕果
他的理想就是让残障人接收信息无障碍。在信息科学如此发达的今天,有声语言计算的研究已经成熟并越来越先进。然而手语作为听障者的母语,也是全世界语言学家公认的一种自然语言,其背后的手语计算领域却还是一片空白。他认为自己是特殊高等教育一线工作的教师,感觉自己责无旁贷。为了从事这项研究,他努力学习,提高自己的综合素质,2012年考入清华大学师从江铭虎教授。谈及录取姚登峰攻读博士学位的初衷,江铭虎教授说,上帝推倒“巴别塔”阻碍了人类的交流,我们正在用人工智能重建“巴别塔”。希望在“巴别塔”工程上建一座“桥梁”,即利用手语认知和计算技术,让有声世界的口语族与无声世界的手语族能通过这座“桥梁”自由往来。姚登峰是游历在有声和无声世界的学者,通晓两个世界的语言。目前计算机能够识别理解有声语言的语音和文字,尚不能认知、识别和理解手语,这座“桥梁”尚没连通,只能遥遥相望。这是一个庞大的系统工程,希望姚登峰能为这座“桥梁”贡献力量。
这是一个多学科交叉的研究领域,靠单一的学科知识不可能完成。它涉及语言学、计算机科学、认知神经科学、心理学、统计学等。摆在姚登峰面前的难度很大,需要跨学科摄入知识营养。一方面他找来导师江铭虎编著的《自然语言处理》《脑与语言认知》等书籍,还找到拉克著《认知神经科学—关于心智的生物学(万千心理)》等世界权威的认知神经科学著作以及语言学、心理学的著作和文献。另一方面他还积极参与导师的国家自然科学基金重点项目“汉语认知加工机制与计算模型研究”、国家社会科学基金重大项目“汉语非字面语言大脑加工的神经机制研究”等重大项目。通过一系列的研究工作,姚登峰发现手语在韵律感、流畅度、陈述顺序各方面的表现特点与有声语言不相上下。手语对于空间的灵活运用,犹如电影般的叙事风格,有时让其他语言相形失色,思想可通过各种途径呈现,手语极度繁复,却能明快流畅地进行表达。听障者何以具备惊人的天分,竟然能够运用空间,并以无比巧妙的方式将空间语言化?姚登峰在国内率先开展了一系列手语脑认知实验,使用最尖端的精密仪器——ERP实验研究了中国手语模态对大脑加工的影响,他发现手语是一个很重要的模态,同有声语言一样也是人类对于客观世界感知体验后的产物从而第一个在国际上提出了手语认知架构等,发表了《手语模态对句子加工的影响》《Cognitive computing on Chinese Sign Language perception and comprehension》等论文。
此外,手语并非一串冻结在空间中的姿势组合,会根据时间不断地变换内容,如同音乐和口语,也具有节拍和段落的动态本质。传统的同步化结构模型无法呈现这些顺序性,反倒让这些特性隐晦不明。传统的静态模型不再适用,必须改以精确巧妙、动态描述的方式——类似音乐和舞蹈的形态。根据这些发现,他从认知计算角度认为手语认知计算是从手势的物理特征到语义表征的映射转换过程,即从像素、边等底层特征逐层加工映射成音韵特征,再根据音韵特征加工成低级别的语义单元、再逐步抽象出高级别的语义单元之类的高层特征,最终形成手势语义概念。由此可见,过去30多年的手语识别与计算省略了音韵特征、语义单元这样的中间步骤,直接从底层特征得到语义概念,这样的分析有很多疏漏。他提出基于音系学特征而非视觉特征进行手语理解等,发表了《Sign Segmentation in the Text of Chinese Sign Language》《基于音系学模型的手语理解》等论文。
手语计算,人工智能喜结缘
姚登峰清华博士毕业后,除完成面向听障学生的教学和试验外,先后主持或参与了国家语委重点项目“手语语言处理的智能化理论和技术研究”、教育部人文社会科学研究青年基金“中国手语空间隐喻加工神经机制的ERP研究”等项目。他领导的课题组是国内唯一在语言学领域开展行为语言认知计算的团队(其他团队主要集中在图像处理领域的行为动作识别方向),其以手语为代表的语言认知与计算研究在国内外一直处于领先地位。为了解决手语计算的定义和内涵的基本问题,他在国际上首次定义手语计算的概念,并提出了手语计算的理论,在《计算机学报》上发表了《手语计算30年:回顾与展望》论文,他认为手语计算与传统语言计算的区别在于手语计算以空间计算为主,核心任务是将单信道表征和多信道表征相互转换,而非传统语言计算的根本任务“消歧”。因此空间建模、空间隐喻、空间语义等概念贯穿了行为语言计算的词法、句法、语义和语用等各个阶段。此外还需要解决行为语言的输入输出问题,发展多信道编码的理论,将传统语言计算研究的重点逐步过渡到多信道信息编码之中,带动传统语言与多信道编码理论并轨,形成最优的信道编码系统,从而提高通讯效率。因为科研成绩突出,他破格晋升为副教授;同年,被遴选为硕士生导师。去年,姚登峰被李德毅、李伯虎等院士推荐为北京市卓越青年科学家。
他开展信息无障碍研究的初衷,是希望利用先进的科学技术帮助残障人,方便残障人的生活和学习。这成为他克服一个个困难和挫折的无尽动力,最终在帮助别人的过程中帮助了自己,成就了自己人生的精彩。
坚守初心,理想之树绽新蕾
姚登峰认为手语计算无法借鉴传统语言计算技术,但是互联网时代涌现出的新技术则为手语计算带来了新的机遇,比如体感设备的出现、认知神经科学的兴起等。他信心满满,已经有明确的未来规划,今后几年,姚登峰团队将以助聋机器人为载体,以智能感知和认知计算共性关键技术和应用技术为主攻方向,致力于语言计算提供必要的技术积累以及应用经验。通过不同专业方向的交叉结合开展研究,下一步目标将利用深度学习开发大规模手语语料自动标注技术,解决尚无应用机器学习的手语语料库基础问题,面向智能产品和应用提供手语计算云服务等智能功能,助力人工智能的发展。
姚登峰提到,在人类的历史长河中,手语拥有比传统语言更长的历史,在交叉学科的推动下,手语计算可能会出现实质性突破。这个理由在于中国拥有世界上最丰富的手语资源,不但在手语的手势、句法、语义和语用等层面拥有丰富的语言资源,而且中国手语方言也是世界上最多的,其手语的多样性也为世界所罕见。姚登峰团队也力求在人们的生活领域做出一番成绩,“将来,助聋机器人可应用到医院、法院等专业场合,解决手语翻译缺乏的问题,还可以用于智能家居、老年陪护、儿童陪护、给教师缺少的偏远山区做辅教希望给大家的生活带来方便,提高人们的幸福指数”。
当问及远大目标时,姚登峰表示,将用一生解决手语计算问题,坚守理论高地,力解人工智能没有解决的难题。“我们不会设定长远目标,但我们会扎扎实实努力,老老实实把技术做出来,为人工智能的发展和建设和谐社会贡献一点绵薄之力”。