欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
周建设:探索语言智能奥秘的领军人

来源:  发布时间:2018-04-04

——记中国语言智能研究中心主任周建设
  
本刊记者  夏 炎

 

 

      人工智能无疑是当前最大的科技热点。从算法到芯片,从提升到应用,人工智能进入全面爆发的新周期。科技发展对人类生产力的解放进程起着举足轻重的促进作用。世界已经从体力解放时期、合力协作时期、效力提升时期逐步发展到智力集成时期。智力集成时期,人工智能将成为引领世界未来的战略性技术。
  语言智能是人工智能核心领域。人工智能的最高目标就是实现人机交互。人工智能的迅猛发展和普遍应用,必将促进语言智能大幅度代替人类自然语言实时进行人机交流。诚如微软亚洲研究院(MSRA)副院长周明所说:“语言智能是人工智能皇冠上的一颗明珠,语言智能如果能实现突破,跟它同属认知智能的知识和推理就会得到长足的发展,就能推动整个人工智能体系,有更多的场景可以落地。”
  当前,语言智能作为人工智能的重要组成部分及人机交互的重要基础和手段,已取得了令人瞩目的成就,并对科技、教育产生了极大的促进和引领作用。研究语言智能,发展语言智能,利用语言智能,是当今人工智能发展和科技腾飞的内在要求和神圣使命。
  如何促进语言智能与教育深度融合,有效促进我国教育精准扶贫和教育均衡发展,备受社会各界瞩目。为此,《科学中国人》杂志采访了教育部国家语言文字工作委员会科研基地中国语言智能研究中心主任、教授周建设。
  
零点突破:揭示语言三大属性

 

  20世纪80年代,中国学术界,尤其是语言学和哲学界,开展了一场关于语言与思维关系的大讨论。讨论的焦点在于论证思维过程能不能离开语言。讨论的结论集中在两个方面:一种观点认为思维离不开语言,一种认为思维可以离开语言。周建设则从人类思维发展与语言形成过程两个路向对思维与语言的关系进行了探索。探索的问题集中在人类凭借什么元素进行思维。1984年,周建设在《思维活动元素剖析》一文中提出,思维活动依赖意象和词项两类元素。任何正常人的大脑中都有的、在思维过程中都得运用的两种思维材料是词项元素和意象元素。
  词项的基本语义就是词项的意象。意象的基本成分有“形象”“性质”“关系”三种,因此词项的具体内容也就相应地有三个方面:对象、性质、关系。词项所反映的“对象”是指被思维主体——人脑认识的“实体”。实体类型有二:一是不依人的主观意志为转移的真实存在的实物;二是凭主观想象虚构出来的,直至构想时为止现实世界尚未发现的,或不可能存在的“实物”。词项所反映的性质指实体具有的属性,它既可以是实体内部“隐含”的性质,又可以是实体表现于外部的行为方式、技巧功能等。词项反映的关系是实体与实体、实体与性质乃至性质与性质之间的联系。
  相对独立的词项在构造语块和语句时具有特定的吸附关系。词项的吸附关系是客观事物的自身性质决定的。只是依据话语表达目标不同才形成不同的语块和不同句式的语句。从形式上看,语言的吸附性质表现在三个方面:一是词项的线性排列,二是词项以范畴身份进入词类,三是以语块单元为成分单位进入语句。线性特征是语句排列的最基本的物理特性,表达思想的语言符号不能以立体的或者别的形式出现。范畴特征是词项载体内容的规约整合性。无限数量的词项,就认知而言,必须依据反映需要,归入一定的认知范围,以便分门别类认知和传达事物。语块单元是词项指称事物事态的相对自足的语言单位,以语块为单元进入语句的成分格式,形成语句,体现语句结构与思维结构的同构性。交流思想的基本单位是语句,语句的组织单位是成分,语句成分承担着特定的表达责任,主语成分表示陈述对象,因此,主语语块是事物指称词项,宾语成分负责配合谓语反映主语的性质或者关系,宾语语块往往也是指称对象或者属性的,只是它通常是从属于主语的范畴,由主语意义或者外延所管辖。谓语,严格说来,它是和宾语形成统一体,共同陈述主语。这样,如果将语句分为主语和谓语两个部分,就是被陈述与陈述两部分,指称对象和对象属性两部分。词项在语句中的吸附性分层次获得,首先是成分语块的吸附,其次是成分语块之间的吸附。
  语言符号的计算关系,首先要理解语言的神经运作机制,了解“语言认知路向”。语言认知路向,基于人脑生理结构与功能,根据大脑内部不同的区域具有处理不同语言信息的功能。计算与认知具有同构关系,语言研究应将人脑的神经的语言处理运行机制与计算机处理语言的逻辑图式结合起来。
  
追问科学:探索语言智能奥秘

 

  语言智能的另一个重要基础是机器(计算机)依靠强大的计算能力对人类语言进行构拟并模仿人类使用语言进行沟通交流。要实现人机交互,就要在语言计算研究方面进行发力,在自然语言信息处理,即自然语言理解与生成方面取得重大突破。
  语言计算研究是面向自然语言信息处理需求的研究。自然语言信息处理包括自然语言理解与生成。关于自然语言理解,俞士汶先生曾在《语言随计算齐飞》中提出:“假如计算机能够理解我们说的话或写下来的文章,让机器人听我们的,帮我们做家务,当我们的外语翻译,那该多好! ”(《当代语言学》2009年第2期)我们可以称之为“语言理解的目标”。围绕语言理解的目标,可以建立语言理解模型。
  关于自然语言生成,参照俞先生的说法,周建设提出:“假如计算机能够说出我们想说的话,写出我们想写的文章,让机器代表我们做演讲,搞教育,帮助人类增长知识,提高素养,那该多好!”我们可以称之为“语言生成(表达)的目标”。围绕语言生成(表达)的目标,可以建立语言生成模型。
  语言理解与语言表达相辅相成。理解是生成的基础,只有计算机理解了给定的语言符号信息,才能以形式化的方式或自然话语的方式将语言表达出来。自然语言理解与表达的技术设计基于两种知识:专家分析的规则依据和计算机的统计学依据。计算机统计可以节省大量人力投入,但统计工作并不能穷尽语言规律,很多语言现象还需要通过人工分析。面向自然语言处理的人工分析,语言学家具有较大优势。其工作核心是建立语言知识本体资源库,包括词汇语义网、句法语义网等。任何词项都承载语义信息,词汇语义网就是将词项语义信息按照一定的原则提取形成的系统。该系统描述事物间的关系,而且包含语义信息,有利于计算机的自动处理。词汇语义网可以描述词位与它的涵义的同形关系、多义关系、同义关系和上下位关系,也描述词项的语义特征等。词汇语义网以本体知识为基础。作为本体知识的初始概念可以划分为事物、时间、空间、数量、行为状态和属性等类型。
  词汇语义范畴十分丰富,每一个概念都需要人工进行详细描述。从目前的ONTOL-MT、WordNet、HNC概念层次网络、HowNet、现代汉语语义词典等来看,仍然具有巨大的研究空间需要语言学家参与。
  语句生成是词项之间的关联,词项关联需要经过语句构造的神经操作。语句神经操作的基础材料是标注事态情景要素的词项,即心理词典。根据心理词典选择或指派语句谓词和论元,在此基础上根据表达意图选择句子构式,最后将具体言词代入句法槽位;超句法的陈述、疑问、祈使、感叹等命题态度通过语气配置给句子。
  “语言生成模型”由两个子系统构成:一是词项—语句语义网络系统,二是语句-语篇语义网络系统。词项—语句语义网络系统的基本任务是实现从词到句子的自动生成。语句自动生成分为两个阶段:内容决定阶段和表示层生成阶段。语句—语篇语义网络系统主要指自然语言的语篇生成系统。该系统基于词项—语句语义网络系统生成原始语句之后,根据主题需要,通过范畴约束,生成连续语句,直到形成一个表达相对完整的事件语义的语篇。
  语篇生成系统的构建难度很大。该系统试图以机器代替人表达鲜活的自然语言,也就是代人说话或称人机对话。因此,该系统的设计与建设需要具备更丰富的条件,如事件情景词汇语义资源网,事件情景谓词—论元资源网络,话语意图,范畴约束条件等。
  语篇生成系统构建过程中,保证前提语句产生合适的新语句的事实依据是事件情景和话语意图,理论依据是前提语句的衍含语义与词项语义网络相关词项语义关联的逻辑性,以及逻辑语义蕴涵推理的规则。无论词汇—语句语义系统网络还是语句—语篇语义网络构建都不能离开语言规律和神经认知规律。这些都是需要语言学家和逻辑学家甚至认知心理学家等投入重要力量进行深入研究的重要课题。
  语言生成的客观基础是情景语义网络。世界情景由诸多要素构成,进而形成情景网络。情景网络的任何一个要素,都可以是人脑反映的客观对象,被反映的情景网络元素成为人脑中的意象,情景意象由词项标记成为词项语义。情景网络对应于语言范畴便是概念语义网络。语句语义具有语义延伸的潜在功能,这就是句子的语义蕴涵。新语句的产生,有赖于前提语句的知识衍含。知识越多,衍生的语义就越多。新语句语义的产生是前提语句既存概念之间语义关系的关联。思维对既有概念语义的关联必须与概念指称对象的客观事态关联相对应,相一致。
  知识越多,机器发现语言的关联就越多,组合新的语言结构的可能性就越大。这种语句生成规律既符合事件语言学原理,又符合逻辑语义学原理。人工智能的自然语言信息处理中语句-语篇生成就是依据语言学理(或统计规则)和逻辑蕴涵经过计算工程编程后的机器实现。机器实现能力越强,机器代替人的语言表达能力就越强,如从事小说创作、按照主题进行大会发言,而不只是局限在狭义的专家系统。
  
研发产品:助力教育均衡发展

 

  人工智能是计算机模拟人脑功能的科学技术。语言,作为沟通交流最重要的媒介,是人工智能领域的核心基础之一。语言智能如果能实现突破,跟它同属认知智能的知识和推理就会得到长足的发展,就能推动整个人工智能体系,有更多的场景可以落地。
  周建设指出:语言智能是以人类语言活动元素、活动机制、表现形式为模仿对象,生成、传递、理解、翻译、评测语言的信息处理科学。研究语言智能形成的理论,就是语言智能科学理论。语言智能科学理论构成的体系,形成语言智能学科。
  语言智能研究涉及理论研究、软件设计以及产品开发三大方面。重点领域有五:一是语音识别与语音合成。语音识别和语音合成是实现人机语音通信、建立有听说能力的口语系统所必需的两项关键技术。二是语言智能写作。智能写作是利用人工智能技术,由机器创造性地生成自然语言的过程。三是语言智能批改。20世纪末,基于统计和人工智能的英语作文自动批改技术在自动评改系统中得到应用。四是机器翻译。机器翻译运用计算机程序,快速实现大规模的一对一、一对多、多对一和多对多等不同语言之间的互译。五是智能问答。智能问答系统是应用信息检索和自然语言处理技术自动分析用户提问、辨识用户意图并提供精准答案的系统。
  周建设领导的中国语言智能研究中心在语言智能评测,语言智能写作领域的研究取得了世界领先的水平。主导开发的英语作文批改系统,以全国大中小学学生英语作文为评测对象,截至2018年1月已批改英语作文3.95亿篇,服务10000多所学校,1800万学生,其中高校覆盖率达90%以上。2016年5月发布了自主研发的汉语智能写作系统。该系统能够自动收集大数据文档,并进行整理、提取、过滤、筛选、组装,最后生成相关文章,可以完成NBA体育赛事新闻、运动会开幕词和高校学术活动总结等受限语体写作。2016年12月11日,推出了自主研制的汉语作文智能测评系统和汉语写作教学综合智能训练系统。汉语作文智能测评系统具有“打分、评级、纠错、范例”四大功能,坚持“规则+统计”的交互式作文自动批改和反馈,针对国内学生汉语作文、海外华裔学生汉语作文和留学生汉语作文进行自动批改。汉语写作教学综合智能训练系统高度重视写作教学过程中的师生交互,重视写作过程的管理、监测和指导。
  科学研究、理论技术和产品的创新,归根结底都是要服务国家战略,服务人民群众。中国语言智能研究中心积极响应时代召唤,紧紧围绕我国人工智能战略和教育信息化、智能化的重大需求,以“创新、交叉、协同、一流”为目标,引领和带动一大批国内外顶级专家和一流科研机构,从理论、技术、资源与产品等4个方面发力,开展跨学科、跨领域的协同创新,并形成智能教育产品、企业、工程和产业,不断促进语言智能和智能教育迅速发展,不断提升教育教学效率,促进教育全面持续快速均衡发展。
  目前,智能教育产品的使用学校累计达到6万所,个人用户超过1.2亿用户。智能教育产品的推广应用,大幅度提高了教学效率,大大减少教师工作量,能够精准服务学生个性化学习需要,提高学习效果。有用户表示,中国语言智能研究中心的智能教育产品,是破解我国教育均衡难题、实现教育精准扶贫的妙方。
  为充分利用人工智能的成果,促进智能教育研发,加快智能教育产品落地,让智能教育产品惠及更广大区域,助力教育精准扶贫、教育均衡发展和教育质量全面提升,中国语言智能研究中心全面深入贯彻落实党中央国务院和教育部等有关部委关于推进教育事业和人工智能发展的指示精神,提出并推动实施了智能教育与教育均衡发展百县示范建设工程。“百县工程”既是落实国务院《新一代人工智能发展规划》(国发〔2017〕35号)和教育部《教育信息化“十三五”规划》(教技〔2016〕2号)的重要举措,也是饱含家国情怀的利国利民的重大工程,拟用3年时间,实现“百县示范、千县试点、万校应用、亿人受益”的目标。
  与此同时,周建设倡导召开首届中国智能教育大会,开启中国智能教育新时代,助力教育精准扶贫,促进教育事业全面均衡优质高效发展,为实现中华民族伟大复兴的中国梦贡献力量。
    
专家简介:  


  周建设,博士、教授、博士生导师。教育部国家语委科研基地中国语言智能研究中心主任,中国人工智能学会语言智能专业委员会主任委员,国家社科基金重大项目首席专家,首都师范大学原副校长。
  主要从事形式句法与逻辑语义、数理逻辑与语言智能研究。率先提出人工智能范畴的“语言智能”概念,首创语言智能学科,建立国内首个语言智能硕士博士点,创建中国人工智能学会语言智能专业委员会。提出基于认知与计算的语言生成理论,构建了全信息语言智能评测模型和篇章主题聚合度计算模型。
  积极探索人工智能与教育的深度融合,组建顶尖团队,研发智能教育系列产品;倡导召开首届中国智能教育大会,开启中国智能教育新时代;发起实施智能教育百县示范建设工程,有效推动了国家教育精准扶贫与教育的均衡发展。
  主持国家重大项目、重点项目、北京市高精尖创新项目等多项,出版专著6部,发表学术论文130余篇,获专利和软件著作权30余项。获北京市科学技术奖二等奖、北京市哲学社会科学优秀成果奖二等奖、北京市优秀教学成果奖一等奖、国家级教学成果奖二等奖。

分享到:

杂志
本期封面

2024年2月

上一期 下一期