欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
于繁音之中寻觅清籁

来源:  发布时间:2024-10-09

——记内蒙古大学计算机学院研究员呼德

   郑 心  张锦玉  

  

  “我其实还只是一名年轻的科研者,科研经验还算不上丰富。”这是内蒙古大学计算机学院研究员呼德在采访中多次提及的一句话。在他眼中,虽然在信号处理领域求学耕耘多年,但他手中握着的仍只是一支钝笔,只能约略地捕捉住一点关于声音信号的美,粗浅地描摹出信号与信息处理专业的形与色、风格与气息,努力地在行业痛难点上留下一些自己的痕迹,让自己的学术文章落地实用,化作改变日常生活的一缕馨香。

  然而,事实真的如此吗?主持、参与过多项国家级纵向课题及与华为、蚂蚁金服等企业合作横向课题的呼德,不仅以第一作者、通讯作者在《IEEE/ACM音频、语音和语言处理汇刊》(IEEE/ACM Transactions on AudioSpeech and Language ProcessingTASLP)、《IEEE 无线通信汇刊》(IEEE Transactions on Wireless Communications)等重要学术期刊上发表论文十余篇,担任《数据采集与处理》期刊青年编委、中国计算机学会语音对话与听觉专委会委员、人工智能学会青年工作委员会委员等职务,更重要的是,他对于如今的声音信号处理研究颇具见解:“麦克风网络就像是声音信号处理的‘魔杖’,让机器不仅能够‘听到’,更能‘听懂’。我们要做的不仅仅是对声音的捕捉与过滤,更是一种在繁音中寻觅清籁的过程,让每种声音都能得到清晰的传播。”


“未来的回响”


  虽然今日的呼德与信号处理领域的科研工作密不可分,但其实二者结缘伊始完全是一场阴差阳错。自嘲为“小镇做题家”的他直到高考报志愿时都还只是抱着“学了这门学科就有机会得到国内三大通信公司工作机会”的就业愿景才在2010年的本科志愿填报时选择了通信工程专业,但光阴匆匆,母校辽宁大学在其本科4年中带给他的不仅是日益增长的专业知识,更是“放眼看世界”的开阔视野与“科技报国”的职业责任。而这些都在后期化作了“毕业即就业”与“接续深造”的天平上悄然加重的砝码,致使他最终选择到大连理工大学读研。

  当迈入研究生阶段,在导师殷福亮教授与陈喆教授的谆谆教导下,呼德开始正式接触声音信号处理工作,“两位老师的言传身教使我受益匪浅,影响我到如今”。据呼德回忆,自己在刚步入科研领域时并不算一位细心严谨、思维活跃的“后来者”,因此为老师们带去了不少的“麻烦”,“比如殷老师是一位极其认真负责的导师,我的每篇论文他都要逐句阅读、逐字修改,非常细致,且他的大局观非常令人钦佩;而陈老师的思维很活跃,天马行空间会生出很多新鲜想法,对于知识的执着和渴求也足以令我终身学习”。于是,遇到难题便去找二位教授“谈天说地”的岁月成了呼德求学日子里最温馨美好的记忆,而他也不负前辈所望,在科研的道路上极速成长,还未毕业时就已经参与到与华为合作的相关项目之中。

  或许多数人都经历过这样的困扰:打电话的时候偶尔会在听筒听到自己的声音。之所以会产生这类现象,根源在于“回声消除”算法不够完善,误将回声反传回来。为解决这一难题,呼德在华为西安研究所一扎根就是大半年。“当时我一个人代表我们课题组去为企业降本增效,解决这一问题。难度还是不小的,除了要把回声消除干净,还要将运算量压得极低,这中间的平衡点非常难找。”最困扰时,这些难点都变成了呼德的梦魇,“真的是在睡梦里还在琢磨怎么才能完成目标”。但所幸,结果是可观的。当项目真正落地,在全世界范围内使用的效果还是让呼德再一次体会到了科研者特有的成就感,那是“风雨后的彩虹”“乌云中的阳光”。

  也正是这一次成功的项目经历,让呼德进一步树立了科研的自信,也让他听到了“未来的回响”,“我想,只要我坚持下去,就能把青春梦想扎根在祖国的大地上”。

  2018年年初,站在人生的十字路口,呼德面临着一次重大选择——申博与否?“硕士期间参与的几个项目落地,让我获得了前所未有的成就感”,但“象牙塔”外五光十色的世界又让他心生迫切,想要利用所学去为社会做些什么,直到20184月,美国制裁中兴的噩耗传来。“未来7年内禁止中兴通讯向美国企业购买敏感产品”的禁令在当时严重危及着中兴通讯的生存,也伤害了大量中兴通讯合作伙伴的利益。舆论场上物议沸然,而国人的愤怒、不安与扼腕,呼德都懂。在感同身受之下,他燃起了在所在课题组读博、继续科研的斗志,“探索我们自己的算法,最大程度地替代进口,力图使发展不被他人所左右”是他为自己立下的第一条职业座右铭,且延续至今。


“智慧的听者”


  毕业后的呼德几乎没有犹豫就选择回到了家乡,“回报桑梓一直是我的愿望”,而正如他所言,科研者只有把心灵贴在热爱的大地上,想他人之所想,才能聆听到人类文明最深处的需求,真正解决困扰大众生活的关键性问题。

  而呼德所致力解决的首个问题,便是如何突破常规麦克风阵列信号处理的技术瓶颈。麦克风阵列信号处理利用声音的时间、空间信息完成许多语音处理任务,如声源定位与跟踪、声源分离、声源数目估计及语音增强等,近20年来,此技术发展很快,取得了重要进展,但也逐渐暴露出了一些不足:例如阵列拓扑结构通常是固定且规则的,如均匀线阵、圆形阵列等,安装后不能随意移动;空间覆盖率较低,当声源距麦克风阵列较远时,其采集到的声音信号质量较差,从而影响后续的语音处理性能;且容错性差,当阵列中一个或数个麦克风失效时,整个阵列就会出现瘫痪等情况。针对这些不足,麦克风网络信号处理技术应运而生。

  近年来,出现了以智能手机、平板电脑、智能音箱为代表的一批智能设备,并在日常工作与生活中不断普及,这些设备通常配有各自的数据处理单元、无线通信接口、音频输入输出接口,因此十分易于构成分布式麦克风网络。相比于传统的单麦克风或麦克风阵列,分布式麦克风网络具有灵活的拓扑结构、大范围的空间覆盖率及分布式数据处理能力,在视频会议系统、人机交互系统等领域具有广泛应用前景。但是通常,在此类网络中,各节点大多是随机放置,其位置通常未知;且由于制造工艺等因素,各节点的真实采样率与标称值会有所差异,影响其语音处理算法性能。因此,需要用几何校准方法对节点位置进行估计,用时钟校准方法来抑制采样率失配问题。然而普遍的研究都聚焦于集中式计算方法,也就是说需要额外的中心处理单元和较大的通信带宽,这难以满足应用中的校准需求。为此,呼德申报了国家自然科学基金青年项目,引进分布式信号处理理论,探索新的分布式校准方法,使麦克风网络的各节点并行地、协作地完成几何与时钟校准任务。

  立足于蒙古语智能信息处理国家地方联合工程研究中心这一如日方升的平台之上,多项国家级课题进展顺利,已经产出了多篇学术文章。“目前,我们正在进一步探索让技术落地应用,走进更多人生活的方式。我对于未来还是比较有信心的。”呼德说。

  如果有一天,站在未来的门槛上回望,呼德只希望自己的成果可以为社会生活带来一些便捷,正如他常说的那样:“让每一个声音、每一句话都能被准确无误地捕捉与理解,无论是在繁忙的都市角落,还是在遥远的自然风光中。”而带着这份理想,他将继续前行,徜徉在由声音信号编织的梦想国度里,续写科技的动人诗篇。
分享到:
杂志
本期封面

2024年9月

上一期 下一期