欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
何清:挖掘数据 开启新知

来源:  发布时间:2013-12-23

本刊记者 黄 健


  
  在计算机信息技术飞速发展的今天,人们已经对计算机能够完成人类给的各种指令,存取数据习以为常,但您知道吗?计算机也可以“挖掘”发现数据背后的知识!
  在大数据的时代环境下,计算机是可以智能到发现数据背后蕴藏的规律的,它能够发现新的知识,创造新的价值,借助计算机让数据自己说话。事实上,大数据挖掘已经上升到国家新型信息化产业的战略高度。
  在中国科学院计算技术研究所智能信息处理重点实验室,有一支机器学习与数据挖掘团队,它是国内开展机器学习与数据挖掘最早的团队之一。自2000年,何清博士接过团队接力棒以来,一直致力于这个方向的科研和开发工作。
  何清,2000年进入中科院计算所智能信息处理重点实验室从事博士后研究工作。一开始主要从事机器学习和数据挖掘算法的研究,研究提出了基于超曲面的一系列机器学习与数据挖掘算法。随着研究的深入,他逐渐意识到数据挖掘作为一种基于人工智能的决策支持过程,必将随着人类社会信息量的爆炸式增长而发挥越来越重要的作用,而我国在海量数据挖掘方面的成果当时还十分薄弱。作为一名科研工作者,他决心在这方面探索突破,以填补国内在该领域的空白。这成为他带领机器学习与数据挖掘团队不懈奋斗的最大动力。
  “有志者,事竟成。”带着这样的志气,何清带领他的团队成员奏响了一曲斗志昂扬、攻坚克难的奋斗强音:近年来,他们先后在国际重要SCI期刊发表论文32篇,顶级会议近20篇,EI收录51篇。承担并圆满完成国家重点基础项目(“973”计划)3项;承担完成的“863”项目3项获得好评;承担完成或参加完成的国家自然科学基金项目5项被评为优或特优。获得北京市科学技术奖1项。课题组已经取得国家发明专利8项,软件开发著作权8项。在模糊信息处理中的信息扩展和聚类问题的研究和基于超曲面的海量数据分类法(HSC)以及一套基于此的理论体系和算法方面均有创新性突破。目前团队在研课题共有6项,均进展顺利,特别是在多领域、多任务Web数据分析与挖掘、迁移学习分类问题上取得突破性进展。团队在Web内容管理、分析和挖掘上走在国内研究同行的前列,现正致力于人口数据和信息安全数据的大数据分析挖掘,有望取得创新性成果。
  团队自2008年以来,一直坚持在并行数据挖掘领域开展系列研究,在这个方向也取得了国内领先的研究成果,相关成果发表在CloudCom09等领域内重要的国际期刊和会议中,其中并行K-Means算法论文单篇他引87次。在大数据时代,特别是在基于云计算的数据分析和挖掘是大数据分析的主流技术方面,何清及其团队一直站在研究领域前沿,立志可以对大数据、云计算技术的应用起到引航作用。
  值得一提的是,何清及其团队一直十分重视科研成果的产业化。2008年底,他们研发的基于云计算的大数据挖掘系统PDMiner并实际用于中国移动TB级数据的挖掘,实现了高性能、低成本的并行数据挖掘。该系统为我国在该领域做出了开创性的贡献。通过与中国移动研究院、国家电网等企业和单位的合作,致力将研究成果落地,实际应用在通信、军队、电力、环保、信息安全、互联网、物联网、智慧城市乃至更多的数据密集型行业被成功应用。近期他们希望借助商业的力量,将所拥有的研究成果更好更快地提供给社会,在为国家做出贡献。
  

分享到:
杂志
本期封面

2024年10月

上一期 下一期