欢迎您登录科学中国人官方网站!!
新浪微博|网站地图|联系我们
大数据时代:机遇与挑战并存 挖掘与融合共生

来源:  发布时间:2017-07-28

——记清华大学数据科学研究院院长俞士纶
  
本刊记者  马丽娜  黄 健

  
  
  清早起床,从打开微信的那一刻起,你就在不知不觉地产生数据,不论你是在发表图文动态还是在发表评论意见。你用GPS定位,用百度地图搜索乘车路线,用微信或支付宝付款,用应用软件记录一天走了多少步、消耗了多少卡路里其实,“我们每个人都在很努力地产生数据。”对于大数据的产生,俞士纶教授作了形象的解读,“不只是公司或企业在产生数据,我们每个人也都在产生数据。”
  如今,异构、海量、多源的“大数据”已经稳登“头条”,似乎每个人都看到了这一颠覆性技术的价值。大数据时代的到来,可以改变很多细节,它几乎让所有行业都受到影响,它更改变着我们的思维方式和做事方法。如何利用数据科学思维,找出有意义的数据,并融合不同的数据,将它们运用到实际工作和生活中去?作为国际数据挖掘和数据管理领域的顶尖学者,俞士纶教授正致力于这些问题的解决,他说:“应该让数据为生产生活提供更好的服务,让它们成为真正有价值的数据。”
  
机遇与挑战
  2014年12月,俞士纶受聘担任清华大学数据科学研究院院长。谈起与清华的缘分还真是不浅。解放前,他的父亲是从清华大学毕业的高材生,二战后赴美国留学工作,而就在这期间,俞士纶出生了。解放后,他随父亲回到台湾,在台湾国立台湾大学读完了本科,后又回到美国攻读了硕士和博士学位。
  20世纪70年代,计算机在美国已经崭露头角,这也让俞士纶较早地接触到了世界最前沿的计算机领域。这时,具有敏锐眼光的他,更看到了计算机以后将“有着不可估量的发展空间。”于是,他下定决心要在这一领域干下去。在美国IBM Watson研究中心多年的工作中,俞士纶创建了世界知名的数据挖掘及数据管理部。作为国际数据库和数据挖掘等领域的先驱之一,他在专业领域做出的奠基性工作更是不胜枚举,至今已在国际知名期刊上发表相关学术论文970余篇,专利300余项。
  俞士纶说,进入大数据时代,“有很多数据可以被收集和产生,我们有很多传感器,其实今天我们的手机上也有很多传感器可以传输我们的位置在哪里,或者我们行动的速度;我们每天要上网,我们上网的记录都会被记录下来,我们购物的时候也会留下很多的数据。”俞士纶又举例:“从前只有新闻记者可以发表意见,而现在我们每个人都可以发表意见。在一家饭店吃完饭后,你可以发表感受和意见,什么东西好吃什么东西不好吃,比如早已影响大众决策的‘美团网’和‘大众点评网’。而在以前,只有美食家才能给饭店评星,现在人人都可以发表意见。正是因为这些,我们就有了大量数据的产生。”
  面对大数据时代的到来,俞士纶认为:“这是一个很好的机遇。大数据是一种颠覆性技术,利用好数据,研究好数据,做好数据产业,将会有很多新兴产业诞生。”但同时,“这也将面临更大的挑战。数据越多带来的困难越大,如何整合数据使其发挥价值并得到广泛应用,这是一个不小的挑战。”作为清华大学数据科学研究院院长,俞士纶表示该院创建的宗旨,正是为了“协调数据相关的资源、知识和经验共享,促进跨领域合作研究;发展数据科学思维、学科,研发相关技术;培养社会需要的数据科学人才;创造大数据的经济价值:新产业、新企业、新产品、新服务、新的解决问题的方法和决策机制。”
  大数据之所以被称为是一种颠覆性的技术,“因为它不仅会影响新兴行业,还会影响到几乎所有行业。”俞士纶介绍道:“上一次我们有一个颠覆性技术的出现,就是互联网。受互联网冲击最大的就是传统零售业,买书可以去亚马逊不用再去实体书店;买手机或者电视机,只要知道产品的型号,就可以到电商那里去买,这对传统的零售商来说是最大的颠覆。” 
  现今,旅游业越来越繁盛。而这背后,离不开网络和大数据。“从前,在互联网兴起之前,如果要去国外旅游,多半要经过中介商去帮你买飞机票或预订酒店。而现在就不需要了,你可以直接从航空公司的网站或者酒店的网站上订购。所以,现在在美国很少能看到旅游中介了,整个行业正在慢慢消失。”除此之外,“你还可以直接去网上买股票,看电影也不用去购买光碟或者不用去电影院,在网上就可以直接实现。”
  根据一个人的既往病史和对药物的反应情况,大数据还可以应用在健康医疗方面,实现“对症下药”,这就是“精准医疗”。不仅在医疗上,在社会科学方面,大数据也发挥着极大作用。俞士纶举了一个例子:“我们知道社会科学都喜欢做问卷调查,你设计一个问卷然后挨个去找访问对象,也许你要找100个或者1000个人才可以得到答案。而现在社交网络上有很多资讯,我们可以直接在网络上采集资料,比如美国大选曾经也是使用问卷调查的方式,来预测谁会当选。现在做精准分析,大部分人会直接从社交网络上收集资料,因为这些资料数量可观、实时性强,且更具有代表性。” 
  滴滴打车和优步已经做得风生水起。直接用手机下载应用软件,就可以实现方便快捷出行。“而这对传统出租车行业来说将是一个很大的挑战,如果不调整运营模式,就很可能被淘汰。”可见,大数据即将改写整个时代。谁掌握了数据,谁就掌握了主动权,大数据产业将是名副其实的“钻石矿”。
  
挖掘与融合
  大数据不仅量大,产生的速度也很快,五花八门的数据源源不断。我们为什么要关心这些大量被产生的数据?不言而喻,“这些数据背后蕴藏着很高的价值”。而要想在这些海量数据中,挖掘出有价值的数据,并不是一件易事,“必须要知道什么是有质量的数据。”
  “零散的数据很难体现个体的习惯或特征,只有整合零散分布的各种数据,才能得出规律,挖掘出价值。真正要做一些正确的预测,就要把所有的数据合在一起。”整合是关键,而如何实现整合或融合呢?俞士纶直言,各种不同的数据源要融合在一起,“这将是一个不小的挑战,因为不同数据源的形式不同,想要合并在一起并不容易。”
  对一个公司来说,希望能够得到它的顾客资讯,对顾客了解越多就越能够为顾客提供更好的服务。因此,收集顾客的数据对公司而言是一种竞争的优势,阿里巴巴拥有着庞大的顾客群,而它收集的数据就不是一个小的电子商务公司可以相比的。“我们要有创新的思维和与时俱进的理念,把有价值的数据进行充分地提炼。政府的政策、企业的资金、人才的引进这些都是影响大数据产业发展的关键因素。虽然到处都是数据,但这并不表示每个人都可以拿到数据。因为有些数据只有一些大公司才有,阿里巴巴和腾讯虽有大量的数据,但这些数据不会共享,因为这对它们来说是竞争的优势。”俞士纶说,“我们要发展大数据,一个关键点是政府能够把一些公共数据开放出来,让大家可以用,但核心问题还是整合。”
  那么,整合后的数据就能立即产生效益吗?显然不是。拿气象预测来说,只单单做预测是根本无法实现盈利的,但如果应用在货物运输、农业等具体领域,天气预测这些数据将可以辅助决策,提供更多便利,进而成为真正有价值的数据。可见,只有应用到实际生活中的数据才能真正发挥价值。
  所以,“我们首先要了解什么是有意义的数据,然后如何把这些数据融合在一起去更好地提供服务。”融合,是大数据时代一个重要的科学思维和技术手段,但我们要做的是找到有意义的数据,并融合不同的数据,将数据运用在具体的事例上。这也是俞士纶多年研究大数据的初衷,“让大数据助力实现中国梦,促进经济良性健康发展,提高人民生活水平。”
  人人都在讲“这是一个大众创业、万众创新的时代。”而作为大数据研究者的俞士纶更期待的是,“我们能够把公共数据公开化,这样就可以解决一般人没有数据的情况,所有人只要有兴趣,都可以参与大数据的研究与发展。”   
  但同时,俞士纶也提到了一个现实问题,“我们在讲大数据的时候也不能不提到隐私问题,数据越多这个问题就越严重,虽然每个数据源都能被保护起来,但如果合在一起,有时反而会造成一些隐私泄漏,所以这个问题需要继续研究。”
  
“关系推荐”:大数据在社交网络中的应用
  既然数据像万花筒一样是“五花八门”的,就会产生一个不可避免的问题,“不是所有的数据都可以直接融合在一起”,俞士纶说,“数据处理不当反而会把有用的数据扭曲了。把不同类型的数据有效融合起来,我们要能够从中提取出有价值的信息才行。”而这个过程,也就上升为了“应用”。
  社交网络是一个典型的庞大的网络系统,美国的Facebook就有数十亿个网络节点,而中国的网络节点数量更多。俞士纶介绍到,大家不断地在社交网络里发表意见,把照片或者视频分享上去,这样就产生了各种各样的数据,并且有各种不同形态的信息,如文本、图像、链接、社区等。“社交网络上的信息虽然非常多,但凑在一起规模巨大、价值密度稀疏”。怎么从中获取有用的价值呢?这是一个亟待解决的问题。
  俞士纶说,必须要弄清楚两个问题:一是不同类型的数据如何融合在一起;二是如何处理垃圾数据。
  俞士纶讲了一个例子,比如美国,一般大家最熟悉的社交网络是Facebook,但Facebook并不是唯一的社交网络,Twitter、YouTube、Foursquare和LinkedIn用得也很多。但Twitter只发一些短信息,YouTube可以将自己拍的视频短片放上去,Foursquare主要是面向用户地理位置信息的社交网站,可以反应用户对地点的偏好,而LinkedIn,基本上所有人会把自己工作经历的信息放到这上面。如果你需要招聘职员,就可以到LinkedIn上发现哪一个人适合你的需求。“因为各个社交网络的特色和关注点不同,通常一个人会加入多个不同的社交网络。可以说每一个社交网络个体在不同的社交网络上的特点是不一样的。如果我们可以把多个社交网络融合在一起,就可以得到更多的资讯,更好得了解个体的特性。如果你想发展新的社交网络,也可以从已有的其他社交网络中获取一些资料,迅速扩大自己的用户群体。”俞士纶说,但是如何把这些社交网络融合在一起,这是一个巨大的挑战,必须关注两个问题:
  一是用户参加不同的社交网络所使用的用户名往往不同,所以很难知道在社交网络1和社交网络2中的两个账户是否对应着同一个用户。
  二是即使知道在社交网络1中的A用户和社交网络2中的B用户对应的是同一个用户,但是如何筛选社交网络2里的相关信息更好地辅助社交网络1。
  社交网络的目的是把人联在一起,所以在社交网络里我们通常做的事情就是朋友推荐,这和电子商务里商品推荐的功能类似。在一个社交网络上,最重要的是社交,也就是挖掘出谁和谁是朋友。任何一个社交网络总是要推荐更多的朋友给你。但是怎么去做推荐呢?通常社交网络有各种各样的信息,我们可以利用共有的信息去做推荐,例如共同的朋友、共同的兴趣、相似的地理位置和相似的事件发生时间等。值得强调的是,我们不但可以从单个社交网络上去寻找这些共有的信息,还可以通过关联多个社交网络来寻找。
  为什么要关联不同的社交网络呢?原因如下:如果要预测用户A和用户B是不是朋友,首先要看用户A的朋友和用户B的朋友之间有没有交集。如果用户A和用户B之间有很多共同的朋友,我们就觉得这两个人很可能会成为朋友,进而可以做推荐。反之,如果没有交集,我们很难给出推测,尤其是这个网络的连接关系不够紧密时,便很可能找不到用户A和用户B之间的联系。但是,如果我们知道用户A在另一个社交网络里的对应账户,我们就可以知道该用户在另一个社交网络里的朋友,对我们推荐他们两个是否做朋友会很有帮助。例如,在社交网络1里用户C和用户A连接,在社交网络2里用户B和用户A连接,那么可以推测出用户B和用户C他们两个是朋友的朋友。
  如何关联不同的社交网络来辅助朋友推荐呢?可以简单的概述为:如果我们想把两个社交网络关联在一起,例如Foursquare社交网络和Twitter社交网络,通常需要发现用户的锚点链接。有一些Foursquare账户会关联Twitter账户,我们很容易就可以将这些锚点关联在一起,但大多数Foursquare账户并没有关联Twitter账户,这就需要我们用新的匹配技术去关联更多未知的锚点。基于此,挖掘的锚点链接就可以辅助我们更好地做社交网络的朋友推荐。
  此外,俞士纶说,“如果我们把这些数据源有效地融合起来,我们的预测就会比用单一数据源做得更精准。”但是,海量数据源中往往会掺杂着“噪音”和无效数据,如何有效地处理社交网络里的垃圾信息,这也是数据融合中必须弄清楚的问题,而当前研究的难点和热点正是如何辨别垃圾信息。
  大数据时代,人人都看到了数据的资产价值,它也变得越来越重要。社交网络中存在着大量有价值的数据,俞士纶说:“我们要从这里面试着把金子提炼出来”。如果能够从大数据中提炼出有价值的信息,这必将给我们带来一些新的产业契机。大数据是一种颠覆性的技术,传统产业如果不重视数据,很有可能就会被淘汰。同时大数据也带给了我们很多新的机遇,一些新的公司可能会利用大数据势如破竹、雨后春笋般地发展起来。大数据给每个人都带来了机遇,但从数据里面找出金子不是一件简单的事情,这需要有理论和技术的支撑。
  总之,大数据一定会对不同的产业,对我们每个人的生活产生巨大的影响。只有抓住机遇,迎接挑战,充分利用数据科学思维和前沿技术,才能让大数据实现更多价值,发挥更大作用。机遇与挑战并存,挖掘与融合共生。在俞士纶看来这是大数据时代的“新常态”。
  
  
专家简介:
  俞士纶,现为美国伊利诺伊大学芝加哥分校(UIC)特聘主任教授、美国计算机学会(ACM)及美国电气电子工程师学会(IEEE)院士(Fellow),清华大学特聘教授,清华大学数据科学研究院院长。本科毕业于国立台湾大学,获斯坦福大学电气工程硕士、博士学位,纽约大学工商管理学位。国际数据库和数据挖掘等领域的先驱之一,作为国际数据挖掘和数据管理领域的顶尖学者,在专业领域做出了诸多奠基性工作。在美国IBM Watson研究中心工作多年,创建了世界知名的数据挖掘及数据管理部。
  曾担任多个著名国际期刊主编、副主编以及多个顶级国际学术会议的程序委员会主席和委员,在国际著名学术期刊与重要国际学术会议(如SIGKDD、SIGMOD,WWW、AAAI等)上发表论文970余篇,专利300余项。先后获2013年美国电气电子工程师学会(IEEE)计算机学会技术成就奖,2013年ICDM国际学术会议十年最有影响论文奖,2014年EDBT国际学术会议久经考验奖(Test of Time Award),2016年SIGKDD国际学术会议创新奖(Innovation Award)等多个奖项。
  
 

分享到:
杂志
本期封面

2024年3月

上一期 下一期