发布时间:2013-12-24
一、大数据将是信息技术领域的下一波浪潮
继第二代互联网(Web 2.0)和云计算之后,大数据接踵而至,有可能成为信息技术界的下一个重大热点。第二代互联网将人和物实现联网,云计算是向在线计算基础设施转变,大数据则通过对传统计算技术无法分析的大量数字信息进行存储和处理来创造价值。据美国思科公司估计,到2015年全球互联网流量将达到4.8ZB,这表明大数据面临的挑战和机遇近在眼前。
全球计算机产生的数据量呈几何级数增长,有种种原因。首先,由于电子商务和积分卡计划,零售商开始建立庞大的数据库,记录客户活动。物流、金融服务、医疗保健和许多其他行业中的组织也正在收集越来越多的数据,希望从中获得附加值。社交媒体创造了大量的数字资料,从中有可能会挖掘出有价值的信息。此外,由于视觉识别技术的提高,计算机从静止图像和视频中收集有用信息和数据关系,开始成为可能。随着越来越多的智能对象联网,不断扩大的物联网也在产生大规模的数据。最后,快速基因组测序技术、纳米技术、合成生物学和气候模拟等领域的科技进步正开始产生并依赖大量的数据,其数据量之大,直到最近还几乎是无法想象的。
收集和存储大数据,并从中创造价值,引起了许多技术上和概念上的挑战,超出了传统的计算能力。
数据量大既是大数据的最大挑战,也是其最大的机遇。这是因为,大量数字信息的存储、相互关联和处理为广泛的活动提供了巨大的可能性,包括客户行为预测、疾病诊断、医疗保健服务计划制订和气候建模。然而,传统的计算解决方案越来越难以胜任此类任务。
大数据的速度也引发了一些重要问题。首先,大多数组织的数据流入速度正日益超出其信息技术系统的存储和处理能力。此外,用户越来越希望向他们实时传递流媒体数据,并且是传输到移动设备上。在线视频、定位、增强现实技术和许多其他应用现在依赖大量的高速数据流。对许多公司来说,传输高速数据流是相当大的挑战。
大数据的另一个突出特点是数据类型多样。数据中心只需要处理文档、金融交易、股票记录、人事档案的日子一去不复返。今天,图片、音频、视频、三维模型、复杂的模拟和定位数据被存入大量的企业数据仓库。这些大数据源中,许多几乎完全是非结构化的,因而不易分类,更不用说用传统的计算技术去处理。这一切意味着,大数据实际上是凌乱的数据,在开展任何有意义的分析之前,需要下大力气进行复杂的预处理和数据清理。
由于上述挑战,许多组织别无选择,只能忽略或快速排出大量可能非常有价值的信息。它们收集的很大一部分数据都未经处理,并且大量有价值的数据像废气一般被排出去。例如,目前医院在手术治疗过程中拍摄的几乎所有视频数据在几周内删除。然而,对这些图像流进行智能挖掘,既可改善个体患者的治疗效果,也可改进更广泛的医疗保健计划。
二、大数据需要新的技术解决方案
由于其数量、速度和类型提出的种种问题,大数据需要新的技术解决方案。目前名为Hadoop的Apache开源项目在这一领域处于领先地位。它提供了首个可行的大数据分析平台。大数据领域的绝大多数开拓者已经在使用Hadoop系统。例如,LinkedIn公司是一家面向商业客户的社交网络服务网站,目前使用Hadoop系统每周产生超过1000亿条个性化建议。
目前,除了原有的信息技术系统,许多大数据业务的开拓者在部署Hadoop系统,以便让这些系统把新老数据结合起来。然而,随着时间的推移,Hadoop系统可能注定要取代许多传统的数据仓库和关系型数据库技术,成为处理多种数据的主导平台。
许多组织不可能有足够的资源和专业知识去实施自己的Hadoop解决方案。幸运的是,它们不必这样做,因为已经可以利用云计算解决方案。亚马逊、谷歌和网域存储公司(NetApp)等供应商提供云计算解决方案,能够让各种规模的组织开始受益于大数据处理的潜能。利用云计算处理大量的公共数据也会起到很好的效果。例如,亚马逊公司已经存储了许多公共数据集,包括美国和日本的人口普查数据,以及基因组学和其他医学与科学的许多大数据存储库。
展望未来,随着人工智能的进步和新型计算机处理能力变得可用,大数据将突飞猛进。例如,未来量子计算很可能极大地提高大数据的处理能力。
三、驾驭大数据将具有深远意义
尽管挖掘TB级、PB级甚至EB级的数据在技术上具有挑战性,但却提供了重大机遇。事实上,无需多年,大数据技术和方法很可能让几乎每一条以往存储的数字信息产生某种额外的、派生的价值。正如IBM公司解释的那样,“大数据是一个机会,可以在新型数据中寻找新的见地,可以使业务更加敏捷,并可以回答以前回答不了的问题”。
更具体地说,大数据可以提高分析的洞察力,可以创造以前不可能有的新产品和新服务。谷歌、亚马逊和脸谱(Facebook)等业界先锋已经以实例证明,大数据如何能够提供高度个性化的搜索结果、广告和产品建议。随着时间的推移,大数据还有可能帮助农民准确地预测恶劣天气和作物歉收。政府则有可能使用大数据来预测社会动乱或传染病,并制定应对计划。
认识到大数据的潜力,2012年3月,美国政府宣布向大数据项目投入2亿美元,以极大地改善所需技术和工具,实现海量数据的存取和组织,并取得发现。白宫科技政策办公室甚至将此称为自互联网兴起以来最重要的公共技术投资之一,其主要目标是“加快科学和工程探索的步伐”。
正如美国网域存储公司NetApp解释的那样,从根本上来说,大数据的发展涉及创造新的信息技术系统,这种系统不是仅用于存储数据的仓库,更是一些紧密关联的系统。长久以来,我们已经习惯于将数据输入计算机系统,取得相对较少的回报。但是,通过对越来越多的大数据集进行合并分析,我们可能从计算机系统中获得更多的回报。
例如,通过利用大数据技术对每天12000GB的推文(用户在社交网站Twitter上发表的消息)开展实时情感分析,以了解全世界对事物的看法,已经成为可能。但这仅是开始,因为大数据可提供各种可能性,可能会增加和完善各类组织为客户提供的服务。
麦肯锡全球研究院在最近的一份大数据报告中估计,通过利用大数据,美国医疗保健行业可提高效率和质量,能每年节约3000亿美元,使医疗保健支出削减8%左右。据其估计,在整个欧洲,利用大数据每年至少可节约1490亿欧元的政府行政成本。从更广泛的意义上说,制造业企业将大数据贯穿整个研发、工程设计和生产过程,可能会显著减少产品上市时间,并提高产品质量。
大数据无疑会产生形形色色的具有数据跟踪能力的组织,令人畏惧,但是大数据的积极影响很可能大于其负面影响。例如,大数据可能会提高城市的交通管理,并可能实现更智能地运行电力基础设施,从而促进可持续发展。
实际上,通过利用大数据,我们可以开始按照人们的真正需求,实现资源的分配和世界的运转,而不是盲目地猜测人们的未来需求。换言之,对人类活动的认识越深,我们就越不需要生产人们实际上并不需要的产品,并把它们运至零售网点。
(作者:刘润生,中国科学技术信息研究所助理研究员,科技参考研究室负责人,主要从事科技战略与政策研究。)
- 资讯
-
-
《科学中国人》杂志社记者证2024年换证人员公示
根据《国家新闻出版署关于开展2024年第七版新闻记者证全国统一换发...
-
“一猪两用-食用猪和医用猪”专场报道
2024年7月,正值夏季火热时节,各界专家齐聚科技创新之城——深圳,参加...
-
“2024前沿科学创新大会”在深圳召开
科技改变世界,创新引领未来! 2024年7月12—14日,“2024前沿科学创新...
-
当年累得坐马桶就睡着的科学家,成为今年国家最高科学技术奖得主
里程碑 笔者第一次见到薛其坤院士是在2019年年初,他领导团队完成的“量...
-
45岁用一篇论文解百年难题,85岁他站上国家最高科技领奖台
从跋山涉水扛着机器测量,到航空遥感再到卫星遥感,测绘遥感学科领域随...
-
这些科学家和标志性成果获得国家科技奖励!了解奖项分布与获奖特点→
2023年度国家科学技术奖今天揭晓。一大批贡献卓越的科学家和标志性成果...
-
《科学中国人》杂志社记者证2024年换证人员公示