【大师讲堂】应对科学探索中大数据的挑战
大数据,一个日益崛起的领域,从科学、工程、医药、医疗到金融、商业、社会。它预测了2012年美国总统大选的结果,也被Google利用搜索关键词预测 禽流感的散布。它正一步一步悄然改变着你我的生活,同样的,它也面临着诸多困难。基于此,11月30号晚,香港中文大学常务副校长、伟伦计算器科学与工程 学讲座教授华云生教授在道远楼一楼校董会议室里给香港中文大学(深圳)的部分师生带来了一场科学、严谨的讲座,为大家分析了存在于大数据之中的机遇与挑战。
讲座开始,华云生教授为大家介绍了何为大数据。Volume(大量)、Velocity(高速)、Variety(多样)、Value(价 值)Veracity(真实性)被视为大数据的五V特征,这些特征也就决定了大数据因数据规模过大而无法存储或获取,有关算法复杂性的传统理论可能不再有 效,从而无法使用常规方法进行处理的特性。以此为展开点,华教授就其与科学工程领域中应用的关系提出大数据研究中面临的挑战。大数据与其说是一种技术,毋 宁说是一种普遍存在的现象,我们需要的,是对“数据”这座宝藏的挖掘。要想真正处理大数据,我们的思维方式必须转变。欲实现大数据的成功应用,我们需要采 用适当的方法,实现自动从大数据提取新知识而无需对数据进行集中存储和维护的目标。大数据的获得与处理过程中困难重重,应用的多样性、缺乏理论基础、难以 应付实时数据等挑战的存在,使得数据的“挖掘”过程尤其重要,我们需要做的,是寻求使其成为真正“颠覆性技术”的方法。
华教授提到,要充分发挥大数据在科学发现中的作用,我们需要解决数据复杂性、计算复杂性和系统复杂性等诸多问题。特别要注意的是云计算将成为支撑大数据应 用的平台。应用大数据的核心是找到核心数据,而这恰是难点所在。如把数据比喻为蕴藏能量的煤矿,不同煤炭的价值、挖掘成本又不一样。与此类似,大数据并不 在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键,而现代社会的发展,意味 着一个以数据为核心竞争力的时代已经到来,大数据更将成为引领时代的新动力。
讲座末,华云生教授悉心回答了同学与其他教授的提问,在交流之中加深了对这次讲座的理解。当一扇崭新的学科领域之门展现在同学们的面前,新的时代应召着新的人才,相信这一期的大师讲堂,定将使与会师生受益匪浅。
图:杨子晨
文:汪津成