第一个大的问题就是软件和数据处理能力。由于软件的复杂性强和巨大的问题,互联网巨大规模的应用和数据的不确定性,我们过去软件在封闭世界研究的数理逻辑的研究仍然有效,但是遇到更加开放、动态的问题。比如说数据模型和处理,给另一个海量数据做输入,如何做输出,并能找到问题的答案。过去的算法就是看它能不能计算,来决定计算机能不能处理。计算好和坏。现在按照传统计算复杂性,我们看所有的大数据都算不了。
所以,怎么在有效的时间内找出它的近似算法和最逼近的算法,这是对数据新的规模当中新的科学问题。传统的商业数据库为什么做不了?第一,它用授权收费,价格极高,开源数据库的维护将会比买一个授权还要贵。我们看过去管理传统数据,一个TB一万美元,Hadoop系统一个TB500美金,大部分情况下用到什么内容?传统的数据库就是Scarle up,性能的提高,对CPU、存储等进行不断的扩展,这是传统的并行计算的模型。现在的大数据分散在互联网,分布式的、动态的增加低成本的计算和服务能力。
因此,这样的方式也是一个新的挑战,同时对于软件,什么样的模型能适应它的发展。我们知道Hadoop,图形处理,一种基本的编程模式远远超越于我们过去的程序设计语言,超越于我们网站的设计。而在新的方式当中,它对于最低的延迟和最简单的任务操作开始提出新的问题,要求的挑战出现。同时新的特征出现,因为它是分布式剧增节点的内容,因为它的可扩展性,以提高他的生产效率,吞吐率,通过新的容错和可靠性的方式维护系统,互联网的系统永远没有短板的原理,每一个节点都是最高点。
作为Fault tolerance方式来讲,已经有新的变化。作为这个领域,我们看到模型到软件都有变化,同时在数据科学,过去以手工分析,以商业数据为基本的方式,在大科学数据下,已经开始显现的越来越苍白,原因就是如果过去数据是手工农业社会的话,现在进入工业化的社会。工业化社会基本的数学物理特征就是统计物理学、实验物理学和我们过去的随机过程。过去计算机依赖的,以及有限条件下的数理统计,代数系统建立新的处理的方式,是变成更重要的一种内容。因此,对于我们处理这类数据的工具也发生了很大的变化。
昨天和陆奇先生,也在讨论,现在在很多重要的企业当中,统计科学、实验物理学成为大家最重要的手段,新药的发现,人的习惯,阅读的分析,商业的模式,都从这里大量统一分析出现。我以前也提到过,过去对50万个单词学习拼写解答,进行语音、文字或者句子的理解,现在50万,500万,500亿的句组,再用过去的方式就不适合了,而是大规模的、新的、工业化的数据为基础的处理能力。要求我们对新的数据科学理论,提出对算法、计算方式,以及新的搜索引擎都有新的挑战。这对学术界是大的机遇。
以前的文件系统、数据互联网、基于不同角度的搜索,从细节到整体,从局部到系统的新的方式,都带来新的机会。这样的内容还带来一个问题,虽然密度低、价值低,但是数据质量仍然是持续的问题,怎么解决数据质量,新的Qulity,跟过去的数据处理都不同。
因此,作为新的大数据下,软件和数据处理能力,成为最重要的,也是未来科学研究对于其他学科当中一种发展的手段,第二个挑战,就是关于资源和共享管理,如此众多的资源要解决以及不断支撑新的需求的Scarleout的模式下,怎样把存储、数据能够作为公共资源的管理,以解决不同类型中的应用,这里的问题有很多。大家知道,网站的环境,或者有一些环境都影响这个系统生存和扩展规模的能力。
那么,这样的能力已经不仅影响到我们一般的应用,对能源、数据的管理,作为价值也是极高的情况,所以它的消耗能源也变成一个重要的问题。那么,这里一个最重要的问题,就是未来的资源管理更向系统,或者是否存在单一的垂直管理系统,以及所谓的统一的操作系统,也变成了现在争夺的最重要的问题。如何管好数据和管好资源,成为重要的内容。
这种方式的解决可能又创造互联网新的方式,就是数据与服务运营商的出现,因为用户是数据的创造者,服务软件提供各类的服务,一切能想象到或者数字化都可以作为服务提供。所以数据与服务运营商将会成为电信运营商的模式,重要而且会快速发展的内容。那么,这种模式的出现,可能会对我们互联网,移动互联网的发展也会有重要的内容,解决多样性和发展处理存储的问题。
第三个问题,就是数据处理的可信能力,解决云端的一体化的安全监控,系统的恢复,以及再往后发展的高可靠性的能力。对于这样一类问题,应该说,随着技术的发展,一个安全的问题,可信的问题,是和重大系统应用是相伴而生的,但是它确实是一个重要的问题。不光是没有价值的大量数据出现,而且隐私数据也非常重要。
因此,在大数据时代当中,我觉得随着数据的分布性,异构性和动态快速变化性,加上个人拥有的质性,可计算的问题,可管理的问题,可信任的问题,共同组成了在大数据时代的新的三类和我们需要有新的手段,可能会关注到的三个典型的科学问题。
软件发展这么多年,几十年,计算机是以数据处理为中心的。所有的事情的诞生都是以数据处理为核心。但是,进入到今天,已经超越我们过去简单的数据,如果我们看80年代出现的软件成为商品,90年代创造出的第二次变革,是简单的、基本的、重要的信息服务业。在现在来看,就会进入了一个新的发展,数据创造了价值,而不是一个简单的应用或者信息的堆积。
因此以数据为中心下会给我们带来机会。但是从过去IT发展来看,虽然应用有一段时间,但是技术的突破和新的应用载体窗口时间并不是很长。因此理论和技术上的创新和持续的发展,会给我们带来机会。但,同时应用模式的创新更重要,特别是IT的创新,实际上在不断的验证Case法则,Hadoop就是简单编程模型,就是保持它的简洁和最有效,就是我们IT领域。
因此在这个领域当中,年轻的学生,年轻的人,在这个领域,你们的脑子里还没有被跑马圈地,还有很大的空间去创造,因此这也是最有机会的发展内容。