云计算
    作者:涂兰敬

    如何破除大数据坚冰?PaaS平台有妙招

         [ 中关村在线 原创 ] 暂无评论

        PaaS层对数据库的新要求

        所谓大数据,即数据集的尺寸大、数据生成速度快、结构化和非结构化数据类型多、数据集蕴含的价值大。云计算的PaaS层对数据库技术提出了新的要求,主要表现在以下几个方面:

        第一,   海量数据处理。对类似搜索引擎和电信运营商级的经营分析系统这样大型的应用而言,需要能够处理PB级的数据,同时应对百万级的流量。

        第二,   大规模集群管理。分布式应用可以更加简单地部署、应用和管理。

        第三,   低延迟读写速度。快速的响应速度能够极大地提高用户的满意度。

        第四,   建设及运营成本。云计算应用的基本要求是希望在硬件成本、软件成本以及人力成本方面都有大幅度的降低。

         近年来,大数据所蕴含的巨大价值被人们所认识并开发,Google、Facebook、Twitter等基于大数据分析的互联网应用在业界取得巨大成功,分布式处理系统Hadoop在构建大数据处理平台领域应用普及,已经成为事实标准。然而,当前的Hadoop系统主要基于MapReduce时应用的发展,比如实时搜索、实时交易系统、实时欺骗分析、实时监控、社交网络等,都需要一个高度可扩展的流式计算解决方案。因此,2011年以来,流式成为业界应用的热点技术,涌现了众多成功的应用和开源系统实现,如yahoo!的S4系统、Twitter采用的Storm系统。

        同时,为加快分布式处理系统的响应速度,2012年以来,内存计算成为业界应用的热点技术。内存计算是指CPU直接从内存,而不是硬盘上读取数据,并进行计算、分析,是对传统的分布式数据处理方式的一种加速。内存计算作为未来数据计算和管理的支撑技术之一,在商务智能分析方面拥有巨大的应用潜力。

        开源社区推出Memcached,它是一个开源的高性能、分布式的内存对象缓存系统,用于动态Web应用以减轻数据库负载。当前,Memcached等基于分布式内存的数据存储系统在Facebook等企业已经取得成功应用。

        在大数据的存储方面,弱化一致性的全球分布式数据库系统和突出性能的NoSQL数据库活动量广泛应用。

        为了保障数据库操作的完整性和安全性,传统数据库理论将用户改变数据库状态的一组操作定义为一个事务,并规定一个支持数据库事务的数据库关系系统(DataBase Mangement System,DBMS)必须保障一个事务操作的四项属性:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持续性(Durability)。

        这四大属性简称ACID属性,与英文中“酸”的单词字母相同。然而,当今的大型互联网公司,如Amazon、Google和Yahoo!都为全世界的用户提供服务,面对如此大规模的用户群体和用户地理分布范围,单一的集中式数据库架构是不现实的。因此,更好地响应世界各地用户的访问请求,Amazon等公司多采用全球地理分布的多数据库联邦架构,并将数据在多个数据库之间冗余备份,这极大地提升了用户体验。

        然而,2000年,美国加州伯克利大学计算机学院的Brewer教授提出了著名的CAP理论,明确指出在数据库系统中,数据的一致性(Consistency)、可用性(Availability)和数据分区容错(Partition Tolerance)属性不能同时满足,最多只能满足两项属性。CAP理论在2002年被Seth Gilbert和Nancy Lynch等人通过严谨的计算理论方法证明是正确的。

        对于Amazon和Yahoo!所采用的分布式数据库系统而言,数据分区容错属性是天然属性,因而数据被分区存储而不可预计的网络故障必然会导致数据分区错误。因此,依据CAP理论,对于地理分布的数据库架构中,如果需要提供高可用性(Availability),就必须放松对数据库事务的一致性(Consistency)。

        因此,学术界提出了对于地理分布的数据库架构的事务支持的新要求,即需要满足三大属性:基本可用性(Basically Available),即在任何情况下基本功能可用;柔性事物(Soft state),即允许冗余的数据状态在某段时间内不同步;最终一致性(Eventual Consistency),即保障冗余的数据状态能够最终同步。

        上述三大属性简称BASE,与英文中“碱”的单词字母相同。显而易见,BASE属性与ACID属性是相反的。不同于ACID模型,BASE模型通过牺牲强一致性,获得基本可用性和柔性状态保障了系统的可用性和可靠性,并能够使得数据的副本之间最终达成一致。BASE模型在早期的地理分布式数据库系统中取得成功应用,典型系统如Amazon的Dynamo和Yahoo!的PNUTS。

    提示:支持键盘“← →”键翻页
    本文导航

    关注排行榜

    产品品牌

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询