热点:

    与数据同行 智能湖仓如何让“数据驱动业务”更上一层楼?

      [  中关村在线 原创  ]   作者:十一

           最近几年来,我们已经看到了整个世界颠覆性的变化:从互联网到人工智能再到大数据,这些变化正以一种肉眼可见的速度悄然改变着我们的日常生活,毫无疑问的是,数据的价值正在被飞速放大,从各种角度影响着整个社会。IDC的研究数指出,到2025年,全球数据量将达到163ZB。如此海量的数据造成的直接后果就是从数据中获取价值越来越困难,正因此,对数据进行更有深度的价值挖掘已经从“做不做”的问题升级成为“怎么做”的问题。

           在大数据平台上,“怎么做”的问题被具体分为两大方法论:其一是用于业务分析、报告,从多个来源抽取和标准化的数据仓库,它可以为管理分析和业务决策提供统一的数据支持,但对非结构化的数据处理能力较弱;其二则是由数据存储架构+数据处理工具组成的解决方案数据湖,它可以存放所有类型的数据,由于计算和存储是分离的,开发成本低,相对更好部署,在近年来也得到了越来越多的青睐。

           虽然方法有了,但对于挖掘数据价值而言,挑战仍然存在:一是数据总量的增加也随之带来了数据类型的多样性,结构化、半结构化和非结构化的数据都在快速增长。二是使用场景变得更加复杂,从云上数仓再到分布式计算的大数据处理框架,不同的场景使得技术也需要更加定制化和个性化,第三则是如何针对实时数据进行快速决策

           数据仓库也好,数据湖也好,要解决的问题不外乎数据的存储、调用、处理、分析与应用,上个段落中所述的挑战,事实上都是由需求侧带来的,对于一家企业而言,在业务发展的不同阶段,对数据的形态、灵活性、优化、治理以及部署成本都在随之改变,正因此,从某种意义上来讲,数据湖与数据仓库并不是替代关系,而是互为补充、相辅相成的关系,所以也就需要完成内部的统一,从而满足数据访问使用的灵活性与高性能表现

           对于亚马逊云科技来说,其智能湖仓就是其坚持“各自性能最佳”方向的最好注解,根据亚马逊云科技大中华区云服务产品部总经理顾凡的看法,对于客户来讲,最终关心的是能不能最终完成业务需求与应用,能不能实现数据融合与智能,工具的选择反而并不在他们的考虑范围之内,智能湖仓这样的架构,就是为了让用户获得二者融合价值而存在的,而并非花费时间在选择“用什么”的问题上。

           亚马逊云科技的智能湖仓架构并非全新的事物,而是在几年来通过对数据服务的创新升级,以及对用户需求的深刻洞察,迭代到了又一个新的高度,这背后是亚马逊云科技对整个云计算发展的洞见及商业实践的深厚经验,仅在中国区,在过去半年就已新增将近40项的数据及分析服务特性,包括Amazon Glue 2.0,Amazon Athena 2.0,Amazon Lake formation以及Amazon SageMaker等等。

           智能湖仓的产生,本质上是为了解决用户的现实挑战,而整个智能湖仓架构的设计,同样遵循了亚马逊云科技所有数据分析类产品的三大策略:

           其一是为云优化。无论是AmazonAurora还是AmazonRedshift,无一不是云原生的数仓,这主要是由于云原生数仓在弹性方面有着独特的优势,因此也为Redshift带来了很好的线性扩展,因此云原生也是亚马逊云科技开发数据分析服务的第一个原则,这同样适用智能湖仓的开发过程。

           其二是专门构建。所谓专门构建,就是针对数据分析的具体场景或者使用者的不同,构建不一样的分析引擎,像是AmazonRedshift、AmazonAthena、AmazonEMR、AmazonElasticsearch Service等应用,都是为不同的数据分析场景而构建的。

           其三是完全托管。这也是贯穿于亚马逊云科技在云计算方面的始终不变的重要原则,在顾凡看来,他们更希望用户将有限的精力集中在业务代码而非仓的管理、湖的管理、湖的构建、仓的构建和数据移动上,这是云厂商应该做的事情。

           在这样的设计思路之下,智能湖仓架构就有了相对清晰的定义:拥有专门构建的数据分析服务,而且能做到数据、湖、仓和专门构建的数据服务的无缝数据移动,统一管理、低成本,它不仅实现了湖和仓的打通,更是由湖仓专门构建数据服务连接形成的一个整体

           通过将亚马逊云科技的数据服务无缝集成,打通数据湖和数据仓库之间数据移动和访问,智能湖仓可以实现数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动,为用户带来连续且统一的整体,最大程度提高其数据价值。从而满足各种实际业务场景下的不同需求和业务创新。

        围绕智能湖仓,亚马逊云科技也提供了各种数据分析服务,包括Amazon DMS、Amazon Snowball、Amazon Kinesi这样的底层数据移动及实时流动的数据服务;在Amazon S3上针对分析专门优化过的存储层;针对不同的分析场景而生的Amazon Redshift、Amazon EMR、Amazon Athena、Amazon Kinesis data Analytics、Amazon Elasticsearch这样的分析引擎;以及QuickSight这样的商业智能BI。多维度且全面的服务类型为用户带来了极高的可用性。

           在顾凡看来,一个好的数据架构应该是为了未来十年而打造的,灵活开放和成本可控的,而且要具备可以打破数据孤岛、提供专门构建的服务和极致性能、实现数据的融合治理、具备敏捷分析和智能化应用的特征,具体反映在智能湖仓上,则是以下五个特点:

           灵活扩展、安全可靠

           作为数据湖的基础组件,AmazonS3的可用性、可扩展性,以及大容量的、根据用户使用习惯自动分层的数据存储能力,是确保整个智能湖仓架构有效应用的前提,同时也意味着数据湖的成本在扩展性可用性很高的情况下,依然能保持最佳的安全性、合规性、审计能力及成本可控性。

           专门构建、极致性能

           与亚马逊云科技一贯以来打造产品的思路相同,智能湖仓同样遵循专门构建这一原则。“并不存在一个技术在功能上、性能上、扩展性上都能实现最佳,我们强调专门构建,为用户提供适合的工具”顾凡表示。具体来看,智能湖仓拥有AmazonAthena这样的查询工具,也有针对大量日志数据实现监控应用的AmazonElasticsearch Service,也有为流数据处理而生的AmazonKinesis……围绕AmazonS3数据湖,亚马逊云科技为用户提供了多样的数据分析的服务集合,使得用户可以更加有针对性为不同的需求挑选不同应用,实现业务的突破。

           数据融合、统一治理

           数据在数据湖、数据仓库以及围绕着数据湖周边构建的所有的这些专用的数据存储,SQL数据库,Non-SQL数据库,甚至更多不同的分析引擎中实现无缝移动对智能湖仓而言是一个难点。总的来看,数据移动的方式分为由外向内的数据入湖,以及由内向外的数据出湖和数据的环湖移动三种,“这三个数据的移动路径,如果做一个比喻的话就是一支篮球队,在进攻的时候,无非是球从内线传到外线或者是从球从外线传到内线,或者是从外线导几下突然投一个三分”,顾凡举了个生动的例子。

           在智能湖仓架构中,提供了像Amazon Glue、Amazon Redshift数据湖导出、Amazon Redshift联邦查询这样的功能实现ETL提取转换加载,还是可视化数据准备,再结合Amazon Redshift Spectrum,使得一个复杂查询就可以实现跨湖、仓、数据库实现数据查询,同时也能通过Amazon Lake Formation简化数据的安全管理。

           TCL就是一个最好的例子,由于其产品线众多,使得其业务与业务之间,部门与部门之间的数据孤岛问题十分严重,通过建立Amazon S3数据湖,可以将IoT设备日志、APP埋点数据以及售后数据全部注入其中,再结合Amazon EMR进行ETL处理和分析,并将分析过的数据加载到Amazon Redshift进行BI分析。整个过程中,TCL通过Amazon Redshift Spectrum进行了大量的跨湖和跨仓的查询,节省了成本,把以前需要几天才能进行的BI报表分析节省到了一两个小时之内。

           敏捷分析、深度智能

           在亚马逊云科技眼里,对数据的处理要分为三个阶段,首先是把数据基础设施现代化,采用云上的云原生数据库,然后采用合适的数据分析工具让数据产生价值,最后通过机器学习更好地辅助、驱动决策。亚马逊云科技将数据、数据分析服务与机器学习服务无缝集成,可以为企业提供更智能的服务,机器学习服务Amazon SageMaker、个性化推荐服务Amazon Personalize都可以帮助企业更好地挖掘数据智能。

           拥抱开源、开放共赢

           开放作为亚马逊云科技一直以来秉持的核心思路,代表着亚马逊云科技对社会的责任感,亚马逊云科技“智能湖仓”架构中的关键组件如Amazon EMR、Amazon Elasticserach Service、Amazon MSK的核心都基于开源代码,接口与开源完全兼容,无需改变任何代码就可以实现迁移,也兼容主流的管理工具。OpenSearch基于开放的Apache 2.0授权,其代码完全开放,对用户而言,只需花费极少的成本就可以实现向云端的迁移。

           从2006年以来,亚马逊云科技便不断致力于在云中为各种规模的公司提供技术服务平台,十余年的磨砺自然也是硕果累累:凭借着技术创新、灵活的数据管理、云上安全和优秀的全球商业实践,亚马逊云科技在《2020年中国数据管理解决方案市场报告》中被评为中国数据管理解决方案领导者。这背后正是亚马逊云科技十几年如一日对云计算技术的耕耘。

           在当下这个社会,数据有如“油田”,要想充分挖掘其价值,首先要进行开采,也就是数据的存储,然后进行“精炼”即数据的挖掘和分析,最终实现数据创造商业价值。在数据湖与数据仓库这样一个“鱼与熊掌”的问题面前,是选择取舍,还是希望获得两种能力的融合,答案自是不必多说。

           而立足于实际行业应用与客户需求的亚马逊云科技,正是基于长久以来对云计算市场的深刻洞察,为大数据开发者以及行业用户带来了智能湖仓这样一个融合架构,使得他们能够通过构建更强大的业务平台为企业减轻运营压力,提高工作效率,让企业IT为业务创造更多新的可能。

    本文属于原创文章,如若转载,请注明来源:与数据同行 智能湖仓如何让“数据驱动业务”更上一层楼?https://cloud.zol.com.cn/772/7728008.html

    cloud.zol.com.cn true https://cloud.zol.com.cn/772/7728008.html report 8150    最近几年来,我们已经看到了整个世界颠覆性的变化:从互联网到人工智能再到大数据,这些变化正以一种肉眼可见的速度悄然改变着我们的日常生活,毫无疑问的是,数据的价值正在被飞速放大,从各种角度影响着整个社会。IDC的研究数指出,到2025年,全球数...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    周关注排行榜
    • 产品
    • 品牌
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错