微软公司聘请了Hortonworks(一个专门提供Hadoop咨询的Yahoo! Spinoff)以帮助实施Windows Azure的Apache Hadoop或Azure的Hadoop(HoA)。自2011年12月14日以来,HoA已进入只接受邀请加入的社区技术预演阶段(CTP或私人测试)。
在加入Hadoop的行列之前,微软公司依靠由微软研究院开发的图形数据库Dryad和一个高性能计算附件(LINQ至HPC)来进行大数据分析处理。Azure CTP的Hadoop提供了一个从小型(有4TB存储容量的四计算节点)到超大(16TB的32节点)的预定义Hadoop集群选择,简化了MapReduce操作。加入CTP预发布计算节点或存储是不收取费用的。
图4
微软公司提供了四个Hadoop/MapReduce项目示例:计算圆周率л的值、执行Terasort和WordCount基准,以及演示如何使用C#语言编写一个供流数据使用的MapReduce程序。
微软公司还提供了新的JavaScript运行库以便于使JavaScript成为Hadoop的一流编程语言。这意味着JavaScript程序员可以使用JavaScript编写MapReduce程序,并从网络浏览器运行这些任务程序,从而减少Hadoop/MapReduce条目的障碍。CTP还包括了一个用于Excel的Hive附件,它可让用户与Hadoop中的数据进行交互。用户可以从附件发出Hive查询以便于在熟悉的Excel用户界面中分析Hadoop的非结构化数据。预览版还包括了一个Hive ODBC驱动器,它可实现Hadoop与其他微软商业智能工具的集成。在近期关于Windows Azure的Apache Hadoop服务帖子中,我解释了如何运行Terasort基准,即四个MapReduce任务示例之一(图4)。
HoA本应计划在2012年中Windows Azure“春潮”中实现新功能和改进功能的升级。此次升级将使HoA团队为CTP吸引更多的测试人员,并可能包括内部或私有云计算以及混合云计算实施所使用Windows Server 2008 R2的Apache Hadoop。在2011年底和2012年初,微软公司一直在积极努力以降低Windows Azure计算实例和存储的费用;与Amazon弹性MapReduce相比,Azure发布版本的Hadoop定价可能也具有一定的竞争力。
大数据对Hadoop和MapReduce意味着更多
我同意Forrester Research的分析师James Kobielus在博客中发表的博文,“在大数据的世界中,Hadoop/MapReduce将是一个关键的发展框架,但并不是唯一的一个。”微软公司还为.NET框架提供了代号为“Cloud Numerics”的CTP,它允许开发运行团队在Windows Azure中对大型分布式数据集执行数字密集型计算。
微软研究院还公布了在Windows Azure中实施Excel云计算数据分析及其“Daytona”项目MapReduce迭代实施的源代码。但是有迹象表明,在可预见的未来,开源Apache Hadoop及其相关子项目将主宰云计算托管应用。
提供最自动化Hadoop、MapReduce和Hive实施的PaaS供应商将获得大数据科学家和数据分析从业者最密切的关注。微软公司专为商业智能(BI)应用配置Excel前端,使该公司的大数据产品在日益增长自助服务BI用户中游刃有余。目前,Amazon和微软公司提供了最完整和自动化的云计算Hadoop大数据分析服务。