1我为什么反对有些企业的"去IOE"
过去的一年间,高调的阿里巴巴赚足了眼球。
从"双十一"191亿元的巨额交易额,到闪电般地拆分成七家公司、25个分支机构,再到在金融业的肆意扩张,和移动互联网领域的大举收购……马云构建的阿里生态圈,正在从城邦成长为"帝国"。
事实上,在阿里巴巴从城邦到"帝国"的这一系列高调动作的背后,实则都与一位低调的人有关,他就是王坚。
阿里巴巴首席技术官 王坚
2008年,王坚加盟阿里巴巴成为集团首席架构师,即现在的首席技术官。这位前微软亚洲研究院常务副院长被马云定位为:将帮助阿里巴巴集团建立世界级的技术团队,并负责集团技术架构以及基础技术平台搭建。
在加入阿里后,带着技术基因和学者风范的王坚就在阿里巴巴集团提出了被称为"去IOE"(在IT建设过程中,去除IBM小型机、Oracle数据库及EMC存储设备)的想法,并开始把云计算的本质,植入阿里IT基因。
这些工作将阿里IT发展策略从依赖"商业软件"、到拥抱"开源软件"最终演变为拥有强大的自主技术和云计算服务能力,更为2009年"阿里云计算有限公司"的成立埋下伏笔。2011年7月28日,阿里云自主研发的"飞天"云计算平台开始以公共云计算服务的方式对外提供云计算商业服务。灵活的IT支撑起阿里集团的业务闪变,并在淘宝、支付宝等核心业务之外,勾勒出了新的极具潜力的盈利模式--云服务。
2012年10月,阿里云开发者大会上,王坚曾宣称:"阿里云能在24个月内实现收支平衡。"10个月过去了,在接受《商业价值》采访时,他依然坚持这句承诺。作为阿里巴巴在IT领域的触角,"阿里云"的未来充满了想象。
与此同时,王坚最初提出的"去IOE"的想法,一天都没有停止过。甚至,阿里巴巴的"去IOE"运动引发了大型企业IT底层建设的新思潮,也使IBM、Oracle等国外大型厂商在中国倍感转型压力。
"平台、金融和数据"是马云承诺阿里集团的三大业务,阿里集团的IT格局支撑起这三大业务的发展;"阿里云"则成为阿里巴巴延伸向更多中小企业的重要IT触手。带着对阿里巴巴IT布局的探究,《商业价值》出版人刘湘明在杭州阿里云总部与阿里巴巴首席技术官、阿里云总裁王坚展开对话,ITValue将以连载的形式通过四篇文章完整展现。
王坚:我为什么反对有些企业的"去IOE"运动?
在阿里巴巴首席技术官、阿里云总裁王坚的办公室有一面墙摆满了书,《丰乳肥臀》、《史蒂夫·乔布斯传》、《分布式系统原理与范型》这三本被摆放在右侧第三排上。
用这三本书来概括王坚似乎也很合适。工程心理学出身的王坚,用魔幻现实主义色彩带领着团队,所有的阿里云产品在内部被冠以传统神话中神的名字:阿里云的核心技术引擎被命名为"飞天",一位亲水的神仙;协同调度系统称为"女娲";"分布式文件系统"叫做盘古等等
从2008年11月加盟阿里集团开始,王坚在集团首席技术官和阿里云总裁角色之间不断转换。办公室里整墙贴满"云OS"效果图,与团队在办公室旁的"钟馗道-争端解决室"开会到深夜已成常态,王坚有着产品经理敏感执着的特质。
在王坚眼里云计算是一场革命,是一场用服务颠覆传统软件硬件时代IT建设旧思维的革命。王坚这样概括"去IOE"运动和阿里云之间的关系:"去IOE"彻底改变了阿里集团IT架构的基础,是阿里拥抱云计算,产出计算服务的基础。"去IOE"的本质是分布化,让随处可以买到的Commodity PC架构成为可能,使云计算能够落地的首要条件。
从"去IOE"到拥抱开源技术,从整个集团的IT支持到阿里云未来发展,这些都使王坚有了几分神秘的色彩。在ITValue社区(中国最大的基于知识分享的CIO人际社区) 会员通过发帖和微信交流群对王坚展开提问,王坚认为:"与CIO的交流将成为阿里云竞争力的来源,是中国的用户在把云计算推到一个新高度。"
Q:为什么"IOE"对互联网企业的发展是-个问题?"去IOE"和开源对IT团队的技术储备有多高要求?(by博士伦中国公司 IT director汪华)
A:不同的人在理解"去IOE"的原因是不一样的。我最怕将"去IOE"的原因归结到两个极端:一是单纯变为企业成本问题,二是简单地变成一个是否用国外产品和技术的问题去讨论。成本降低是"去IOE"最先能够看到的,但最根本的原因是在互联网时代,不只是互联网企业,绝大部分企业对计算需求难以通过IOE提供的技术来满足了,IOE约束了企业长远的发展;技术路径上依赖于专用的硬件设备比较危险,随处可以买到的Commodity PC的架构长远来讲对于阿里和大多数企业则是最安全的。对于成本,我想说今天所有讲的开源技术只解决了软件使用成本的问题,而忽略了开源软件的升级和维护成本。
理论上只要计算能力够,"IOE"就一定能去掉!但实际上"去IOE"这件事有技术挑战和风险。对绝大多数企业,"去IOE"不是简单改变软件和硬件本身,用新的软硬件取代旧的软硬件,而是用新的方式取代旧的方式,是用云计算彻底改变IT基础架构。
"IOE"是软件时代或是"买计算机"时代的产物。在云计算时代,则变成买"计算"的时代,"去IOE"最好的解决方式是采用云计算,而不是买来一台新的机器替代掉原有机器。这是一个行业的变化而不是策略的选择,这件事情的挑战是你心里是否接受所谓的"私有云"的消失,从信任传统软硬件厂商到信任云计算是一种安全的服务。
Q:是否有一天企业都采用开源,而且没有软件供应商只有服务供应商时,IT建设的一些困难才能够解决?(by宁波方太厨具有限公司CIO 邴哲)
A:我想从阿里集团自身技术的发展解释这一问题。阿里的技术发展从主要依靠商业软件、到开源再发展到更多的自有技术或是说云计算。
阿里最早依赖商业软件,从拥有20多个节点的Oracle RAC数据库集群(当时是亚洲最大),到成为开发使用开源软件MySQL最好的企业之一,到研发自己的关系数据库OceanBase,也已用在了不同的业务场景。从用Oracle做处理数据,到用Hadoop集群(是业内单个机群节点数最多的Hadoop机群),再到用自己飞天平台上的ODPS。这样的演变路径也表明:商业软件、开源软件跟自有技术永远是一个搭档,对于不同企业来说,只是百分比的问题,对于大的互联网企业来说自有技术变得非常重要。阿里巴巴的许多自有技术,如飞天的核心平台通过云计算的方式开放给别人,所以云计算是适合许多企业的另一种方式。我相信在未来,对大多企业来讲,云计算平台+自有技术+开源技术会变得越来越重要。
在很多场合大家习惯性的把开放直接等同于开源,其实开源不是开放的唯一手段,在互联网时代,云计算是一种新的开放形式。在许多业务和应用场景下,与云计算相比,开源未必是最好的手段。开源软件还是软件,开源软件本身是伴随着软件时代的产物,仍然需要较大成本投入在维护和升级。今天云计算的发展得益于开源软件的发展同时云计算的出现对开源软件的应用也会有冲击,例如当云计算提供了关系数据库服务时,你就要考虑是否还要购买或使用商业数据库软件或开源数据库软件。阿里云和CODE.CSDN及开源中国等机构的合作,也是希望开源社区和技术与云计算能更好融合,共同服务好用户。
在互联网时代,运行在数据中心里的软件面临运营的挑战,复杂度很大。从使用软件(包括开源软件)到运营数据中心里的软件是一次根本的变化,大部分企业还没有这种服务能力,社会的分工也不能要求每个企业都去做这种运营。云计算给了企业一个机会,企业不需要买软件,就可以享受最好的服务和计算能力。这就是为什么在互联网时代,云计算平台+开源软件+自有技术会是一个基本格局,传统靠收许可和服务费的商业软件会越来越没有市场。
Q:阿里云、天猫和淘宝的技术体系是怎样的?在去IOE过程中,他们是如何协同?(by中国南方航空公司技术总监龙庚)
A:支付宝、天猫和淘宝、阿里云的实际技术应用确实有所不同,我们也一样会遇到所有公司都会遇到的挑战,但我们很幸运的是阿里巴巴整个技术体系是协同在一起的。
阿里整体技术的协同效率可以用几个关键的事例来说明:第一是在"去IOE"过程中逐渐建立起对技术方向的认同和协作,当淘宝刚开始做这件事的时候,没有技术、产品和业务等各团队的相互协同,这是一件不可能的事;第二是在2011年,阿里集团所有的技术后台运维和运营部门都集中在首席技术官下面,成立统一的技术保障部,原来在不同子公司和事业部的人,从工具到理念都需要融合,结果表明这样对适应集团业务的快速发展和变化是很成功的,并且能够用这样的方法驾驭大型互联网企业对技术服务的挑战。这一过程中,我们经历的技术和组织的挑战与付出的学费可以为其他企业的借鉴。第三则是业务驱动的技术协同,淘宝"聚石塔"、支付宝"聚宝盆"等业务,都是在业务驱使下使得各自客户的IT系统运行在了阿里云"飞天"平台上,它是一种自然协同的结果。
Q:阿里云如何消除用户对云计算安全的忧虑?用户访问速度如何保障?有无简单的退出机制和迁移工具?(by州逸酒店和度假村集团副总裁 朱明生)
A:安全忧虑的本质是信任问题,信任问题唯一可以解决的方法是靠透明,阿里云欢迎所有CIO来挑战云安全问题,透明真的是唯一的方式。在一次工信部召开的全国各省通信管理局负责人的会上,我也讲,我们有强烈的需求让政府监管我们!我们可以想一个方法,从你们的CIO俱乐部开始,制定一个很透明的机制,阿里云愿意被监管。
用户访问速度涉及两个方面:一个是互联网本身的速度;另一个是服务响应速度。今天我们的云计算服务解决了不同运营商互通互联的问题,互联网本身的速度是足够满足需求的。但应用服务的架构也会影响到响应时间,这需要技术的改进。很多人把服务和应用搬到云上来,是直接把原来的架构搬上来,这就需要我们和企业一起努力解决的问题。
关于退出机制,今天我们的很多客户是从亚马逊搬来的,同样也有客户因为不满意我们的服务搬到别处去了。云计算是有黏性的,但今天是一个开放竞争的环境,没有人有能力画地为牢。我们也提供相应的迁移工具,只是任何迁移都是有成本的。我认为这可以和信任问题一起讨论,需要大家的共同规范。
2阿里巴巴双十一的秘密
2012年的"双十一",阿里巴巴创造了191亿的日交易额神话。阿里云计算平台处理了淘宝和天猫20%商家的订单,并且实现了流量巨增零故障、零订单遗漏。在云平台上,更有日订单数近60万的天猫商家,其交易量已经达到当时中国除淘宝以外其他B2C市场一天的订单量。
在"双十一"活动前,一些商家并不完全相信阿里云平台,他们仍然部署在自有的IT基础设施上,当活动中交易量暴涨,突然出现服务器能力不够时,阿里立即协助商家在十几分钟内迅速迁移至阿里云计算平台,保证其交易顺利继续,有几家企业就是这样在半夜12点的时间段完成迁移的。
阿里巴巴双十一的秘密
Q:淘宝顺利挺过"双十一"的大流量和交易,有哪些关键的问题必须解决?
A:淘宝双十一关键要解决三个问题:支付问题,淘宝自身的问题和淘宝客户的问题。
支付的问题难点在银行,淘宝和天猫的总交易额有191亿,交易笔数是1亿零280万笔,对于淘宝来说,一共有多少笔结算是非常重要的,因为在银行承担不了的前提下,需要尽可能在支付宝完成交易,支付宝的技术能力决定了系统的承载能力。
以前,交易量过大时银行支持会出现问题,支付宝就会对交易进行排队,延迟交易。但双十一的交易量太大,延迟时间太长会产生很大的用户体验问题,所以支付宝提前做了鼓励用户先充值进支付宝的活动,这笔钱的规模当时达到了几十亿,一定程度上缓解了银行的压力,把对银行系统的压力直接转嫁到了支付宝系统上,使得双十一当天的交易顺利进行。"双十一"表明了支付宝的支付系统是世界一流的。
第二,淘宝自身的挑战在于面对突然出现的并发流量和意外情况发生时,如何保持系统的稳定性并完成天文数字的交易量。就像电影院虽然修了安全通道,但有意外观众仍然可能不按紧急通道的提示行动,而伤到人,紧急情况下用户的行为是没有办法预测的。淘宝也是一样,在意外情况下,任然无法预测用户行为,本来没有流量的地方,可能会突然跑出一个吓人的流量,任何一个局部的问题都有可能演变成为一个全局的问题,这个就是困难的地方。"双十一"当天阿里巴巴集团近千名技术和业务人员坐在一层,用一个指挥体系处理问题,准备了近五百种预案,因为现场出现问题再去解决肯定来不及,一个回车键敲错了,可能那个系统就瘫痪了。"双十一"也表明了淘宝和天猫的交易系统是世界一流的。
第三,解决淘宝客户的问题主要是通过阿里自身的技术力量去解决客户面临的问题,比如 "聚石塔"项目,将天猫和淘宝卖家的全部交易流程都部署在阿里云计算平台上,保证他们交易系统的稳定性,从而保证他们的交易顺利完成。
过去,交易从淘宝链接到卖家后台系统的过程中,如果卖家IT基础设施薄弱,系统交换数据会因为网络等各种原因不通都可能会使交易失败。"双十一"有一句话是说"20%的交易量是在云上完成",这其实是说有20%交易量其卖家的后台系统是部署在阿里云上的。以往买家买一个东西只需要点击购买,然后进行支付,这个动作会指向两条IT路径:一是连接支付宝,保证有钱可以完成支付;另一条则是进入卖家的ERP,卖家需要知道自己是否有库存,并减掉相应的货品数量。把卖家的ERP系统完全架设在云上,这件事的难度和意义比只解决网站流量扩容要大,因为从发票打印到发货都要通过这个系统,不同的ISV(独立软件开发商)也在其中起了关健的作用,让人们体会到一个生态的价值。
卖家把ERP搬到云上,也证明了对云计算的信任,我们今年的目标是让70%-80%的交易在云上完成,这不仅仅是为客户节约成本,更是帮助卖家提升赚钱的几率。这件事的本质反映了:云计算是一场改革,给客户创造业务价值的意义,远远超过了成本本身。
3阿里巴巴如何"去IOE"
阿里巴巴如何"去IOE"
2013年5月17日,阿里集团最后一台IBM小机在支付宝下线。这是自2009年"去IOE"战略透露以来,"去IOE"非常重要的一个节点。"去IOE"指的是摆脱掉IT部署中原有的IBM小型机、Oracle数据库以及EMC存储的过度依赖。告别最后一台小机,意味着整个阿里集团尽管还有一些Oracle数据库和EMC存储,但是IBM小型机已全部消失。7月10日,淘宝重中之重的广告系统使用的Oracle数据库下线,也是整个淘宝最后一个Oracle数据库。这两件事合在一起是阿里巴巴技术发展过程中的一个重要里程碑。
在阿里巴巴"去IOE"成功的大背景下,王坚的观点是:"去IOE"存在一定的技术挑战,"去IOE"不是简单改变软件和硬件本身,用另一种软硬件简单地取代已有的软硬件,而是用新的互联网技术和架构取代传统的IT技术和架构。阿里巴巴本身并不卖软件和硬件,但这种技术能力可以用云服务的方式来提供给第三方使用,让云计算彻底改变传统IT的基础架构。对大多数企业而言"去IOE最好的解决方式是采用云计算,而不是买来一台新的机器替代掉原有机器。"
作为整个集团的首席技术官,王坚负责每年集团IT预算和规划,他意识到对于传统IT厂商的依赖使得相关技术及其维护已不在阿里自己可管理的范围之内,例如,大存储对客户而言基本就是"黑盒子",客户都不能自行进行重要的维护,主要依赖厂家通过WAN网络或电话拔号连接上客户内部的大存储进行管理维护。"去IOE"也解决了淘宝和支付宝面临的这类影响长远发展的问题。
为什么阿里能够率先成功?我认为有三点重要原因:一是企业的战略决心是否足够强大,在这一点上没有巧可以取;二是这项工作是否能够坚持到底,并愿意承担技术上、组织上的各种风险;三是,也是最重要的,要有使命感的人和团队去完成一件看起来不可能的事。从去"IOE",也看得出阿里巴巴在技术上做出的战略投入,当然也包括飞天云计算平台、数据库、云OS操作系统等
Q:阿里巴巴为什么要做"去IOE"这件事?"去IOE"经历了怎样的过程?
A:2008~2009年,在做整个集团的预算时,第一次提出了"去IOE"这件事。每年,我都要负责整个集团技术预算拟定,当看到阿里巴巴对计算需求成指数级增长,并跟业务增长不成比例时,就意识到如没有技术的进步,一定会影响公司长远的发展。
做预算不仅仅是"钱"的问题,而是考虑集团未来如何发展的问题,也是思考技术战略的机会。"去IOE"不是一个人的决定,你需要分析企业业务情况,哪些业务适合尝试"去IOE",阿里比较幸运,当时淘宝的技术团队愿意创新,去尝试"去IOE"这件事,最早承担这件事的技术和业务风险。"去IOE"的过程也是技术发展的过程,比如以淘宝为基础形成了优秀的Mysql数据库团队,也建立了自己开发数据库Oceanbase的团队,现在的团队来自各事业部,双管齐下,这是一个极大的长期投入,不磨五年是磨不出来的。当支付宝最后一台IBM小机下线时,整个技术团队是非常自豪的!
当时我们考虑"去IOE"并不仅仅出于对成本的考量,成本只是最容易看得到的东西,最重要的是要满足企业未来长期发展的需要。互联网时代,每一家企业都必须拥抱互联网,传统IT架构的软硬件已经无法满足企业在这方面的发展。阿里巴巴的成功经验表明原来依赖IBM、Oracle和EMC的系统是可以构建在Commodity PC上的,这为大多数企业在云计算上搭建IT系统扫清了障碍,让他们可以彻底拥抱云计算,拥抱互联网。
Q:传统企业"去IOE"的可能性有多大?哪些企业具备"去IOE"的条件和动力?
A:如果对云计算带来的冲击认识足够,就会明白"去IOE"不是一次技术的升级,而是一个时代的改变,云计算对传统的IT和"开源软件"都是有冲击的。这是行业的变化,不是一个技术策略的选择。
正是因为这是一次IT基础设施的变革,从硬件和软件底层着手"去IOE"这件事情不该每个企业都做。如果要说一个很直截了当的答案,我会表明一个观点:如果企业觉得已有的云计算服务不能满足IT需求,那么它适合自己完成"去IOE",我认为大部分传统企业都是没有可能和必要自己实现"去IOE",其实,要做"去IOE"这件事情,是有技术挑战的,也受市场条件的约束,有机会成本问题,当然也有总体人才资源的限制。所以最好帮助大多数传统企业用户解决"去IOE"的途径是云计算,云计算提供的计算服务可以将"IOE"去掉,对企业来讲这是一个好的可以长期发展的路径。
对传统企业来讲,"去IOE"的根本是在做一个选择,是在选择是否信任云计算是一种公共服务,就像企业信任国家电网供电一样。当你选择了IBM的机器,实际上是觉得IBM的机器和这家企业是可以信任的。
大家经常忽视一个奇怪的现象,一方面我们都承认云计算是一种服务,但是更多的厂商会和你谈"私有云",想把软件和硬件卖给你,这时候"云计算是服务"就不见了。为了成功卖出软件硬件,唯一可以说的事情就是安全问题,这是我看"私有云"的两大问题。"IOE"本身是软件时代或者说买计算机时代留下的产物,而到了云计算时代,实际上变成一个买"计算"的时代,不是买"计算机"的时代,所以去IOE的方法应该用服务的方式去掉。"去IOE"不是用一个技术替代一个技术,而是一个新的时代到来了。这个过程中的挑战是,你心理是否接受云计算,而不只是技术上是否接受。
企业自己去IOE意味着要重复阿里今天做的很多事情,这是一个长期投入,而阿里云可以给企业"去IOE"帮助的是直接提供云计算服务,我们已经帮助一些小银行做了;阿里也愿意将自己"去IOE"的经验分享,这也是全社会的财富,但没有办法把"去IOE"的积累变成软件硬件卖给企业,我们不是传统的IT设备和软件提供商。
Q:您怎样看待"去IOE"的人才培养过程?
A:我自己觉得,大多数人对阿里巴巴集团技术人员的技术能力还不太了解,阿里巴巴的技术积累一定超出很多人的想象。我用另外一句话来说,"去IOE"这件事情,没做成,肯定是我的责任;今天做成了,跟我一点关系都没有。我们真的有很多很好的人才,比如说像淘宝的一位员工,他对淘宝业务的熟悉,对技术的理解也不是一般人可以比的,更重要的是他愿意"革自己的命",绝不担心"去IOE"会让自己原来的技能没有用,这时候理想变得比什么都重要。
大多数严重依赖IOE的企业在技术人才培养有点"拿自己的钱给别人交学费,但却给自己带了手铐",中国企业对技术的需求旺盛,超过世界上任何国家和地区,所以技术上面临的挑战也超过了他们,但我们主要使用的是国外传统IT企业的软硬件,而别人也没有现成的技术能解决你的问题,我们自己也因为这种依赖而失去很多机会。阿里巴巴曾经选用过Greenplum是一个很好的例子,付了很多学费。。"去IOE"的经验表明,现在我们有一次机会把我们的需求和钱用来发展适合长远发展的技术,让IT围绕自己的产品来发展。
对于我们自己的人才选择,阿里很谨慎,很多在国外厂商干过的顶级人才,并没有轻松地收到聘书,这是因为在企业中跟着别人做事,和在阿里用使命感开闯出一片天空有很大不同。"去IOE"需要极其合适的人才,才能带出一支像样的队伍,团队里每一个人的潜力也是逐渐被激发出来的。
4王坚:云计算是一场革命
王坚:云计算是一场革命
在阿里集团首席技术官和阿里云总裁角色之间转变,王坚面临很大挑战,他必须为阿里寻找并发展关键的核心技术,从发展自有云计算技术到"云OS"系统开发,每一个选择都意味深长,但任何一场风波也可能使他置身谷底,在遭遇市场"抨击"后,王坚总能以更快的速度为阿里夯实技术基础同时积累新的技术经验。
王坚说,他大部分的工作是集团首席技术官,但他始终认为:"我是非常幸运的,没有阿里云,阿里的技术是少了一个重要的成长环境。如果 "飞天"这样的平台没有投入市场,不与客户碰撞,单纯的研发部门无法生长出真正的好技术。同样,没有阿里其它业务,很多云计算业务也起不来,比如CDN业务"
阿里云计算平台与国内其他云计算平台的本质区别在于通用性。王坚说:"今天国内的云计算平台,有的和企业自身业务结合的比较紧,有的仅是一个垂直平台,而阿里云是一个通用整合平台,我们开放的是计算能力,驾驭和把握这一平台需要很大实力。
Q:您怎样定义云计算?
A:云计算是一种公共服务,当计算变成一种服务能力时,对于企业而言买"计算机"的时代变成了买"计算"服务的时代。为什么计算会变成公共服务?可以从两个角度看:从用户角度看,今天你只要拥抱互联网你就要用云计算,如果你觉得互联网跟你没关系你可以不用;同时你又不想买服务器,因为只有服务器没有用,它需要整个互联网基础设施支持才能发挥作用,云计算就适合你。这是真正的变革,因为云计算的计算能力变成一种公共服务的时候,已超过了以往任何的计算技术对社会产生的影响。这就是云计算真正给社会带来的价值。
IT的这种变局背后的真正推手是互联网。这就是为什么我说"用云计算"的本质是"用互联网",企业的IT和业务都离不开互联网,互联网的特质和冲击使传统企业IT无法应对。如果你的企业永远跟互联网没有关系,十年之后,很难想象企业会是什么样子。云计算作为一种公共服务,它的前提是互联网无处不在,今天,手机上网甚至比找一个电源插座更容易,这就是革命。
从这个角度讲,阿里云计算平台帮助各种类型的企业做了一次互联网的转型,这些企业又带动他的客户做了一次转型,云计算可以把一家传统公司变成一家互联网公司。你想这件事情,不只是给IT节省了一点成本,实际上做的是向互联网转型的事情,你在云计算上面就可以重新思考你的一些业务问题,重新思考你的很多事情该怎么做了。
4年前,我们就在说数据分享平台,其实是这样的道理:没有云计算,今天大数据的概念是不存在的,云计算是今天所有讲数据的基础,云计算给客户真正的价值是跟数据有关系,而不只是给客户省成本。我要跟CIO讲的事情是说,今天你搬到云计算平台上是为了让节省成本,未来让你尝到的甜头是你的数据通过云计算产生更大的价值。
Q:公共服务相对来说是标准化的,计算跟电力还是不太一样的,电力基本上是标准化的服务,大家对计算的需求是千奇百怪的,包括一个企业从简单的单纯的计算能力到存储,到后来业务系统的ERP,这些矛盾未来怎么解决呢?
A:大家对云计算理解不同,大部分人所说的云计算,是基于互联网后台的垂直系统,并不是阿里云做的云计算。阿里云做的云计算类似于提供一台大的计算机,上面有存储能力、计算能力和操作系统、数据库系统,用户可以在计算机上做原来IT的事情,云计算并没有把传统IT所要承担的使命消灭掉,而是将原有IT基础设施转移到了新的平台上,跟上互联网的发展,专注于企业自身密切相关的技术,更好地和开源社区分享。
我们真正要革命的是什么呢?是要革掉把计算机搬回家里的旧局;是要企业主动拥抱互联网,重视起做服务;是要企业知道现在是在通过互联网跟全世界人打交道,而不仅仅是自己的公司业务人员和销售;更是要打破原有企业IT架构的所有基础设施。
Q:您能描述一下阿里云的几类客户的类型?阿里云与其客户的合作方式是怎样的?
A:阿里云的客户涉及消费电子、公共卫生、能源管理、媒体、电子商务、电子政务、移动互联网等众多行业,服务着我们今天无法精确统计的无数用户,你今天(不是未来)用手机、看电视、玩手游、上一个网站甚至买一盒药,都有可能用了阿里云的服务。阿里云的客户类型可以从不同维度描述。第一个维度是"大小",可以是一个人的公司,也可以是像联想这样的大型集团企业;第二从行业维度,有传统的互联网公司,也有移动互联网公司,比如手游公司,还有一些传统企业,比如杭州九阳股份有限公司,这类传统企业的IT不是一次搬上来的,是一点点移上来的,这有个过程的。从合作的角度考虑,有我们的直接客户,因为阿里云没有销售,我们为这些企业开设账号后,他们有能力自己到阿里云的平台上;还通过商派这样的合作伙伴到云上来的,他们帮助更多的企业来到阿里云的平台。
我自己觉得中国的云计算会比美国发展的更快。美国的IT行业很成熟,传统IT的服务也比较好,云计算给企业带来的直接价值远远没有在中国大,比如运营商之间互联互通这个问题在美国是没有的,而中国有,因此中国企业到云计算的速度有可能会比美国快得多。中国企业也会因为整个IT大环境的原因,对云计算需求会更大。今天有一些企业来到阿里云平台,连我都觉得确实不可思议,原来我以为要等更长时间。
云计算可以帮助把一家传统公司变成一家互联网公司,这件事情不仅节省了IT成本,更重要的是在云计算平台上,企业可以重新思考自己的业务问题。我非常佩服很多企业能够信任我们,把她的东西放在我们上面,中国的企业如果不能背靠背,是没有希望的。今天敢于拥抱云计算的企业是值得敬仰的。云计算带给企业的创新能力和发展空间是不可想象的,这件事情是真的是革命!
Q:云计算的建设很复杂,一是说技术难度很大,二是说运营的挑战更大,您又是如何管理好这样一家云计算的公司的呢?
A:我认为发展好一家云计算公司,技术和运营是最关键的两点:首先,我们必须要承认云计算是有技术门槛的,今天,很多人说云计算是一种服务,只是觉得这是模式的改变,而没有意识到的技术也是一个门槛。"云计算"这样的软件既没有人卖给你,也没有这样的软件。其次,云计算真正的竞争力是运营,这也是当别人问我为什么不把"飞天" 系统卖给别人时,我说不是我不愿意卖,这个时代已经不是软件时代了,云计算这样的产品只有代码,并不是软件,也不是刻张光盘就可以卖给你,这是需要运营的,你不运营这件事情是做不好的。
同样技术和运营也是一体的。两三年前,阿里巴巴很多公司后台的运营是独立的,前年我们做了一件事情,就是将所有的技术后台运维和运营部门都集中在首席技术官下面的一个部门-集团技术保障部,现在整个阿里集团的后台运维和运营是由这一个团队完成的,这是阿里巴巴很强的软竞争力。原来在不同子公司和事业部的人,从工具到理念都需要融合,结果表明这样对适应集团业务的快速发展和变化是很成功的,并且能够用这样的方法驾驭大型互联网企业对技术服务的挑战。这一过程中,我们经历的技术和组织挑战和付出的学费可以为其他企业的借鉴。从这个角度讲,一家传统企业到阿里云上面来,我们一定能比较好得解决他的问题,因为我们本身经历过这个过程。
北京玩蟹科技有限公司CEO叶凯曾在微博上列举了几次阿里云断电、存储出现的问题,玩蟹科技从阿里云迁出这件事闹的沸沸扬扬,但经过这样的事情,我们和叶凯成为了非常好的朋友,玩蟹事件的根本不是我们的技术问题,而是我们不会做服务。
现在除了玩蟹的几个老游戏,其余都已经在阿里云上了,他八月发布的最新游戏也是部署在阿里云上。玩蟹这件事让阿里云更快地学会怎么做云计算服务。在我眼里移动互联网和互联网是不分的,但做移动互联网的人更容易意识到云计算的价值,像玩蟹3个创始人,包括叶凯,他们天生相信云计算,认为只有云计算能够支撑公司的发展速度。怎样通过服务让用户对你的云计算平台产生信任?叶凯对我说:"我知道会出事故,更知道哪里会出事故,重要的是你的服务要好,出了事故可以在第一时间响应。我知道其实即便我自己维护也会出事故的。"真心敬仰这样的创业者,是他们奠定了云计算的基础。
用户的容忍度超出我的想象,我被叶凯说得很感动的。通过交流,我们也能因此更好地服务好玩蟹,以前客户购买新的服务器,需要在阿里云网站手工下单,现在玩蟹可以根据游戏行业的特点,通过API的形式实现他们的服务自动弹性可扩展,这样用户不用提前几个小时准备,真正意义上实现了云计算的弹性服务,这样给企业带来的价值已经远远超出了成本的节约。这就是我一直强调的"从客户那里学云计算",就是学会如何做云计算的服务!
Q:您有没有总结过客户对阿里云最多的抱怨是什么?您认为阿里云做云计算最大的挑战在哪里?
A:今天客户对我们最大的抱怨是服务,我们对服务的思考影响我们对产品的定义,也会影响我们对技术的优先权考虑。哪怕不到位是一个客服的电话,比如,一定要保证一个客户的电话永远有同一个人接听;再比如,响应时间能不能不超过15分钟,否则会导致一个游戏公司可能会永远失去它的用户,当然这些东西我们以前学不到的。停一个小时服务,会让一家公司死掉这种事情,讲起来很容易理解,但是要让阿里云的每一个员工有体验是很难的,难度大大超过我的想象。我今天就是要保证员工能够体验到这种感受,而不是知道这个道理。在地面上很容易理解飞机发动机出故障的危险,但它和你自己坐在飞机上的体验是完全不一样的。
我希望有一天我们这个平台不只是我们自己骄傲,也是中国所有创业者和开发者的骄傲,当然我觉得持续保证我们技术上的竞争力也是很挑战的。因为站在我的角度,飞天平台是做了一个数据中心的操作系统,在中国,没有人真正意义上去做过这样一个技术的平台,并把它变成一个商业,这个是巨大的挑战。飞天开放平台一直是阿里云的研发重点,阿里云的云计算就是飞天。同样我们做飞天的挑战在于:一是国内没有人有经验做这样的事情,国内从来没有过这样一个商业化计算平台;二是真正的把云计算做成一种服务,是要想清楚的,如果不用新的服务模式,业务量的扩大也意味着人员的增加,是没有能力把业务扩大10倍上百倍的,而我的目标非常简单,不能增加人,要用互联网的方式为大家提供服务,我们坚持阿里云不设销售人员,单从这个角度讲,我们怎么把云计算服务做好是有非常大的挑战。
今天唯一不挑战的就是市场,这个需求是刚性需求。如果我们云计算做不起来只有一个结论,就是我们这帮人无能。我们运气的地方是我们犯了一些错误,但是至今还没有死在错误上。我们拿到了一个历史的机会,这是千载难逢的机会,你不可能等到下一次这样的时代到来,而这个时代就是需要的东西,碰巧我们在做这个事情。
Q:您怎样看待"云OS"引发的业界讨论?
A:云计算直接推动了移动操作系统的发展。云计算让整个移动信息产业从以终端作为信息的交换中心,变成了以云作为信息的交换中心。在移动互联网时代,任何一个没有云的终端都谈不上是智能终端。移动互联网的数据入口和信息安全是阿里巴巴这样一家公司不可以回避的挑战,也是阿里发展阿里云OS的基础。,"云OS"的目标是在2014年4月达到3000万终端使用云OS移动操作系统。
目前大概有几十个手机厂家跟我们合作,用我们这个操作系统的机顶盒也已经出来了,但我想强调我们自己不做手机,我们自己也不做机顶盒,我们在做一个好的互联网时代的操作系统。
云OS的各种争议反映了大家对互联网时代操作系统认识的不一样以及对技术发展的判断不一样,对这样一个困难的问题也很自然。但这些争议的核心点是大家对手机操作系统的定位是不一样的,就像在没有Machitosh以前,大家不会觉得GUI(图形用户界面)是操作系统的一部分,在Windows 95以前,浏览器不是操作系统的一部分,在互联网时代,如何让服务体系和在线体验变成操作系统的一部分是一个巨大的挑战,有争议也不奇怪。我们的定位非常简单,在中国的互联网公司,如果没有一家公司拥有移动互联网的操作系统是不现实的,或者说我们在移动互联网时代会被大大落后的。