10月16-17日,2014年阿里云开发者大会(AWDC2014)在杭州云栖小镇开幕,吸引了海内外7000余名开发者、创业者参与。作为中国云计算领域最具影响力的盛会之一,大会议题涉及智慧城市、移动应用开发、物联网等多个热门领域,会上展示的基于云计算的人脸识别、大数据分析和多款智能硬件引起行业关注。
IBM引领了计算中心的大型机时代,微软苹果引领了个人计算的PC时代,新一代互联网公司将计算回归到计算中心(数据中心),引领云计算时代。在王坚博士第一天描绘的技术梦想中,阿里巴巴将跻身于世界之林,为客户提供最好用而且用得起的云计算服务。
在会上唐洪作为阿里云负责“飞天”分布式计算平台研发工作的负责人,分享了很多有趣的故事,其中讲到了在工作中遇到的三个技术挑战。在长期为客户服务的过程中,唐洪发现小概率故障成为常态,毕竟分布式计算机群中有成千上万台服务器,每个服务器又是由多个组件组成,任何小概率事件都会随着基数的增加而被放大。
阿里云飞天负责人唐洪
在日常工作流程中有很多环节会出现人为因素的干扰,一个误操作或者是一段错误的代码都会造成整个服务的故障,机器比人要更加可靠,如何降低人在整个服务环节中的负面影响就成为第二个严峻的挑战。
当然对于云服务来讲最大的挑战还是在于多租户之间的业务隔离,由于都在同一个环境下,如果不能做到用户之间的隔离,一个用户的应用很可能会影响到另外一个用户。
其实大家也知道,作为云计算来说性能就是它的一个很重要的功能点。所以当我们性能不达标的时候也是一种故障,所以我的标题叫做慢也是一种故障。而慢最主要的原因就在于IO性能的瓶颈,在IO大于3秒的时候就会出现数据丢失,所以对于IO需求比较严格的客户来讲,慢IO就是一个最大的问题。对于用户来说,硬件的老化,光纤会老化,磁盘也会老化,另外操作系统也都会有Bug。最后跟分布式计算本质是相通的,就是在这么庞大集群里面没有办法精准控制全局的状态,也就是偶尔会发生有瞬时的热点。
最后唐洪用四个字总结了本次分享:“困知,勉行”。唐洪认为出自《礼记》的这四个字概括了阿里云对客户痛点的理解,如何理解云计算技术,如何做好云计算技术,如何运用云计算技术。时至今天,做云计算是书本上学不到的,需要靠对每一个工单进行问题分析,解决每一个蓝屏与闪断问题之后,才能明白云计算的挑战在什么地方。
用唐洪自己的一句话来说:“我们团队里面没有什么天才,大家都是平凡人,唯一能做的就是努力,努力做好云计算,我们用200%的努力来实践,才能完成这件事情。”