云计算
    作者:张浩

    唐洪 飞天5K普通开发者可以使用的超级集群

         [ 中关村在线 原创 ] 暂无评论

      相对于这样的庞大的机房在运维方面肯定将会面临着非常严峻的挑战,不论是在软件还是硬件方面。针对于运维方面的问题唐总做出来如下回答。

      在阿里巴巴,维护淘宝总站的团队与维护阿里云是同一个团队,所以在国内屈指可数的几家公司可以运用这么大的网站,这是其一。

      第二,从机房硬件的角度来讲阿里云设有不同等级的保护措施,比如每一个机房都会有柴油发电机和UPS,当发生断电时,先是UPS切换进来,这时候柴油发电机开始启动,当柴油发电机切换进来之后可以保障足够72小时的临时供电。

      另外在软件层面上,一旦遇到更长时间的故障,比如杭州前段时间发大水,如果时间再久一点,可能连柴油机都抗不住的情况下、甚至忘了隔绝的情况下,我们的云服务也会为用户提供很多异地架构的应急方案,这不过这些不是自动完成的,需要用户做一些配合。如果云上的是一些无状态的业务,这样在发生大规模故障时服务可以切换到另一个机房。

      如果是有状态的OSS、OTS这些服务的话,我们也会为可以提供异地同步的服务,不过目前只针对重点客户进行测试,还未正式发布,今年晚些时候或者明年这些东西就会和大家见面。

      如果是异地的双机房备份,用户最关系的莫过于两个机房之间的切换时间。唐总表示:如果是简单的网站服务,它的切换速度取决于DNS的切换速度,因为你知道互联网基础设施中的域名服务非常关键,相当于我们把这个域名知道这个服务器还是那个服务器,两个不同的数据中心,IP地址是不可能一样的,这里的切换时间决定了整个服务的切换时间,通常都是分钟级别。

      如果是状态切换的话,就要看状态的切换时间,一般的话都是秒级的切换速度,就是在同步切换。不过这个切换动作取决于管理员的切换动作时间。

      当前网络问题仍然是一个非常大的问题。唐总表示,对于飞天总体上来讲,并不是任何两个机房之间都可以实现这样的切换,我们需要非常仔细的进行考察,并且有专门的专线做宽带与配置。并且对阿里巴巴而言,这是一个自动化运维的项目,所以你需要的一个是机房的配制是标准化的,运维的流程是标准化的,所以希望整个动作尽量少,人都是要做线性动作的话,肯定是有动作上瓶颈的限制。

      我们要将整个项目标准化,甚至包括整个机房的设施部署都要标准化,我们也是慢慢在改进的地方。机架要标准化,整个的机房的大概的架构都要标准化起来。

    提示:支持键盘“← →”键翻页
    本文导航

    关注排行榜

    产品品牌

    文章推荐

    互动沙龙

    相关内容 网友评论 返回首页
    专家咨询