热点:

    QingCloud EHPC上线:在云端释放自由算力

      [  中关村在线 原创  ]   作者:徐鹏

          借助高性能计算推动前沿技术在行业场景中的创新应用,模拟世界万物的未来发展趋势,已成为各大企业和科研机构的共识方向。“科学家通过分析过去20年的全球卫星图像,能够获得每年森林的流失情况。为了得到这个数据,科学家使用Google Earth Engine超算平台,动用了1万台服务器,分析了 65万张遥感影像。而借助超算的算力,整个计算时间只要4个小时。”青云QingCloud云平台&服务部高级总监陈海泉表示。可以说,从气象卫星、地质勘探到基因诊断、药物研发,高性能计算的应用场景几乎可以渗透到科学研究的各个领域,在各行各业帮助企业降本、增效、提质的案例更是比比皆是。

          其背后的一个重要趋势是,高性能计算与云计算、大数据、AI的结合正在愈发紧密。例如在F1赛场上,红牛车队在比赛前会根据下一场比赛赛道的特定环境进行模拟,包括使用虚拟风洞优化空气动力学;模拟电源散热系统,让赛车能发挥最大功率;模拟碰撞优化车身结构,让赛车可以符合比赛的安全法规……基于超算平台的算力,红牛车队能够在七天内完成针对性的模拟和优化,以确保赛场中的优势。同样的例子还发生在能源行业,工程师会使用地震波反射法建模来模拟油藏,每次测量会产生PB级的数据,再进行密集计算和模拟,就能算出最优的钻井位置,提高石油勘探效率。

          这些应用与数据的价值密不可分。在陈海泉看来,大数据与AI的融合体现在三个方面,首先,高性能计算与尖端科研联系紧密,科研的进步离不开对更大规模数据的计算,以及计算精度的提升;其次,大数据驱动存储与算力融合,不用类型的数据需要被处理和分析,数据规模和数据类型对算力提出了更高的要求;此外,AI应用开始爆发,例如在深度学习过程中,要先对大量数据进行计算得到训练模型,再根据模型结合新的数据做推理计算,通过图像识别、NLP等手段解决实际问题。其中,训练阶段需要进行大量的浮点运算,需要使用很多GPU节点。

          对大数据的有效使用让人们受益匪浅。在医药领域,新冠疫情加速了大数据在医药和生命科学上的应用,促进了核酸疫苗和核酸药物的研发。武汉的研究员通过大数据的获取,在新冠病毒出现一周后就完成了整个RNA基因序列的测量,并且在国际上进行了公布。在金融领域,对各种层面和维度的数据进行分析,通过深度学习训练出模型应用在风控上可以让坏账率降低35%。

          不过,青云在大数据、AI与高性能计算的融合场景中,也观察到了一些挑战:数据存储所需的容量增长非常快,不同类型的业务对存储的要求存在差异。用户总是希望有无限的容量、更高的性能、更低的价格,但厂商经常要对这些相互平衡。因此,青云提供的超算平台QingCloud EHPC(青云弹性高性能计算)希望在不同业务场景中满足客户的相应所需。

    QingCloud EHPC上线:在云端释放自由算力
    QingCloud EHPC服务架构

          对于仿真和建模业务,青云提供了低延时、高带宽的InfiniBand网络,高速并行文件存储和CPU/GPU的算力组合,可以支持大规模求解运算,提供GPU桌面进行图形前后处理,完成闭环的业务场景;对于大数据业务,QingCloud云平台提供的对象存储容量达到245PB,与计算节点结合可用于大规模的数据处理和分析。计算节点到对象存储的网络带宽能达到1.6T,保证来了大数据计算的高性能;对于人工智能训练业务,青云提供了算力达到850PFlops的A100 GPU资源池和全闪并行文件存储,能够结合容器平台提供性能极致优化、轻量便捷、开源开放的人工智能平台。

          “有了云平台的多种存储服务,用户可以按照自己的业务需求选择合适的存储类型,包括冷热类型的对象存储、全闪并行文件存储或块存储等等。”陈海泉说,“有了虚拟化技术的加持,青云可以快速为不同业务构建其所需的运行环境,随时可以切换 MPI、TensorFlow或MapReduce软件平台,充分利用超算中心的硬件资源满足各种业务场景的需求。”

          青云在云平台上确保了安全性和可靠性,不仅将计算、网络、存储的租户相互隔离,还把管理节点和计算节点分离,租户可以使用完全独享的登录节点,而不是像之前那样共享,并且除了传统的VPN接入,青云还提供了零信任客户端。产品形态和规格方面,QingCloud EHPC提供两种服务模式,即HPC共享集群模式和EHPC服务模式。

          在HPC共享集群模式中,用户将作业提到共享队列中,平台提供400节点的共享队列,资源量大,免排队,内置作业调度系统,通过登录节点提交作业到共享队列,根据作业实际使用的核心数和时长进行计费。在EHPC专属集群模式中,用户可以自己创建、删除、修改集群,集群的管理者是租户,拥有最高权限,可以自行安装软件,并且一个用户可根据需要创建多个集群,EHPC节点还支持扩容、缩容,具有较高的弹性及可扩展性。除此之外,青云提供一站式的使用体验,比如工业仿真场景:一是其求解集群能够提供弹性的算力,可以快速完成求解运算。二是青云能提供桌面虚拟应用,帮助用户完成图形的前后处理。

    QingCloud EHPC上线:在云端释放自由算力
    QingCloud EHPC的两种服务模式

          为了解决超算在使用时的资源分配不均问题,青云希望和更多超算中心共建算力共享的算力网络。陈海泉认为,QingCloud EHPC平台不仅可以帮助超算中心私有化部署超算云平台运营自己的业务,还可以连接全网算力提供外部资源支撑突发业务,避免排队。当超算中心的资源空置时,也可以对外出售算力增加运营收入。青云会为超算中心提供建设和运营的能力,其交付的济南超算中心就是一次成功实践,例如网络架构是为高性能计算专用的,交换机、服务器均为高可用,集群内两个控制节点中的一个出现问题时,另一个马上会启动。同时,青云还能拉通行业场景和算力供应方的需求桥梁。

          QingCloud EHPC基于青云云基础设施,为用户提供了部署在公有云、专属云、混合云上的多种产品形态,面向科研机构、高校教育、工业生产、行业计算等用户提供弹性灵活、快捷高效、安全可靠的超算服务,应对生命科学、CAE仿真、海洋气象、影视渲染、石油勘探、深度学习、测绘地理等应用场景的高性能计算需求。通过统一管理的平台,使得青云工程师、研究人员可以突破本地的HPC基础设施限制,快速开始云上创新。

    QingCloud EHPC上线:在云端释放自由算力
    QingCloud EHPC集群系统构成示意图

          青云QingCloud EHPC产品经理苗慧介绍称,QingCloud EHPC提供了云上超算SaaS化服务,可以方便快捷的让作业运行起来。通过青云的弹性公网IP、公网带宽,将数据进行快速上传、下载,与本地数据同步。QingCloud EHPC会覆盖青云的终端用户,是一个从云上计算到云下结果产出的全流程计算服务平台,用户可以在几分钟内将云上工作快速运行起来,快速完成计算作业。

          QingCloud EHPC的服务架构主要分为三层,分别是资源层、管理层和用户端。其中,资源层主要包含青云的计算、存储和网络资源,以及相应的后台调度器、调度管理平台以及可视化服务平台;管理层主要提供SaaS化的服务,从开始作业到作业运行结束,系统会自动进行折扣信息计算、计量计费和作业监控服务,能够保证用户进来之后,对团队项目、团队项目权限等信息做相应的管理;用户端即用户控制台,用户可以很方便的进行创建集群、管理集群、弹性伸缩、作业提交、作业编排、作业性能分析等操作。

          在用户构建集群的过程中,EHPC集群分为四个节点:登录节点、管控节点、计算节点和GPU可视化节点,这四个节点均配置了青云的共享文件存储和共享软件仓库。其中,登录节点用于进行公网访问,通过登录节点访问外网时,内部数据和外网安全隔离,可以绑定公网IP,支持webssh连接。管控节点用于做调度分配,安装了青云所有的调度器管理端,例如Slurm调度器管理端、PBS调度器管理端等等,可以将作业合理分配到多个计算节点和计算队列中。

          计算节点展示了青云的集群运行性能,即计算节点的数量、配置等,体现了一个集群能够大规模并行运行的核心数和作业数。在计算节点上,青云提供了三种类型的支持,一是CPU计算,科学计算和密集计算均可使用,二是GPU计算,拥有更高效的数据计算服务,三是裸金属计算,匹配传统HPC服务,支持物理服务器。这些计算节点可以按照队列分配,支持弹性伸缩。

          GPU可视化节点可以在专业应用场景中提供更直观的实时数据和结果参考,检测作业是否正常运行,是否满足作业的预期结果,用户可以通过实时查看做出判断,例如暂停作业、取消作业、调整参数、重新运行作业等等。

          配置方面,QingCloud EHPC的CPU单核峰值可达86.4Gflops,GPU节点选择了NVIDIA A100 40GB图形卡,专门用于HPC和深度学习。同时,青云采用了专用的InfiniBand网络,使得计算节点与节点之间、计算节点与存储之间都能够高速通信,并且以Lustre商用版本提供专业分布式文件存储。青云将计算和存储相结合,CPU服务器采用了100Gbps的传输效率,GPU服务器采用了200Gbps的传输效率,有效解决了高性能计算的大数据量传输的瓶颈,提高了传输效率。

          在HPC软件上,青云将大规模开源软件及已购买的商业软件放到共享软件目录,使得用户能开箱即用,并且青云也支持MPI库、数学软件等资源,可以辅助用户安装与使用。服务方面,青云配备了专属的技术团队,并且对所支持的资源都进行了相应测试。青云将物理机做成EHPC集群节点,在同样服务器配置的情况下,用VASP软件做了性能测试。在作业核心数150核心作业以下的情况下,青云的EHPC节点性能完全能够达到物理机性能,还有高度的伸缩性和可配置性,比物理机更灵活。在部分情况下,EHPC集群的性能要优于物理机的性能,这是受益于青云在EHPC集群内置了算力挖掘程序,针对部分任务会有性能上的优化。

          应用方面,青云提供了300多款软件,覆盖分子生物学、新能源、新材料、大气海洋环境、地球、物理、工业仿真、生命医药、汽车制造、人工智能、高校科研、影视渲染等领域。青云拥有专业的HPC软件维护团队,支持用户自定义安装应用软件,可以做到应用无限制,满足不同人群的计算需求,节省大量配置时间。

          苗慧谈到,QingCloud EHPC具备四大优势。一是弹性伸缩,按需配置。用户在使用过程中可以根据作业运行高峰、业务量随时进行扩展和缩容;二是只需使用,无需运维,QingCloud EHPC平台有专业的运维工程师、安全工程师进行机房巡检,负责高可用的配置;三是资源租赁,性价比高,用户可以在QingCloud EHPC上获得业界最新的计算、存储、网络资源,持续提升业务运行效率;四是租户隔离,安全可靠,对于涉密行业和机密资料,青云的云计算架构采用二级网络隔离,第一级是私有网络,用户所有的节点全部在内网访问,不会与外网沟通,第二级是VPC网络,用户只能通过登录节点进行外网访问,该节点支持端口转发,让外人难以掌握连接方式。

          目前,QingCloud EHPC支持的应用场景主要面向计算密集型、数据密集型、通信密集型等应用需求,售价分为两种形式,一种是按作业计算,约为0.1元/核时,另一种是按资源和节点计算,由于服务器没有设置超线程,因此核心数就是物理核心数,例如用户买了1核2G的资源,那么这1核就代表一个物理核。

          可以看到,QingCloud EHPC解决了传统HPC用户的资源利用率低、投入成本大、运维管理重、安全防护难等痛点,发挥了云计算厂商在弹性资源、高性能计算、高速通信、软件能力等方面的优势,为高性能计算的创新注入了新的动力。“青云的超算云平台可以完美地支持大数据和人工智能融合的超算业务,并且能够以云服务的方式提供,让超算资源更便捷地交付给用户。”陈海泉表示,“未来,青云希望能让更多的超算中心加入青云的分布式云节点,共建资源共享的算力网络。”

    本文属于原创文章,如若转载,请注明来源:QingCloud EHPC上线:在云端释放自由算力https://cloud.zol.com.cn/781/7819355.html

    cloud.zol.com.cn true https://cloud.zol.com.cn/781/7819355.html report 9790   借助高性能计算推动前沿技术在行业场景中的创新应用,模拟世界万物的未来发展趋势,已成为各大企业和科研机构的共识方向。“科学家通过分析过去20年的全球卫星图像,能够获得每年森林的流失情况。为了得到这个数据,科学家使用Google Earth Engine超算平台,动用...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    周关注排行榜
    • 产品
    • 品牌
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错