热点:

    E级计算的深度与广度:探寻软件生态破局之道

      [  中关村在线 原创  ]   作者:徐鹏

        1945年7月26日,美国在新墨西哥州爆炸了世界上的第一颗原子弹(1.9万吨),七年3个月之后,第一颗氢弹经历了32次空爆试验后爆炸成功。而在新疆的罗布泊,中国分别在1964年和1967年成功爆炸了首颗原子弹和氢弹,两次试验仅相隔两年8个月……

        “这就是有计算机和没有计算机的差别。”在2018联想全球超算峰会上,中国TOP100发起人、软件行业协会数学软件分会常务副理事长袁国兴教授自豪地说,“当时我们用了七台计算机,其中有两台是中国造的第一款计算机,是1960年每秒1万次的中科院计算所的计算机。后来在1963年用了上海华东所的一台J501计算机,1964年用了119计算机,还有1967年的X-2计算机、1987年每秒10万次的709计算机,以及苏联送给我们的乌拉尔计算机。正是因为有了这些计算机,我们才能把一些想法、设计思路放在计算机上进行试验,大幅缩短了研发和测试周期、提升了研究能力,并且节省了非常多的经费。”

    E级计算的深度与广度:探寻软件生态破局之道
    中国TOP100发起人、软件行业协会数学软件分会常务副理事长袁国兴教授

        从计算机到超级计算机,算力的指数级攀升在推动国防、科研技术高速迈进的同时,也在气象、交通、医疗等领域改变着人们的生活。1946年,由美国军方定制的电子计算机“ENIAC”面世,当时的这个“大家伙”每秒可执行5000次加法或400次乘法运算。经过70年的发展,超算的运行速度已经达到亿亿次/秒级别。时至今日,人们讨论的已经是何时才能摘下“E级”计算这颗超算界的“皇冠”。

    E级计算要有的放矢

        好消息是,神威E级原型机已经在近日落成启用,从天河系列的70%国产化到神威蓝光的85%以上,神威E级原型机已有能力将处理器、网络芯片组、存储和管理系统等核心器件全部国产化,其搭载的“申威26010+”众核处理器、申威网络交换芯片、申威消息处理芯片均具备自主知识产权,预计在2020年完成研制部署,节点规模可扩展至数十万量级。值得一提的是,神威E级原型机所承担的35项计算任务中,已有6项入围了有超算界诺贝尔之称的“戈登贝尔奖”。

        国家超级计算广州中心主任卢宇彤在本科毕业时就参与了银河二号的研制,20多年里一直从事着银河和天河系列计算机的研发工作,是天河二号的副总设计师。她透露,中国已经部署了三套E级计算原型机,根据十三五规划会在2020年正式推出E级系统,“我们要走自主可控的道路,用国产的CPU,我们在arm上做了更多的定制,聚焦计算、缓存、通讯系统。”

    E级计算的深度与广度:探寻软件生态破局之道
    国家超级计算广州中心主任卢宇彤

        在美国和日本TOP10的系统中,80%-90%都是自研的互联网络,这也是天河一直在做的。卢宇彤表示:“我们在缓存平衡上做得比较好,毕竟当计算规模越来越大时,伴随通讯而来的缓存瓶颈也会提升,现有的解决方案可以把计算网络和存储网络融合。我们做E级系统的时候会探索各种各样的技术,但如果只是提高计算性能,对用户来讲是没有多少实际意义的。天河系统很重视应用,我们一直都是在与应用的单位联合研发的。”

        围绕HPC如何落地行业的问题已经争论多年,尽管国产超算的硬件系统已经发展得比较快,不过在应用层面与欧美相比仍然存在较大差距。无论是科技部还是国家高性能重点研发专项,都提高了应用项目的优先级。对于广州超算中心而言,已经逐渐从以系统为中心转向以应用为中心,并且将应用范畴延申到生物医药、人工智能等领域。”我们只有把应用的群体扩大了,整个技术才能够进入一个良性的循环轨道。大家一直在讲生态环境,如果没有一定的用户群,是不可能建立起这个生态环境的。”卢宇彤说。

    HPC从专用走向行业化

        翻看2017年的中国TOP100榜单,超过80%的计算机都是新上榜的,也就是说这些HPC在研制成功后要尽快应用,否则就会消耗高昂的经费。从TOP榜单的排名可以看到,前10名的系统基本都是国家投资的实验室计算机,像太湖之光的架构就是采用了MPP(大规模并行处理)分布式方案,刚刚夺魁的SUMMIT也是将内存和存储系统做到足够大以满足美国能源部的要求。

        而要想衡量一个国家的超算普及和发展程度,就要看系统安装量了。在今年6月公布的ISC TOP500中,联想以117套的份额成为首家在该榜单中问鼎全球第一的中国厂商,从其分布于科研院所和各个行业的案例来看,已经可以证明中国在HPC应用领域的崛起速度,要知道在去年11月这一数字还是67套。

        作为中国最大的SUV生产企业,长城汽车正在借助HPC提升研发能力,实现降本增效,使得风阻、油耗、碰撞强度等方面有了较大改观。通过并行计算的方式,长城汽车提高了系统的计算能力,集中存放和管理降低了单台工作站的采购数量和整体运维成本。此外,软硬件资源也在统一调度的同时,做到了资源的按需分配。

        从2000年接触仿真研发,到如今新集群交付用户三期上线,18年的系统迭代让长城汽车IT管理本部系统科负责人林海鑫感触良多:“最初想要投资HPC的时候找了国际知名的硬件厂商,他们讲的最多的架构和硬件层面,一问到怎么建就说要参考软件,因为不同软件对硬件和中间层的调度是不一样的。后来我们找了软件厂商,他们又给推到了硬件厂商,而中间层的厂商又告诉我要软硬结合。”后来,联想把硬件、中间件、软件整合到了一起交付,并且提供了专业的技术团队支持,顺利拿下了长城汽车HPC系统的一二三期建设。

        “联想有着完整的体系,从硬件到中间层、再到技术团队对应用软件都有很强的把控能力,并且可以找到技术和商业化的平衡点。”这种一站式服务使得长城汽车HPC系统从建设、实施到后期的升级、维护和服务,林海鑫一个人就能完成。

        得益于联想的帮助,长城汽车在碰撞和研发仿真方面的计算能力平均提升四倍,单日作业量提高六倍,研发速度整体提高三倍,流体研发仿真方面的计算能力平均提升2-6.3倍。“我们在后期升级的时候没有过多的交流成本、方案审核成本,直接告诉他们要升级就好,这极大地缩短了产品研发的周期。”林海鑫说。

    AI时代推进HPC应用化

        当算力不再是硬件的绝对瓶颈,如何让HPC落地到各行各业就离不开软件的支持,林海鑫早年间的困扰并没有彻底解决。就像中国工程院院士、天河一号和天河二号总设计师、国防科技大学计算机学院院长廖湘科所说的,要想实现真正的全面国产化,就必须补齐超算工程计算软件的短板,“这个短板的补齐比做高性能计算更难,因为这件事情没有取巧的方法,只能靠长期的积累。”

        对此,卢宇彤也表示了赞同:“广州超算中心这几年的应用拓展,最重要的就是软件平台的搭建。我们需要从体系结构设计的时候,就开始做系统软件和应用软件的协同设计,希望未来在E级系统研制成功的时候,我们的应用软件和系统软件也可以准备好。”可以说,软件平台就是应用与系统之间的桥梁,尤其是在人工智能大行其道的今天,传统的编程软件无法满足更多应用的需求,这也是为何联想要成为一家端到端的AI解决方案供应商。

        毕竟,HPC与AI的结合已经成为趋势,在美国E级计算系统部署的十多项应用中,不少都是与AI相关的。企业客户需要的不只是一个适配AI的可视化界面,还要了解怎样优化系统和平台,针对不同的技术应用和场景进行定制。以联想智能超算平台LiCO为例,快速安装部署、融合主流AI框架的特性使得管理员可以轻松上手,并且能够实现集群和作业模板定制化。有了这样开放的HPC集群和API接口,各行各业的客户才能在匹配HPC业务场景时找到用武之地。

        联想数据中心业务集团中国区方案营销总监李炜谈到,近几年中国的自主工业水平越来越高,涌现出了长城、吉利等优秀的民营企业,为联想提供了服务更多客户的机会,而在这一过程中,也是联想与行业客户积累经验、共同建设好HPC软件生态圈的重要机遇。

    E级计算的深度与广度:探寻软件生态破局之道
    联想数据中心业务集团中国区方案营销总监李炜

        当然,很难有一款软件可以让所有人都能用,而且所要解决的问题、面向的领域、算法模型都不一样,这就使得仅靠一家HPC厂商是很难带动全行业的,更需要国家在基础软件层面的持续投入。“很多人对软件的认识是不够的,以前我们推银河和天河系统,招了一些科研机构的标,算硬件系统的钱可以,但如果是自研的软件,他们就觉得你把软件送给我就好了,不用算钱,这个观点是要改变的,我们要承认这些软件的价值。”卢宇彤说。

    结语

        如果说算力决定了超算的深度,那么软件应用就决定了超算的广度。从良性的生态发展来看,HPC的发展不能一直追求Linpack值而忽视了对整个社会的价值,这份价值正是“戈登贝尔奖”存在的意义。在迈向E级计算的道路上,中国将有很大可能再次抢占先机,不过这一次除了在TOP10希望看到更多中国HPC的身影,笔者更期待的是以联想为代表的超算厂商可以在系统部署数量方面再进一步。

    本文属于原创文章,如若转载,请注明来源:E级计算的深度与广度:探寻软件生态破局之道//cloud.zol.com.cn/697/6977517.html

    cloud.zol.com.cn true //cloud.zol.com.cn/697/6977517.html report 6743 1945年7月26日,美国在新墨西哥州爆炸了世界上的第一颗原子弹(1.9万吨),七年3个月之后,第一颗氢弹经历了32次空爆试验后爆炸成功。而在新疆的罗布泊,中国分别在1964年和1967年成功爆炸了首颗原子弹和氢弹,两次试验仅相隔两年8个月……“这就是有计算机和没有计算机...
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    周关注排行榜
    • 产品
    • 品牌
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错