云HPC时代已至 NVIDIA如何驱动数据中心网络运作

2021-11-09 17:49:28 [ 中关村在线原创 ] 作者：十一

云计算、AI、5G等技术的发展正在改变整个世界的面貌，作为承载这些新兴技术的基础设施，数据中心也在面临来自各个维度的压力，微观角度来看，近几年摩尔定律的失速正使得CPU性能增长的边际成本急剧上升。有数据表明，CPU性能的年化增长率已不足每年5%，但人们对于计算性能的需求依然居高不下，这使得云和通信服务商必须不断耗费高昂的成本来对基础设施进行升级和维护，以满足算力需求。而从宏观角度来看，随着AI的惠普，超级计算中心也正在为越来越多的用户开放，如何为数以百万计的客户提供高效的超级计算服务也成为了云服务提供商需要考虑的问题。

在此背景下，为CPU减负成为了降本增效，提高效率的有效手段。要知道，现在除了主内存和辅助内存之外的所有计算都是在CPU上完成的，面对超大规模数据处理的需求，CPU的算力已经达到瓶颈，尽可能地从CPU内核中卸载虚拟化、容器化、安全化工作负载的繁琐开销，一方面是对CPU性能价值的充分释放，另一方面也是对数据处理与存储等工作负载的更好平衡。

芯片巨头们都看到了这样的需求和趋势，近几年来在数据中心领域占据较大优势的NVIDIA先是在前年发布了首代DPU BlueField-2，然后又在去年的GTC21宣布了NVIDIA的芯片战略正式升级为CPU+GPU+DPU，足见NVIDIA对DPU市场的重视。

但DPU的作用，绝不仅仅是替CPU减负这么简单。当下的数据中心虽然足够灵活，但其基础架构就会对CPU造成极大的开销，过去以CPU为中心的数据中心已经无法满足灵活性与高性能的双重需求，换言之，过去在计算规模和数据量较小的情况下，仅凭冯诺依曼架构就能解决提高性能的问题，而在当下数据量越来越大，云计算、AI火热发展的情况下，传统的计算模型十分容易造成网络拥塞，反而加重数据中心的负担。

因此，DPU一方面能针对安全、存储、网络、AI、HPC等业务进行加速，为以后迫在眉睫的E级计算铺平了道路，另一方面则为数据中心的计算架构提供了全新的思路，以实现过去无法实现的功能。

今年的GTC大会上，NVIDIA则带来了新一代InfiniBand网络平台Quantum-2和全新升级的DOCA 1.2。前者是迄今为止最先进的端到端高性能网络平台，凭借其云原生技术，可提供每秒400Gb/s的高吞吐量和先进的多租户支持功能，可满足众多企业的要求；后者则支持了云原生架构，开发者可借助DOCA将加速安全作为一项服务进行部署。

NVIDIA Quantum-2平台即新一代400Gbps InfiniBand网络平台，包括NVIDIA Quantum-2交换机、ConnectX-7网卡、BlueField-3数据处理器（DPU）和支持新架构的软件，可为云计算提供商和超级计算中心提供极致的性能、广泛的接入能力和强大的安全性，助力AI、数据分析和高性能计算应用，并提供安全性和QoS 保证。

云HPC时代已至 NVIDIA如何驱动数据中心网络运作

整体来看，凭借每端口高达400Gbps的吞吐量，NVIDIA Quantum-2 InfiniBand可在增加三倍网络端口数量的基础上将网速提高一倍，并把数据中心网络所需的交换机减少了6倍，降低了数据中心7%的能耗与空间；此外，NVIDIA Quantum-2平台可实现多租户之间的性能隔离，因此一个租户的行为并不会影响到其他租户，同时通过利用主动遥测和支持云原生的拥塞控制机制，可确保可靠的数据吞吐量，且不受用户或应用需求高峰的影响。

不仅如此，NVIDIA Quantum-2内置的SHARPv3网络计算技术可为AI应用提供超出上一代产品32倍的加速引擎能力，借助NVIDIA UFM Cyber-AI平台，NVIDIA Quantum-2可为数据中心提供包括预测性维护在内的InfiniBand网络管理功能；同时NVIDIA Quantum-2也集成了纳秒级精度的时钟系统以同步分布式应用，有助于减少数据库处理等操作的等待时间，在纳秒时钟同步的加持下，云数据中心可成为电信网络的一部分，用来托管软件定义的5G服务。

目前，包括Atos、DataDirectNetworks（DDN）、戴尔、Excelero、惠普、IBM、浪潮、联想、Penguin Computing、QCT、超微、VAST Data和WekaIO在内的基础架构和系统厂商已支持NVIDIA Quantum-2平台。

未来的超级计算机既要提供出色性能，又需要具备多租户安全性，云原生超级计算平台正是一个理想的解决方案。为了提供卓越的裸机性能和原生支持多节点租户隔离，NVIDIA Quantum-2交换机的重要性不言而喻，它也是NVIDIA Quantum-2平台的核心，其主芯片采用7nm制程，包含570亿个晶体管，数量甚至要比NVIDIAA100 GPU还要再多一些，此外，NVIDIA Quantum-2交换机拥有64个400Gbps端口或128个200Gbps接口，并可提供最高可达2048个端口数的模块式交换机系统，交换能力超出上一代Quantum-1约5倍。凭借着在网络速度、交换能力和扩展性方面的优势，NVIDIA Quantum-2交换机成为了构建下一代高性能计算机系统的理想选择。

实现云原生超级计算平台架构升级的关键要素是DPU，而此次NVIDIA Quantum-2平台在主机端则提供了两个网络选项，分别是NVIDIA BlueField-3 DPU InfiniBand和NVIDIA ConectX-7智能网卡。

BlueField-3作为首款为AI和加速计算而设计的DPU，可助力各企业在任何规模的应用上实现领先的性能和数据中心的安全性。这款DPU针对多租户、云原生环境进行了优化，提供数据中心级的软件定义和硬件加速的网络、存储、安全和管理等服务。

BlueField-3 DPU可以从业务应用中将数据中心的基础设施服务卸载和隔离出来，实现了由传统基础设施到现代基于“零信任”环境的转型，可对数据中心的每个用户进行身份认证，保障了企业从云到核心数据中心，再到边缘的安全性，同时在效率和性能上有了更大的提升。

技术细节方面，BlueField-3 InfiniBand采用7nm工艺，包含220亿个晶体管，提供16个64位Arm CPU，以卸载和隔离各种数据中心基础设施服务，样片将于明年5月问世。

而NVIDIA ConectX-7网卡提供多达4 个连接端口和高达400Gb/s 的吞吐量，可为云、电信、AI和企业工作负载提供数据中心规模的硬件加速网络、存储、安全和管理服务。ConnectX-7具有加速交换和数据包处理(ASAP2)、高级RoCE、GPUDirect Storage，以及用于TLS、IPsec和 MACsec加密与解密的in-line 硬件加速等功能，能够为敏捷、高性能的网络解决方案提供助力。ConnectX-7让客户能够在高带宽和高密度环境中满足目前和未来的网络需求。

与BlueField-3 InfiniBand相同，NVIDIA ConectX-7同样基于7nm工艺设计，包含80亿个晶体管，其数据传输速率是目前世界领先的高性能计算网络芯片NVIDIAConectX-6的两倍，还使RDMA、GPUDirect Storage、GPUDirectRDMA和网络计算的性能翻倍，其样片也将于明年1月问世。

除了硬件之外，NVIDIA片上数据中心基础架构（DOCA）使基础设施开发者能够利用行业标准API，在NVIDIA BlueField DPU上快速创建网络、存储、安全、管理、AI和 HPC等各种应用和服务。借助DOCA，开发者可以通过创建高性能、软件定义和云原生DPU加速的服务，对未来的超级计算基础设施进行编程，现在它也迎来了1.2版本。

现如今，数据中心需要处理日益增长的用户、应用和流量，在缺乏零信任保护模式的情况下，企业极易受到攻击，这也是NVIDIA DOCA 1.2产生的背景，开发者可借助DOCA1.2零信任安全框架，实现网络安全即服务，包括建立量化的云服务控制资源访问、验证每个应用和用户、隔离可能受到影响的机器并保护数据免遭窃取等，涵盖应用、数据、设备、存储、基础架构等每个关键点。

此外，DOCA1.2提供了软件和硬件认证、硬件加速的线速数据加密、对分布式防火墙和智能遥测的支持，以及租户之间的安全隔离等策略，所有功能都可作为容器部署。

除了DOCA1.2之外，NVIDIA也带来了基于NVIDIA RAPIDS的零信任AI应用框架Morpheus，可以分析来自网络流量日志、应用日志和云日志的数据，并提醒安全运营团队注意潜在的安全漏洞。

目前NVDIA Morpheus已上市，而NVIDIA DOCA 1.2将于11月30日开放抢先体验，BlueField DPU则即将随华硕、Atos、思科、戴尔、新华三、浪潮、联想、宁畅、Quanta/QCT和超微等厂商推出的系统而推出。

从传统的高性能计算到新型的加速计算，再到现如今超级计算中心与公有云的融合，下一代超级计算中心将为HPC、AI与数分析提供尽可能高的性能，并提供安全隔离应用，同时响应用户对流量的不同需求。现如今，NVIDIA正在用3U（CPU、GPU、DPU）一体的架构使得未来数据中心的管理程序与调度程序变得更加简单，以实现从边缘到数据中心的统一架构、统一管理和统一调度。而全新的NVIDIA Quantum InfiniBand平台，正是NVIDIA迈向云HPC的重要一步。