NVIDIA如何领跑无处不在的AI加速计算新时代？

2020-01-03 09:28:41 [ 中关村在线原创 ] 作者：徐鹏

“随着摩尔定律走向尽头，GPU加速计算已成为新的前进道路，这也是我们领先了20多年的领域。”在GTC China 2019的主题演讲环节，NVIDIA创始人兼首席执行官黄仁勋为现场的科学家、企业家、工程师、开发者等超过6000名参会者，描绘了一个面向未来的AI加速时代，“我们在为当代的‘爱因斯坦’、‘达芬奇’、‘米开朗基罗’打造计算机，当然也包括所有的人。”如今，英伟达已售出15亿块GPU，加速着地质研究、个性化医疗、数据科学、自然语言处理等领域的智慧化进程。

NVIDIA如何领跑无处不在的AI加速计算新时代？
NVIDIA创始人兼首席执行官黄仁勋

在NVIDIA的数据中心业务版图中，AI扮演着至关重要的作用，GPU可以满足大规模的并行计算需求，并且得益于Tensor Core和TensorRT的支持在云端低精度计算上构筑了技术优势，TensorRT 5可以将FP32模型转换成FP16或INT8模型，而不损失准确率，并降低能耗。围绕TensorRT，NVIDIA帮助阿里巴巴和百度构建了深度推荐系统，对TensorFlow的输出结果进行优化，通过计算寻找计算图中可以融合的节点和边，减少访问以便开发者使用CUDA将负载高效部署在任意的GPU上。

此前，企业要在互联网数以百亿计的信息流中找到用户真正关心的内容就像大海捞针，而这需要一个智能的筛选系统将有效信息从数十亿过滤到数百个，并且进行排序，依据就是对用户喜好的了解，这种推荐系统的计算平台已从CPU转向GPU。在百度，10TB量级的数据使用GPU训练成本可减少90%。阿里在处理“双11”的交易量时，使用基于GPU的深度学习模型每秒可处理780个请求。

不过，TensorRT 5仅能支持CNN，对多数语音模型所需要的RNN始终是个遗憾，TensorRT 7的发布则完善了这一特性。黄仁勋谈到：“我们已进入了一个机器可以实时理解人类语言的AI新时代。TensorRT 7使这成为可能，为世界各地的开发者提供工具，使他们能够构建和部署更快、更智能的会话式AI服务，从而实现更自然的AI人机交互。”作为NVIDIA第七代推理软件开发套件，TensorRT 7能够实现与语音代理、聊天机器人和推荐引擎等应用进行实时互动。

具体来说，TensorRT 7内置新型深度学习编译器，可以自动优化和加速递归神经网络与基于转换器的神经网络。这些日益复杂的神经网络是AI语音应用所必需的，根据Juniper Research预计，全球有32.5亿个数字语音助理被应用于设备中，到2023年该数字将达到80亿。与在CPU上运行时相比，会话式AI组件速度提高10倍以上，从而把延迟降低到实时交互所需的300毫秒阈值以下。

“实时更新的互联网信息使得推理过程无时无刻都在变化，训练模型需要大量的算力，模型也越来越复杂，这就是NVIDIA要解决的问题，要用多台服务器同时来处理。”NVIDIA加速计算产品管理总监Paresh Kharya表示，“我们提供了不断升级的各类工具和软件，例如用最新的Tensor RT支持各种各样的模型在各种情景下的部署，并且支持上百万的用户在每秒内进行数十亿次的搜索。”

NVIDIA TensorRT产品市场负责人Siddarth Sharma（图左），NVIDIA加速计算产品管理总监Paresh Kharya（图中），NVIDIA企业边缘计算总经理Justin Boitano（图右）

要想实现真正的会话式AI，就要在毫秒级的时间段内完成复杂的数据交互，这就离不开RNN在序列数据处理和预测方面的特性，其已被广泛应用于语音识别、NLP、语言翻译、股票预测、金融风控、行程规划等实时动态数据的处理任务中。通过TensorRT的新型深度学习编译器，全球的开发者能够将这些网络（例如定制的自动语音识别网络以及用于文本-语音转换的WaveRNN和Tacotron 2）实现自动化，并实现最佳的性能和最低的延迟，新的编译器还能优化基于transformer的模型。

NVIDIA TensorRT产品市场负责人Siddarth Sharma透露，NVIDIA研发会话式AI加速已有数月时间，最终在TensorRT 7中实现了从语音识别到语义理解再到语音输出的全流程功能，“会话式AI是非常难的领域，要想把会话式AI做得比较有用，要符合两个条件，首先是在300毫秒内将三个部分完成，而且做得足够智能化，期间会有非常多的复杂模型需要计算，尽管Tensor RT仍需完善，但已可以覆盖整个流程。”

TensorRT 7能够快速优化、验证并部署经过训练的神经网络，为超大型数据中心、嵌入式或汽车GPU平台提供推理能力。相比TensorRT 5仅支持30种模型，TensorRT 7可以支持多达1000种不同的计算变换和优化，包括最新的BERT、RoBERTa等，并且可以扩展到基于CUDA的任意GPU计算环境中。

在NVIDIA，软件工程师的数量要超过硬件工程师，这也是该公司对软件高度重视的体现之一。在做硬件设计时，NVIDIA会确保其可编程的灵活性，以便加速计算可用在各个领域，同时也在持续完善软件堆栈，无论是对推理速度的提升，还是训练模型的预部署，NVIDIA始终保持着与开发者的紧密沟通，让TensorFlow这样的AI框架与硬件协同作业，并将更多的软件库整合到开发框架中，方便开发人员随时调用。

黄仁勋认为，制程工艺技术固然重要，但要想在两年后实现AI性能的四倍提升，仅靠制程是无法做到的，“比如我们的‘Turing’芯片，制程工艺是12纳米，因为它的架构和设计都很好，实际上能效已超过了7纳米的GPU。当我们谈到如何让芯片达到最高性能的时候，要有架构、算法、软件和应用的共同合力。英伟达的架构规则与其他的架构是完全不一样的，这也是为什么我们能够实现20倍的提升。”

作为首个用于GPU的通用计算解决方案，NVIDIA开发的并行计算平台和编程模型——CUDA提供了开发GPU加速应用所需的一切，包括加速库、编译器、开发/调试工具、编程指南、API参考等等。如今，CUDA在NVIDIA拥抱Arm生态的进程中同样扮演着关键角色。为此，NVIDIA也通过对PCI Express的支持连接了每一颗Arm芯片。

年初，英伟达为Arm带来了CUDA-X软件平台，并在SC19上发布了参考设计平台，使企业能够快速构建GPU加速的Arm服务器，该平台由硬件和软件基础模块组成，英伟达将提供Arm兼容软件开发套件的预览版本，该版本包含NVIDIA CUDA-X库和加速计算开发工具。为了让Arm平台上的应用实现GPU加速，英伟达及其高性能计算应用生态合作伙伴还编译了大量代码。除了应用层面的合作，英伟达还与Canonical、Red Hat、SUSE强化了基础开发工具。

而在GTC China 2019上，NVIDIA又推出了用于自动驾驶和机器人的高度先进的软件定义平台——NVIDIA DRIVE AGX Orin，Orin系统级芯片集成了NVIDIA新一代GPU架构和Arm Hercules CPU内核，以及全新深度学习和计算机视觉加速器，该芯片由170亿个晶体管组成，每秒可运行200万亿次计算，几乎是上一代Xavier系统级芯片性能的7倍。由于Orin和Xavier均可通过开放的CUDA、TensorRT API及各类库进行编程，因此开发者能够在一次性投资后使用跨多代的产品。

“通过将CUDA平台和Arm架构进行兼容，无论是AI、HPC还是其他领域，我们可以在加速计算上为客户提供更多的选择，与此前以CPU为基础的计算方式大不相同，例如能够让高性能计算的性能提升达到20、30甚至是100倍。不仅是在架构上进行了设计，更重要的是我们通过软件的方式使得性能进一步提升。”Paresh Kharya表示，“软件对加速计算的性能提升是非常重要的，未来我们会继续在各个平台上对软件进行完善以提升性能。”