腾讯云X荣耀：打造高性能AI底座，吞吐最高提升2倍

2025-12-29 17:52:05 [ 中关村在线原创 ] 作者：宋世鹏

去年12月，腾讯云公开了一个秘密。在评论区，有留言说：

小半年过去了，如何让荣耀推理平台性能效率更高、推理速度更快，我们一直在努力——
基于腾讯云TencentOS Server AI底座，我们为荣耀部署大模型提供了TACO-LLM加速模块，提升了推理效率和系统稳定性。

腾讯云X荣耀：打造高性能AI底座，吞吐最高提升2倍

具体来说，主要做了两件事：

一是提升推理平台的整体性能和稳定性。

荣耀的AI功能越来越多，后台往往是多个任务同时在跑，大模型调用频繁、并发量高，对AI底座的要求越来越高。

TACO-LLM加速模块采用「投机采样」技术，简单理解就是让大模型先「大胆预测一波，再快速修正」，跳过「一个字一个字计算推理」的低效流程，大幅提升推理速度，也更好地利用了GPU算力。

看看效果——

在DeepSeek-R1 满血版场景下，相对于荣耀原始线上业务性能，TTFT（首Token延迟）P95的响应时间最高降低6.25倍，吞吐提升2倍，端到端延迟降低 100%。在社区最新版本 sglang 场景下，TTFT P95 的响应时间最高降低 12.5 倍。模型运行更平稳，系统调度更顺畅。

二是优化意图识别场景的响应速度。

像这些交互类功能，对「即时反馈」要求特别高。

TACO-LLM加速模块针对这类高频调用场景进行了定向优化，在高性能GPU平台上，最大限度压缩了推理耗时。

在荣耀，TACO-LLM 让DeepSeek的推理速度：在 A平台上提升 70%，在B平台上提升 20%。

本文属于原创文章，如若转载，请注明来源：腾讯云X荣耀：打造高性能AI底座，吞吐最高提升2倍https://cloud.zol.com.cn/1108/11087130.html

手机版阅读即时更新