热点:
    ZOL首页 > 云计算 > 正文

    腾讯云X荣耀:打造高性能AI底座,吞吐最高提升2倍

      [  中关村在线 原创  ]   作者:宋世鹏

    去年12月,腾讯云公开了一个秘密。在评论区,有留言说:

    腾讯云X荣耀:打造高性能AI底座,吞吐最高提升2倍

    小半年过去了,如何让荣耀推理平台性能效率更高、推理速度更快,我们一直在努力——
    基于腾讯云TencentOS Server AI底座,我们为荣耀部署大模型提供了TACO-LLM加速模块,提升了推理效率和系统稳定性。

    腾讯云X荣耀:打造高性能AI底座,吞吐最高提升2倍

    具体来说,主要做了两件事:

    一是提升推理平台的整体性能和稳定性。

    荣耀的AI功能越来越多,后台往往是多个任务同时在跑,大模型调用频繁、并发量高,对AI底座的要求越来越高。

    TACO-LLM加速模块采用「投机采样」技术,简单理解就是让大模型先「大胆预测一波,再快速修正」,跳过「一个字一个字计算推理」的低效流程,大幅提升推理速度,也更好地利用了GPU算力。

    看看效果——

    在DeepSeek-R1 满血版场景下,相对于荣耀原始线上业务性能,TTFT(首Token延迟)P95的响应时间最高降低6.25倍,吞吐提升2倍,端到端延迟降低 100%。在社区最新版本 sglang 场景下,TTFT P95 的响应时间最高降低 12.5 倍。模型运行更平稳,系统调度更顺畅。

    二是优化意图识别场景的响应速度。

    像这些交互类功能,对「即时反馈」要求特别高。

    TACO-LLM加速模块针对这类高频调用场景进行了定向优化,在高性能GPU平台上,最大限度压缩了推理耗时。

    在荣耀,TACO-LLM 让DeepSeek的推理速度:在 A平台上提升 70%,在B平台上提升 20%。

    本文属于原创文章,如若转载,请注明来源:腾讯云X荣耀:打造高性能AI底座,吞吐最高提升2倍https://cloud.zol.com.cn/1108/11087130.html

    cloud.zol.com.cn true https://cloud.zol.com.cn/1108/11087130.html report 1068 去年12月,腾讯云公开了一个秘密。在评论区,有留言说:小半年过去了,如何让荣耀推理平台性能效率更高、推理速度更快,我们一直在努力——基于腾讯云TencentOS Server AI底座,我们为荣耀部署大模型提供了TACO-LLM加速模块,提升了推理效率和系统稳定性。具体来说,主要...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐经销商
    投诉欺诈商家: 010-83417888-9185
    • 北京
    • 上海
    周关注排行榜
    • 产品
    • 品牌
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错