01亚马逊云科技全栈联动创新
产品:云计算豪华机柜AES61042B 国普达 机柜一个无可争议的事实是,由人工智能带来的巨大价值潜能正在激活新一轮产业变革周期,引领整个社会走向第四次工业革命。从近日举办的CES 2025上也不难看出,“All in AI”早已不是一句简单的口号,从AI芯片到药物研发,从智能工厂到智慧座舱,AI应用场景正在多点开花,不断向消费电子、汽车、家电、医疗健康等各个领域延伸,推动千行百业的数智转型。
但对不少企业而言,高昂的开发成本和技术投入、对存力、网络的高要求、乃至可持续方面的挑战都成为了亟待解决的问题。
作为全球云计算领域的探索者和开创者,亚马逊云科技多年来始终践行创新实践,用来帮助客户突破复杂的技术,实现对科技的惠普。身处AI时代,亚马逊云科技更是开创性地在生成式AI领域提供了包括底层基础设施、中间层的模型以及上层应用在内的三层技术栈,来帮助企业正确、合理、安全、高效地使用生成式AI。
就在不久前的2024 re:Invent全球大会期间,亚马逊云科技更是带来了令人眼花缭乱且数量惊人的新技术发布,其中不仅有生成式AI三层技术栈的全面强化,还有计算、网络、存储、数据库以及基础建设等领域的一系列创新。
自研芯片引领算力革新
算力是AI发展的核心驱动力,无论是机器学习、深度学习、自然语言处理还是计算机视觉等AI应用,都需要强大的计算能力来支撑。作为第一家将GPU部署到云端的云服务提供商,亚马逊云科技深知算力的重要性,并早早涉足了芯片自研领域,而专为大规模AI训练和实时推理而设计的Amazon Trainium2正是亚马逊云科技芯片战略的巅峰之作。
目前,基于Amazon Trainium2的EC2 Trn2实例已经正式投入商用,一经亮相便展现出惊人的性价比优势,与市场主流的GPU实例相比,EC2 Trn2的性价比提升幅度高达30-40%。
此外,配备了64个Trainium2芯片的EC2Trn2 UltraServers服务器也在2024 re:Invent全球大会期间震撼登场,具备高达83.2Petaflops的超强浮点算力,这一算力水平相当于单一实例的四倍之多,为大规模、高强度的计算任务提供了澎湃动力。
大规模集群方面,亚马逊云科技重磅推出了Project Rainier,这是一个拥有数十万个Trainium2芯片的新集群,该集群将支持更大规模和更复杂的AI训练项目,为诸如科研探索、产业升级等需要大规模算力支持的领域开辟了全新的发展空间,助力前沿创新突破重重阻碍,实现跨越式发展。
展望未来,亚马逊云科技表示,采用3nm工艺制程的下一代Trainium3芯片已进入紧锣密鼓的研发阶段,预计将于2025年末正式上线,届时有望使集群性能实现四倍的飞跃式提升,并在性能、能效以及密度等关键指标上树立全新的行业标杆。
为构建生成式AI提供更多模型选择
模型选型对企业来说一直是个大问题,这是因为不同的企业有着不同的行业属性和落地场景,一个模型走天下的情况在现实世界几乎不可能存在。模型选的太复杂,可能会大材小用,选择能力不足的模型,则会白白浪费企业的成本投入。因此在2023年,亚马逊云科技就推出了全托管式生成式AI服务Amazon Bedrock。
如今,Amazon Bedrock平台也迎来了具有里程碑意义的重大升级。首先是进一步丰富了模型库,包括Luma AI、poolside在内的前沿模型均已被引入,并及时更新Stability AI的最新研究成果,同时借助全新上线的Amazon Bedrock Marketplace,为用户呈上多达 100 余种涵盖热门、新兴以及专业领域的多样化模型,全方位满足不同业务场景的独特需求。其次则是优化了推理性能,通过低延迟优化推理技术、模型蒸馏策略以及提示词缓存机制等一系列创新举措的落地实施,Amazon Bedrock平台实现了推理准确性的显著提升、成本的有效控制以及响应速度的大幅加快。
不但如此,Amazon Bedrock还整合了GraphRAG这样的先进知识库功能,可以进一步挖掘数据潜在价值,提升数据利用效率,并且,凭借自动推理检查功能以及多智能体协作技术的创新性应用,切实增强了AI系统的安全性,有力推动智能体技术向前发展。
更重要的是,亚马逊云科技还在re:Invent大会期间推出了Amazon Nova系列模型,其中包括文生文模型Nova Micro,低成本多模态模型Nova Lite,在准确性、速度和成本间实现平衡的Nova Pro、可处理复杂推理任务的Nova Premier、新一代图像生成模型Amazon Nova Canvas以及新一代视频生成模型Amazon Nova Reel。
特别值得一提的是,在各自对应的智能应用细分领域,Nova Micro、Lite和Pro相较于Amazon Bedrock平台中表现最为优异的模型,不仅成功将应用成本削减至少75%,同时还以卓越的运算速度,成为同类模型中的佼佼者,为企业大规模部署AI解决方案提供了极具性价比的选择。
为AI上层应用打好基础
对很多企业来说,将生成式AI引入工作场景中后,往往会发现效果并不尽如人意,由于通用的生成式AI应用不了解企业的业务、数据、客户、运营或者员工,因此能力会被极大限制,针对这一问题,亚马逊云科技在2023年的re:Invent大会期间推出了专为企业业务量身定制的生成式人工智能工作助手Amazon Q,并凭借其强大的功能特性,深入至软件开发与商业应用的各个环节,为传统工作负载的转型升级开辟出一条全新的通途。
如今,随着AI智能体逐渐成为人工智能领域的全新创新基石,亚马逊云科技也适时地为Amazon Q Developer推出三款全新智能体,它们能够自动化执行单元测试、文档编制以及代码审查等一系列复杂流程,并且通过与GitLab展开深度集成,进一步拓展自身应用场景,为开发团队带来前所未有的便捷体验。
与此同时,针对Windows.NET、VMware和大型机等传统工作负载,Amazon Q也提供了一系列转型功能,能够有效缩短转型周期、降低转型成本,助力企业快速实现业务现代化。此外,Amazon Q Business和Amazon Q in QuickSight的洞察能力也得到了显著强化,使得复杂工作流程的自动化实现变得更加轻松自如。
在模型落地方面,聚焦于为客户提供高效、便捷的模型构建、训练与部署服务的Amazon SageMaker AI也迎来了新功能,特别是全新推出的Amazon SageMaker HyperPod集成了诸如新训练配方功能、灵活训练计划设定以及任务治理等一系列先进特性,并能够直接使用合作伙伴的热门AI应用,从而帮助客户以更快的速度开启流行模型的训练之旅。借助灵活训练计划的实施,最多可节省数周宝贵时间,同时将成本降低幅度高达40%,进一步加快模型落地的速度。
一体化平台挖掘数据无限价值
众所周知,人工智能的三要素包括算力、算法和数据,其中海量的数据不仅是人工智能的重要原料,也是企业实现创新发展、赢得市场竞争的核心资产。多年以来,亚马逊云科技在数据分析领域提供了包括Amazon Redshift、Amzon EMR、Amazon Opensearch、Amazon Kinesis/Amazon MSK、Amazon Glue、Amazon Athene、Amazon Quicksight在内的多种专用服务组合,并在re:Invent大会期间带来了新一代Amazon SageMaker,从而助力客户打造一体化数据平台,打破传统数据分析工具各自为政的僵局,充分挖掘数据蕴含的无限价值。
具体来说,新一代Amazon SageMaker的定位是满足客户所有数据、分析和AI需求的统一平台,其将快速SQL分析、PB级大数据处理、数据探索与集成、模型开发与训练以及生成式AI 等一系列功能有机融合于一个高度集成的平台之中,并通过全新打造的Amazon SageMaker Unified Studio作为核心枢纽,为客户提供了一个便捷、统一的数据和AI 开发环境,使得用户能够轻松地在其中查找并访问组织内部的所有数据资源。
这其中也包括在数据管理领域推出全新的Amazon SageMaker Lakehouse,它带来了一场全新革命,创新性地实现了数据湖、数据仓库、运营数据库以及企业应用程序中数据的统一管理模式,允许客户运用熟悉的AI和机器学习工具,或者借助ApacheIceberg兼容的查询引擎,对存储其中的数据进行便捷访问和高效处理,不仅有效解决了数据碎片化、孤岛化的难题,也为企业挖掘数据价值提供了强有力的支撑。
核心领域持续深耕细做
作为全球云计算领域的开创者与引领者,亚马逊云科技始终坚守创新驱动发展的理念,除了上文中提到的自研芯片外,亚马逊云科技也在计算、网络、存储以及数据库等核心领域持续深耕细作,助力企业在数字化转型的道路上稳步前行。
例如在网络方面,第二代UltraCluster网络架构(即10p10u)的推出开启了高速互联的未来,它不仅能完美支持超过20000个GPU的协同工作,将带宽提高到10Pb/s,更是将延迟严格控制在了10ms以内,这一突破性的网络升级直接使得模型训练时间缩短了至少15%,为那些对实时性要求极高的AI应用场景注入了强大的动力源泉。
在存储方面,AmazonS3新增了Metadata元数据功能,能够实现对元数据的自动获取与实时更新,使得数据管理变得更加智能、高效;同时,专门针对Iceberg表优化设计的S3 Tables存储类型重磅推出,一举将查询性能提升三倍,事务处理能力提升十倍,为大数据的存储与检索提供了更为强大的保障。
而在数据库方面,亚马逊云科技推出了全新的无服务器分布式SQL数据库Amazon Aurora DSQL,其采用的active-active架构搭配自动故障恢复功能,使得应用程序能够在任意端点自由进行读写操作。它不仅能够提供高达99.999%的多区域可用性,还具备近乎无限的可扩展性,彻底摒弃了传统数据库分片或实例升级的繁琐操作,为分布式数据库的发展开辟了一条全新的道路。
此外,Amazon DynamoDB global tables则在原有基础上进一步增加了多区域强一致性支持,这一关键特性的提升使得其分布式数据库服务能力得到了显著增强,能够确保跨国业务数据在不同区域之间实现实时、精准的同步,为全球范围内的企业协作提供了无缝流畅的体验。
绿色基建点亮可持续未来
由AI发展带来的算力需求仍在增加,数据中心在加速扩张的同时也带来了严重的能耗和碳排放问题,根据国际能源署(IEA)的预测,由AI迅速普及带来的超高算力需求,将推动全球数据中心耗电量持续增长,到2030年,全球数据中心的总耗电量将达到1.3万亿度,占全球电力需求的3.2%左右。如何有效降低能耗与排放,实现数据中心的绿色转型,已成为行业内外共同关注的焦点。
面对这一问题,亚马逊云科技通过对数据中心设计的大胆创新与深度优化,成功实现了基础设施可用性高达99.9999%的卓越成就,同时将受电气问题影响的机架数量大幅减少89%。创新性的“液体到芯片”冷却系统巧妙地融合了空气和液体冷却的双重优势,使得机械能耗降低了46%,并且每个站点的计算能力还额外增加了12%。这一系列的优化举措,不仅打造出了高效能的数据中心典范,还为可持续发展提供了有力保障。
不但如此,亚马逊云科技还创新性地采用可再生柴油作为备用发电系统燃料,相较于传统的化石柴油,此举可使温室气体排放减少90%;同时,在数据中心建筑的混凝土固有碳排放量方面,也相较于行业平均水平最高可降低35%。
结语
创新一直都是亚马逊云科技发展的关键引擎,更重要的是,亚马逊云科技创新的源头并非是“灵光乍现”,更多则是来自客户的需求,正如亚马逊云科技大中华区产品部总经理陈晓建所说的,“亚马逊云科技是全球云计算的开创者和引领者,更是企业构建和应用生成式AI的首选,今年re:Invent全球大会的一系列重磅发布再次印证了这一点。我们不仅在云的核心服务层面持续创新,更在从芯片到模型,再到应用的每一个技术堆栈取得突破,让不同层级的创新相互赋能、协同进化。我相信,只有这样全栈联动的大规模创新才能真正满足当今客户的发展需求,加速前沿技术的价值释放,助力各行各业重塑未来。”