2022年下半年,AI文生图软件率先点燃了生成式人工智能的热度,而后这股热潮随着ChatGPT的发布达到了巅峰。虽然最开始生成式AI的应用场景偏向娱乐创作,但很快企业就意识到了其在提升自身商业竞争力方面的作用,并尝试将生成式AI融入到不同的商业模式之中。有数据显示,到2026年,80%的企业将会使用生成式AI,并有50%的企业在边缘场景中部署各种不同的机器学习或者深度学习应用,从而提升企业竞争力。
但由于任何企业都可以访问相同的基础模型,所以要想构建更懂业务、更懂用户的生成式AI应用,关键则在于数据层面。“数据是企业在生成式AI时代取得成功的关键。企业要想在生成式AI取得成功,就必须从数据层面做起,提升基础模型的能力。作为全球云计算的开创者和引领者,亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”亚马逊云科技大中华区产品部总经理陈晓建表示。
诚然,数据既是构建模型的基础,也是释放模型能力的重要工具。现存的所有生成式AI模型都诞生于大规模且高质量的数据集,这些基础模型在和数据进一步结合后,可以产生独特的价值,例如2022年12月成立的Perplexity正是将传统搜索,客户数据与大型语言模型的推理能力和文本转换能力相结合,吸引了大量的用户。
那么,企业应该如何构建全面的数据能力,从而利用自身的数据差异化生成式AI应用,以产生更多价值呢?陈晓建认为,模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力是最为重要的三个方面。
恰好,这也是亚马逊云科技能够为客户提供的能力。
从数据存储、清洗再到治理,全方位解决方案应对数据挑战
众所周知,任何一个AI应用都离不开推理和训练两个步骤,而从原始数据集到训练出基础模型则需要解决三个主要问题,一是找到合适的存储来承载海量数据,二是清洗加工原始数据使其变为高质量的数据集,最后则是对整个组织内的数据进行数据治理。
具体来说,在数据存储层面,需求主要体现在扩展性和响应速度上。一方面,不管是微调也好,预训练也罢,都需要海量的可达PB级别的多模态数据,由于其文件格式多种多样,且需要抽取处理转换,所以数据存储的扩展性十分重要。另一方面,为了避免因为数据传输瓶颈造成计算资源的浪费,存储性能必须跟上计算资源,以最快的速度进行响应。
亚马逊于2006年推出的Amazon Simple Storage Service(Amazon S3)对象存储堪称是云上扩展性的代名词,它支持广泛的数据协议,能够轻松应对各种数据类型,还支持智能分层以降低训练成本。而专门构建的文件存储服务Amazon FSx for Lustre则能够提供亚毫秒延迟和数百万IOPS的吞吐性能,进一步加快模型优化的速度。
在数据清洗层面,企业则面临着十分繁重的数据清洗加工任务,为此,亚马逊云科技推出了Amazon EMR Serverless和Amazon Glue两项服务,前者采用无服务器架构,能够预置、配置和动态扩展应用程序在每个阶段所需的计算和内存资源,而后者则是简单、可扩展的无服务器数据集成服务,可以更快地集成数据,并连接不同数据源以简化相关的代码工作。在这两项服务的赋能之下,企业可以轻松完成数据清理、去重、乃至分词的操作,从而将精力更加专注在生成式AI的业务创新上。
在数据治理层面,现如今多数企业都面临在多个账户和区域中查找数据的挑战,同时也缺乏有效的数据治理工具。而亚马逊云科技推出的Amazon DataZone服务则能让企业跨组织边界大规模地发现、共享和管理数据,不但能够为多源多模态数据进行有效编目和治理,而且还提供简单易用的统一数据管理平台和工具,从而为用户解锁所有数据的潜能。
让企业专有数据释放更大价值
众所周知,基础模型的能力虽然广泛,但并不专业,由于缺乏垂直行业的专业知识,也缺乏时效性,甚至有可能生成错误信息,所以企业需要通过将自身的数据将模型有机结合,从而让模型释放更多价值,而这也成为了企业构建生成式AI数据基座的重要能力之一。
现如今,检索增强生成(Retrieval-Augmented Generation,RAG)技术被普遍认为是实现数据与模型结合的主要途径之一,它通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。RAG的核心组件就是向量存储,由于现代应用程序需精准理解用户需求并正确关联产品或内容,这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中,这些框架又依赖于功能各异的数据库,这使得数据库成为实施RAG技术的理想平台。
目前亚马逊云科技已经在八种数据存储中添加了向量搜索功能,让客户在构建生成式AI应用程序时能够拥有更大的灵活性。例如,图数据库擅长处理复杂关联,在社交网络、推荐系统、欺诈检测、知识图谱等领域被广泛应用;而知识图谱擅长结构化知识,并能够确保数据准确,劣势在于不能理解自然语言,只能做严格推理。将这两者结合可以获得更精确专业的信息以减少幻觉,也可以对不准确的回答进行溯源和纠偏。
值得一提的是,亚马逊云科技还专门构建了图数据库Amazon Neptune,并为其推出了分析数据库引擎,能够提升80倍的图数据分析速度,使用内置算法可在几秒钟分析数百亿个连接。通过将图和向量数据一直存储能够实现更快的向量搜索。
提升生成式AI效率,助力应用飞速发展
对绝大多数生成式AI应用而言,基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间,基础模型每次调用时长往往达到秒级。此外,每次调用基础模型也会增加成本。而由于终端用户的大部分问题是相似甚至重复的,因此可以通过将之前问答生成的新数据存入缓存,以在不调用模型的前提下直接通过缓存给出回答,达到减少模型调用、节约成本的目的。
亚马逊云科技推出的Amazon Memory DB内存数据库本身就是一个高速的缓存,同时也支持向量搜索。它能够存储数百万个向量,只需要几毫秒的响应时间,能够以99%的召回率实现每秒百万次的查询性能。
从占领市场的角度考虑,无服务器也是诸多企业考量的重要因素之一,但是无服务器背后有着复杂的工作,包括安全隔离、故障处理、负载均衡、自动扩展等等,而亚马逊云科技积累多年的丰富经验可以为客户提供令人信任的服务,拿用于向量搜索的Amazon OpenSearch Serverless来说,该服务可最大限度为企业减少运维负担和成本,消除性能瓶颈,使企业能够专注于生成式AI的业务创新。
“我们希望每一个企业在生成式AI时代借助亚马逊云科技的服务打造坚实的数据基础。这样企业就可以高效安全地将海量的多模态数据和各种基础模型结合在一起,创建出一系列具有独特的价值的生成式AI应用程序并收到终端用户的欢迎,进而产生更多的数据。这些新数据又会继续提升模型的准确度,创造更好的用户体验,从而实现生生不息的正向生成式AI数据飞轮,带动我们企业的业务走向成功。”陈晓建在最后表示。
本文属于原创文章,如若转载,请注明来源:三大核心能力领衔 亚马逊云科技持续构建AIGC时代数据基座https://cloud.zol.com.cn/870/8709182.html