数据洪流正在席卷整个世界。研究机构Statista预计,至2025年全球数据创建量——即创建、捕获、复制和使用的数据总量,将超过180ZB。面对指数级增长的数据规模和愈发复杂的数据类型,企业想要从中获得商业洞察变得越来越难。究其原因,是业务人员难以从海量数据中发现其关联性,缺乏行之有效的工具,无法找到真正有价值的信息来指导业务发展。此时,就不能不提大数据技术的演进。
从Hadoop诞生之日起,大数据的发展走过了十余年,期间像存储、离线处理等基础问题已经得到了解决。随着深度学习、机器学习等AI技术的逐级深入,人们开始思考如何通过挖掘大数据的关联性去探索“隐藏”在背后的商业价值,这种诉求也将一个18年前的技术再次推到了台前——图数据库。与以往用表格处理数据相比,图没有表的概念的,就是数学上点和边的关系,所有的数据可以汇集在一起。
对于传统的关系型数据库来说,虽然其具有灵活的特点,可以做各种复杂计算,但在大数据时代对于并行计算、多机版的支持是缺乏的,而文档数据库、关键字、内存数据库,牺牲了业务的一些表达能力,得到的好处就是可扩充,但很多以前用关系型数据库能表达的问题却表达不了。从存储角度来说,图是存储数据最自然的关联模型。从计算角度来说,则适合数据和人工智能。由于早年间计算性能和架构的局限,使得图数据库这个在计算机科学领域较为高阶的研究成果在近几年才开始显露威力。
在Neo4j高级产品市场总监Maya Natarajan博士看来,伴随数据量猛增而带来的则是数据更加复杂且高度关联,关系型数据库已无法满足处理复杂关联数据的需求,不能使客户从数据中完全受益。相比之下,图数据库是专为存储和分析高度关联数据而生的,“随着人工智能的发展和大数据时代的到来,并行计算类的处理需求增加,图数据库客户反馈,图在关联模型方面具有更大的优势,更具有前瞻性,可以更加充分地利用关联数据并发掘他们的价值。”
Neo4j高级产品市场总监Maya Natarajan博士
事实上,近年来的数据库领域正在经历融合式的创新,文档数据库、图数据库、时序数据库、NoSQL 逐渐成为主流。与此同时,数据库也越来越多地融入了云计算、AI/ML等技术。拥有13年历史的瑞典企业Neo4j是图技术的开创者,也是原生图数据库市场的领导者。Neo4j的产品有社区版和企业版,服务着全球超过1000家企业客户。过去十年,Neo4j从图数据库逐步演变成为图数据平台。与传统的图数据库不同,图数据平台整合了数据科学、人工智能,机器学习,充实和扩大了解决方案的功能。
Gartner预测,2012年至2022年,全球图处理及图数据库的应用将以每年100%的速度迅猛增长。DB Engines近七年数据库流行趋势也显示,图数据库相较其他主流数据库受欢迎程度遥遥领先。在图数据库高速发展的浪潮之中,知识图谱的重要性不言而喻。根据IDC亚太数据和内容技术2022年预测报告,到2025年亚太地区2000家企业中约有30%将部署图数据库。到2023年,亚太地区20%的商业智能将整合知识图谱。
另据Neo4j一项针对100名企业高管的相关调查显示,88%的企业管理者已经认识到知识图谱的价值,认为知识图谱可以帮助跨越管理和数据治理的瓶颈,在弥合数据孤岛,改进AI或者机器学习,以及协助开辟新收入来源等方面发挥重要作用。到2023年80%的数据和分析创新项目将使用图数据库来实现,而2021年只有10%的创新项目是使用图数据库。
阿兰·图灵研究所将知识图谱定义为“对知识进行编码以在开放、不断发展、去中心化系统中大规模使用”的最佳方式。简而言之,知识图谱是具有丰富含义、相互关联的数据集。企业可以针对基础数据进行推理,并且自信地将其用于复杂的分析和决策中。
Maya Natarajan认为,知识图谱有三方面价值:第一、知识图谱可以将数据转化为智能,使企业更好地管理人工智能和机器学习;第二,知识图谱能帮助企业在不改变现有数据格局和基础设施的前提下,进行数据编排和自动化,为管理者提供连续观察层,优化数据管理、数据预测和数据创新,加速企业数字化转型;第三,知识图谱能够帮助企业开创新的收入来源,提高业务效率,应用场景分布在金融、制造、零售、电信、互联网等多个行业。
据了解,Neo4j知识图谱包含数据、显示动态内容的图数据及语义在内的三大要素。与关系型数据库的平面结构不同,当数据被抽取到Neo4j动态图结构中存储时,节点和节点之间的关系就被添加进来,为数据提供了动态的内容,即第一层上下文关系。而随着信息不断丰富,图也会不断增长。在图中获取数据并为它添加语义,就获得一个知识图。语义为图添加了第二层上下文关系,图谱就具备了深入动态的上下文关系。通过这个步骤将智能引入到数据当中,便于系统或者客户从中推断出不同的含义。
根据数据范围,Neo4j知识图谱的应用范畴划分为数据管理和数据分析。数据管理包括汇集、校验、治理和探索数据。而数据分析侧重推理、预测判定。相对应的,Neo4j提供行为图和决策图两种类型的知识图谱,协助客户从行为知识图谱过渡到决策知识图谱,实现数据分析到数据智能,完成数据创新。
Maya Natarajan介绍称,行为知识图谱是以数据管理为核心的知识图谱,其主要目的是提供数据保障,并通过数据洞察来推动决策行动。其中,数据保障侧重把不同数据源的数据聚合在一起,进行数据交叉验证从而产生洞察,数据治理包括如何溯源数据目录和结构,数据是否存在血缘关系以及是否合规,以甄别存在的风险。数据洞察专注于新知识的探索、演绎和推理,主要用例包括客户360、产品360、供应链360,以及身份验证、客户计划等。决策知识图谱侧重于数据分析、预测判定和基础图的机器学习,主要用例包括流失分析、欺诈分析、风险分析、假设分析和影响分析以及实体解析和知识图谱补全和预测模型等,例如医疗行业的患者旅程分析、制造行业的数字孪生等。
Neo4j知识图谱解决方案是一个知识图谱平台,建立在丰富的产品基础上,包括负责数据存储的Neo4j图数据库,帮助建模的知识图谱工作台,致力数据分析的图数据科学(GDS)和数据可视化工具Neo4j Bloom。作为原生的图数据平台,Neo4j专注于处理高度复杂且具有高度关联的数据,拥有超过60个图数据算法,并且可以连接各类外部平台,便于用户更充分地进行数据分析。
美国国家航空航天局利用Neo4j处理了大量的工程项目和文档资料数据,工程师可以通过学习项目知识来提高业务决策效率,数据的关联性使得查询搜索过程大幅加快;中国一家全球最大的通讯设备供应商拥有超过600个数据库,将这些数据抽取到Neo4j数据平台,数据量超过500亿节点和800亿关联,将知识图谱优化之后,客户实现了全面的产品360视图,大幅减少了查询时间,使产品团队得以进行更高级和深入的数据分析;中国某家大型银行使用Neo4j知识图谱进行配置管理,支持灵活建模,提高了客户效率,让配置管理更加自动化;全球知名PC供应商基于Neo4j图数据库,对营销和销售各关键要素的关系进行了深入挖掘,并支持了多场景的实践,帮助业务实现效率与效果的提升。
类似的案例还发生在eBay、UBS、思科、Caterpillar、AstraZeneca等企业。Neo4j所有的图数据科学项目都始于知识图谱,其67%的客户已经成功地实施了知识图谱。除此之外,Neo4j的成功也离不开对开发者生态的建设。目前,Neo4j的社区在全球拥有25万名成员,并且多数分布在中国。自2018年起,Neo4j就开始活跃在中国市场,业务足迹遍布北京、上海、广州、深圳,并与业内合作伙伴建立了良好的关系。今年,Neo4j将在大中华区开展更多的推广活动,提供更加本地化的资料,为社区成员提供更多的培训,帮助其获得Neo4j的免费认证。在产品研发上继续加大投入,持续优化产品,使其更加便于使用。
去年6月,Neo4j在F轮风险投资中获得3.25亿美元的融资,创造了私营数据库公司单笔最高融资纪录,投后估值超过20亿美元。除了继续投资图数据平台和数据科学之外,Neo4j还会重点扩展中国市场,帮助越来越多的中国企业通过图数据平台来挖掘数据的价值。“Neo4j的企业愿景就是在不同的行业场景,帮助客户深入分析高度关联的复杂数据,使业务数据变为商业智能,提高数据的应用价值,加速企业数字化进程。”Maya Natarajan说。
本文属于原创文章,如若转载,请注明来源:图计算的黄金时代 揭秘知识图谱背后的数据价值http://cloud.zol.com.cn/789/7890212.html