发布时间 : 2022-04-21 阅读量 : 248
数据治理丨研究报告丨核心摘要:
治理需求热潮:企业在数字化转型过程中先建设后治理的常态,使得数据治理愈发受到企业重视,另一方面,新兴技术与应用场景的快速落地,也带领数据治理需求在加速攀升。未来,随着非结构化数据的积累增加与ai应用的数据需求推动,企业对非结构化数据的价值化需求将加速释放,而多源异构数据基础下的数据治理模块也将获得进一步的关注与优化。
治理体系升级:目前传统数据治理体系多停留在结构性数据化治理工作,尚难满足ai应用对数据的高质量要求。企业可吸收传统体系的智慧沉淀,以ai应用数据需求为核心,优化建设“面向人工智能的数据治理”体系,显著提升ai应用的规模化落地效果。依托于数据与ai模型的紧密关联,数据治理与ai应用产品已逐步开展交汇融合,厂商参与更加多元,咨询公司、数据服务提供商和人工智能产品服务商三方阵营构建行业竞合格局。2021年面向人工智能的数据治理市场规模约为40亿元,预计五年后规模将突破百亿。
治理实践洞察:本篇报告选择金融、零售、医疗和工业四大典型行业为切入点,分析呈现各行业的信息化建设阶段与高频高价值的ai应用场景,并基于高频高价值ai应用引发的数据治理需求,对面向人工智能的数据治理体系搭建给到建设指导,同时对数据治理陷阱与发展趋势给到洞察分析。
magic data 北京爱数智慧科技有限公司
全球领先的ai数据凯发体育网的解决方案提供商
以数据重塑生产力,从数据采标处理流程确保安全隐私合规
数据:范围界定
信息经济的“货币”,早已不限于数字形式
数据的价值被不断认可,“数据资产化”已经成为了企业发展的重要组成部分。长期以来,数据被理解为以数字形式存储的信息,而目前技术可以测量更多的事件和活动,人们可以收集、存储并分析这些不被视为传统数据的各类信息,如邮件、图片、音视频等。数据可根据其特性及治理方法差异划分为内部数据与外部数据,结构化数据、非结构化数据与半结构化数据,元数据与主数据等。
数据量:爆发式增长
基础设施“扩容”、iot 广泛连接带来的数据量暴涨
数据时代来临,数据量的暴涨为企业数字化提供了基础支撑,大量的业务数据能够被采集、存储并最终创造经济效益。而很多企业在前期的信息化建设中,缺乏统筹规划,为解决当下业务问题而按照垂直的、个性化的业务逻辑独立采购与部署it系统,导致企业内部形成多个数据孤岛。数据不规范、不一致、难以互联互通成为普遍问题,阻碍企业去充分发挥数据价值。这种先建设后治理的常态,使得数据治理越来越受到企业的普遍重视,另一方面,新兴技术与应用场景的快速落地,也带领数据治理需求在加速攀升。
数据治理:需求释放
治理需求普遍存在,非结构化数据成为价值挖掘的重难点
企业历经数字化转型不同阶段时,需通过数据治理解决数据在生产、管理和使用中的问题,而数据治理的需求与复杂度也会随着企业数字化程度提升而增加。从企业内部的数据类型来看,非结构化数据占企业内数据总量的80%,却仅占整体使用率的30%,长期以来其价值未得到充分有效利用。未来,随着非结构化数据的积累增加与ai应用的数据需求推动,企业对非结构化数据的价值化需求将加速释放,而多源异构数据基础下的数据治理模块也将获得进一步的关注与优化。
数据治理:体系架构
结合企业的特点及需求,设计符合企业要求的数据治理架构
虽然业界对数据治理的定义不尽相同,但涉及的数据架构模块大体一致,核心包括数据标准管理、数据集成管理、元数据管理、主数据管理、数据资产管理、数据质量管理、数据模型管理、数据服务与数据安全管理模块。依托于企业对数据治理的侧重点不同,数据治理体系与架构也会根据企业所在的行业特点、经营性质及信息化程度的不同而有所差异。在实际设计时,一方面,企业可参考先进体系框架与行业最佳实践,另一方面,企业也需从实际需求与发展需要出发,设计搭建适合自身情况的数据治理架构。
大数据智能市场的行业规模
2021年市场规模约为553亿元,金融数据率先得到价值释放
据艾瑞咨询统计测算,2021年涵盖大数据分析预测(机器学习/深度学习模型)、领域知识图谱及nlp应用的大数据智能市场规模约为553亿元,预计2026年市场规模将达到1456亿元,2021-2026cagr=21.3%。随着市场大数据基础的完善与数据需求的唤醒推动,大数据智能市场的规模将持续走高,但未来在行业理性建设与增量市场逐步完善的大背景下,大数据智能市场增速会出现下降趋势。从细分结构来看中,金融领域的数据价值率先得到释放,市场规模占比高达32%。
大数据智能产业生态圈
大数据产业图谱与数据服务关系链
面向人工智能的数据治理:体系搭建
吸收传统体系智慧沉淀,以ai应用数据需求为核心优化建设
面向人工智能的数据治理是传统数据治理体系在以ai应用落地为导向下的体系“升级”。从数据管理维度来看,面向人工智能的数据治理体系仍会根据数据结构化流向、数据资产管理需要、数据安全需求等角度顺应搭建元数据管理、数据资产管理、主数据管理、数据生命周期管理和数据安全隐私管理等组件模块。而在数据治理过程中,则会更强调底层实现多源数据融合、数据采集频率、数据标准建立、数据质量管理,满足ai模型所需数据的规模、质量和时效,以ai应用的数据需求为核心,优化对应模块的体系建设。
面向人工智能的数据治理:效果优化
显著提升ai应用的规模化落地效果
ai数据:产业生态圈
中游厂商提供数据开发与治理服务,助力ai应用高效落地
ai基础数据服务与数据治理产业链结构为:1)上游:数据源与数据产能;2)中游:数据产品开发工具与管理服务;3)下游:人工智能应用。处于中游的两类服务商中,ai基础数据服务商使用数据采集与标注工具处理图片、语音、文本等非结构化数据,面向ai的数据治理服务商则负责使用数据治理的各组件管治多源异构数据,使其形成数据资产,从而提高数 据质量。二者处理后的数据可直接为下游的ai训练所用,使ai应用落地能够省时省力。
数智产业生态圈的参与立足点
“智”为面向人工智能的数据治理服务的核心立足点
面向人工智能的数据治理服务常包含于数据服务、平台能力和数据产品三类采购形式中。第一类,数据服务即以单独的数据治理产品形式出现;第二类,数据平台,主要包括大数据平台、数据中台、数据仓库和ai能力平台等项目;第三类,数据产品,范围限定在应用ai算法的数据产品,可划分为机器学习产品、自然语言理解产品和知识图谱三类ai产品。为保证ai算法模型的优质运行效果,更好地提供预测、决策、推荐和风控等产品功能,需要对算法模型的训练原料,即支持ai应用的底层数据,进行针对性优化治理。如今ai产品需求旺盛,ai开发平台陆续推进ai产品的规模化落地,且ai数据治理效果与最终平台产品交付效果紧密相连,ai应用驱动成为面向人工智能的数据治理服务的核心立足点。
面向人工智能的数据治理:市场规模
2021年市场规模约为40亿元,预计五年后规模突破百亿
2021年中国面向人工智能的数据治理市场规模约为40亿元。受数据平台服务、数据治理服务和ai应用建设的需求推动影响,面向人工智能的数据治理市场规模将持续上升,2026年突破百亿,达105亿元,2021-2026cagr=21.3%。2021年,中国数据治理市场规模约为121亿元。作为数据服务的基础工作,中国数据治理市场规模将保持上扬态势,预计2026年市场规模达到294亿元,2021-2026cagr=19.5%。从发展曲线来看,中国数据治理与面向人工智能的数据治理市场规模增长均处于良性区间,共同巩固相关治理产业生态圈的向好形势。
数据埋点的大而全陷阱
抓大放小,从核心数据着手
数据埋点是指针对特定用户行为或事件进行捕获,处理和发送的相关技术及其实施过程,是数据治理中范围圈定的一环。出于对投资回报的考虑,客户往往倾向于做一个覆盖全业务和技术域的、大而全的数据治理项目,将每个数据都纳入到数据治理的范围中,这就导致进行数据埋点时放纵提需,埋点需求爆炸,给后续的数据治理和数据分析带来隐患。为避免数据埋点的大而全陷阱,企业应该做到抓大放小,谨记2/8原则——80%的问题产生于20%的系统和数据——从最核心的系统、最重要的数据、最容易产生问题的地方开始着手做数据治理。
关注数据治理中的安全合规性
完善数据安全治理框架,确保数据安全合规
数据泄露事件在大数据时代层出不穷,随着行业新网络形态、新技术以及新应用场景的发展,新的数据类型、数据生产方式、数据处理方式和终端形式不断涌现,数据安全挑战也随之加剧。国家已出台各级各行业的法律法规及配套文件,不断加大数据安全与隐私保护的监管力度。对此,企业需建立符合企业管理现状及发展需求的数据安全治理框架,数据在采集、存储、传输、处理上均有对应的执行管理依据,做到挖掘数据资产、发挥数据价值的同时,确保数据全周期的安全与合规。
打造“治理 ai”体系的良性循环
相互关联,互为依托,共同促进人工智能应用的内外发展
面向人工智能的数据治理充分利用机器学习技术,将数据治理环节自动化、智能化,可极大提升数据治理工作效率,同时基于自然语言理解和知识图谱挖掘关联非结构化数据的应用价值,解决数据质量管理的传统难题,使治理后的数据更加契合ai应用的要求,从效率和质量双侧推进ai模型的落地应用。同时,ai应用落地效果的显著优化也会给企业带来更多智能化转型信心,让其加大相关ai项目的预算投入,进一步推进了相关治理体系建设,打造“治理 ai”的良性循环。