- 一、引言
- 1.1、企业数据管理遇到的挑战
- 1.1.1、数据质量参差不齐
- 1.1.2、IT系统孤岛化,数据流通受阻
- 1.1.3、缺乏有效管理机制
- 1.1.4、存在数据安全隐患
- 1.2、什么是数据治理?
- 1.3、数据治理的目标
- 1.4、数据治理,具体做什么?
- 二、主数据管理
- 三、元数据管理
- 3.1、元数据
- 3.1.1、业务元数据
- 3.1.2、技术元数据
- 3.1.2.1、结构性技术元数据
- 3.1.2.2、关联性技术元数据
- 3.1.3、操作元数据
- 3.2、元数据的管理通常包含:血缘分析、数据生命周期。
- 3.2.1、血缘分析
- 3.2.2、数据生命周期
- 参考
现在,企业越来越重视管理数据资产,但其实并不是所有数据都是数据资产,数据中也有垃圾数据。由于企业各个业务系统或模块都是按照各自的需要录入数据,业务系统不需要的信息就不录,没有统一的录入工具和数据出口,造成同样的数据在不同的系统有不同的属性信息,数据完整性无法得到保障。
1.1.2、IT系统孤岛化,数据流通受阻目前,大多数企业的信息化建设初期缺乏整体规划,大多都是以业务部门驱动的单体架构系统或套装软件,数据分散在这些架构不统一、开发语言不一致、数据库多样化的系统中,导致在企业内部形成了一个个的“信息孤岛”。这些“孤岛”之间缺乏有效的连接通道,数据不能互联互通,不能按照用户的指令进行有意义的交流,于是数据的价值不能充分发挥。
1.1.3、缺乏有效管理机制许多企业尝试通过生产系统的业务流来控制数据流,但由于缺乏有效的管理机制和某些人为的因素,比如平台间数据标准不一,缺少全局规范文档,信息无法对接应用等,在数据流转过程中,导致了大量的垃圾数据。以外,数据产权不明确,管理职责混乱,管理和使用流程不清晰,也是造成数据质量问题的重要因素。
1.1.4、存在数据安全隐患近年来,随着大数据的发展,诸如此类的数据安全事件多不胜数。数据资产管理上,正在由传统分散式的人工管理向计算机集中化管理方向发展,数据的安全问题愈来愈受到人们的关注。
综上所述,看似表面的数据问题其实会对业务带来严重的影响。数据不真实、不准确、数据不透明、不共享都将增加企业经营风险、管理难度和复杂度。最终导致跨组织信息共享程度低、资源难于整合。如何更好地管理和控制数据,做好数据标准化和服务体系建设,成为当前各企业迫在眉睫的任务,而数据治理是关键。
1.2、什么是数据治理?所有为提高数据质量而开展的业务、技术和管理活动都属于数据治理范畴。数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。
具体一点来讲,数据治理就是以服务组织战略目标为基本原则,通过组织成员的协同努力,流程制度的制定,以及数据资产的梳理、采集清洗、结构化存储、可视化管理和多维度分析,实现数据资产价值获取、业务模式创新和经营风险控制的过程。
1.3、数据治理的目标数据治理本身不是目标,它只是实现组织战略目标的一个手段,即通过有效的数据资源控制手段,进行数据的监督管理,以提升数据质量进而提升数据变现的能力和管理的效率。
基于需求的智能制造、智慧市场监督管理、融合市民服务、一网通办等。从组织职能和体量大小方面来看,不同类型组织的数据治理目标大不相同 例如:
- 集团企业总部和政府大数据管理局的目标是:制定数据政策、保障数据安全、促进数据在组织内无障碍共享,其重点目标是推进和保障数据战略的顺利实施。
- 企业和政府业务部门的目标是:通过提升信息管理能力,提升组织精细化管理水平,提高业务运营效率,增强组织决策能力和核心竞争力,从而为实现组织战略目标提供能力支撑,其重点目标是数据价值获取、业务模式创新和经营风险控制。
数据治理是长期、复杂的工程,每个数据治理的领域都可作为一个独立方向进行研究,目前总结的数据治理领域包括但不限于以下内容:数据标准、数据模型、元数据、主数据、数据分布与存储、数据生命周期管理、数据质量、数据安全等。同时各领域之间需要有机结合,如数据标准、元数据、数据质量等几个领域相互协同和依赖;
- 通过数据标准的管理,可以提升数据合法性、合规性,进一步提升数据质量,减少数据生产问题;
- 在元数据管理的基础上,可进行数据生命周期管理,有效控制在线数据规模,提高生产数据访问效率,减少系统资源浪费;
- 通过元数据和数据模型管理,将表、文件等数据资源按主题进行分类,可明确当事人、产品、协议等相关数据的主数据源归属、数据分布情况,有效实施数据分布的规划和治理。
通过运用相关的流程、技术和解决方案,对企业核心数据的有效管理过程。要做的就是从各部门的多个业务系统中整合最核心的、最需要共享的数据(主数据),集中进行数据的管理,并且以服务的方式把统一的、完整的、准确的、具有权威性的主数据传送给企业内需要使用这些数据的操作型应用系统和分析型应用系统。
主数据管理涉及主数据的所有参与方,如用户、应用程序、业务流程等,创建并维护企业核心数据一致性、完整性、关联性和正确性。主数据是企业内外被广泛应用和共享的数据,被誉为是企业数据资产中的“黄金数据”,主数据管理是撬动企业数字化转型的支点,是企业数据治理最核心的部分。
三、元数据管理元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。借助变更报告、影响分析等应用,控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。
3.1、元数据元数据分为业务元数据、技术元数据和操作元数据,三者之间关系紧密。业务元数据指导技术元数据,技术元数据以业务元数据为参考进行设计,操作元数据为两者的管理提供支撑。
3.1.1、业务元数据业务元数据是定义和业务相关数据的信息,用于辅助定位、理解及访问义务信息。业务元数据的范围主要包括:业务指标、业务规则、数据质量规则、专业术语、数据标准、概念数据模型、实体/属性、逻辑数据模型等。
3.1.2、技术元数据它可以分成结构性技术元数据和关联性技术元数据。
技术元数据的范围主要包括:
- 技术规则(计算/统计/转换/汇总)
- 数据质量规则技术描述、字段、衍生字段
- 事实/维度
- 统计指标
- 表/视图/文件/接口
- 报表/多维分析
- 数据库/视图组/文件组/接口组
- 源代码/程序
- 系统
- 软件
- 硬件等
技术元数据一般以已有的业务元数据作为参考设计的。
3.1.2.1、结构性技术元数据提供了在信息技术的基础架构中对数据的说明,如数据的存放位置、数据的存储类型、数据的血缘关系等。
3.1.2.2、关联性技术元数据描述了数据之间的关联和数据在信息技术环境之中的流转情况。
3.1.3、操作元数据主要指与元数据管理相关的组织、岗位、职责、流程,以及系统日常运行产生的操作数据。
操作元数据管理的内容主要包括:与元数据管理相关的组织、岗位、职责、流程、项目、版本,以及系统生产运行中的操作记录,如运行记录、应用程序、运行作业。
3.2、元数据的管理通常包含:血缘分析、数据生命周期。 3.2.1、血缘分析对元数据的上下游进行分析,按照数据存储的数据库将血缘分析分为了两类:
- 存在Hadoop平台的血缘分析,可用通过脚本解析出到字段级的上下游关系;
- 建表有主外键的,可通过主外键建立血缘关系。
数据都存在生命周期,当元数据访问量变低,数据价值不存在的时候,可将它下线清除,释放存储空间。
从数据的产生、加工、使用乃至消亡都应该有一个科学的管理办法,将极少或者不再使用的数据从系统中剥离出来,并通过核实的存储设备进行保留,不仅能够提高系统的运行效率,更好的服务客户,还能大幅度减少因为数据长期保存带来的储存成本。数据生命周期一般包含在线阶段、归档阶段(有时还会进一步划分为在线归档阶段和离线归档阶段)、销毁阶段三大阶段,管理内容包括建立合理的数据类别,针对不同类别的数据制定各个阶段的保留时间、存储介质、清理规则和方式、注意事项等。
从上图数据生命周期中各参数间的关系中我们可以了解到,数据生命周期管理可以使得高价值数据的查询效率大幅提升,而且高价格的存储介质的采购量也可以减少很多;但是随着数据的使用程度的下降,数据被逐渐归档,查询时间也慢慢的变长;最后随着数据的使用频率和价值基本没有了之后,就可以逐渐销毁了。
参考https://www.zhihu.com/question/23572197 https://blog.csdn.net/aeaiesb/article/details/92829952 https://blog.csdn.net/cqacry2798/article/details/83445593 https://blog.csdn.net/aeaiesb/article/details/92829952