MDM基础数据管理平台是进行清洗和治理企业的主数据,使企业的主数据具有唯一性、准确性、一致性、及时性, 通过主数据数据清洗功能将错误数据和重复数据进行清洗 ,从而保证企业数据能够做到以上几点,然后再分发至下游系统,使企业信息化更加完善。
MDM主数据管理平台作为数通畅联的一款核心产品,它所承担的任务就是对数据进行治理,而数据分析功能则是对数据治理前后的一些信息的变化进行统计和展示,方便用户对数据进行管理分析,从而提高决策的科学性。
整体介绍
MDM是主数据全生命周期的数据管理平台,因此,为了实现业务闭环,优化用户体验,现支持数据清洗功能,MDM基础数据管理系统对主数据进行 同步、清洗、治理、分发 全生命周期的一次管理,帮助各个业务系统的主数据统一,保障它们的完整性、一致性。同步就是从主数据源头到主数据过程,治理是到主数据后进行一系列的管理和维护、分发是把治理后主数据分发给各个业务系统包括源头。通过以上各个过程的相互配合去从根本上解决企业各个业务系统之间数据不能共享,数据重复、错误等问题。使企业在数据方面更完善,业务进行更顺畅。
(资料图)
1.名称解释
AEAI MDM基础数据平台的设计理念在于 保证主数据在各个系统中的正确性、重用性和通用性 。通过基础数据平台将企业的主数据进行整合,集中进行数据的清洗和标准化,并以集成服务的方式把统一的、完整的、准确的、具有权威性的主数据分发给各业务系统。助力企业创建并维护主数据的统一视图,通过保证统一视图的准确性、一致性和完整性,提高数据质量,逐步统一企业级数据模型,简化改进企业流程并提高业务的响应速度。
2.应用场景
MDM是对主数据进行同步、清洗、治理、分发全生命周期的一次管理,帮助各个业务系统的主数据统一,保障它们的完整性、一致性,同步就是从主数据源头到主数据过程,治理是到主数据后进行已系列的管理和维护、分发是把治理后主数据分发给各个业务系统包括源头,而本次要扩展的数据清洗功能就是在同步和治理过程中把主数据一些欠缺的、重复的、不符合规则的数据清洗出来。
3.功能需求
通过数据清洗功能下载主数据导入模板,源头业务系统把数据填写模板中,通过数据清洗导入功能进行导入清洗,检测出数据中欠缺的、重复的、不符合规则的数据,通过导出功能把失败的数据导出到Excel中进行数据处理后,再重新导入重新检测直到所有数据成功为止,然后把所有成功的数据导出Excel中,返回给业务源头系统进行源头系统的数据清洗(源头系统添加主数据编码映射),通过主数据任务分发把标准的数据分发给业务,这样就 把源头、主数据、下发至业务系统数据保持一致 。
场景分析
首先将数据导入到数据清洗功能中,导入过程中会根据配置的校验规则将不符合校验规则的数据的状态标记为失败;处理完错误数据之后,紧接着就会处理重复数据, 通过数据巡检规则去判断每条数据之间是否重复 ,同样,对于重复的数据也会标记为失败状态,最终导入到清洗功能中就可以看到哪些数据存在问题,存在哪些问题,然后就可以导出到Excel表格中进行修改,接下来就是同样的操作,重复多次,直至数据状态全部变为成功,就可以用这些数据去做其它操作了。
1.模型介绍
MDM主数据平台数据清洗功能模型设计主要涉及到数据清洗功能相关的数据库表结构以及表与表之间的关联关系,然后就是相关的清洗功能相关的一些配置说明。
数据清洗会给每个主数据创建四张表,包括 清洗导入表、错误信息表、重复数据表和校验规则关联表 。清洗导入表用于存放所有导入到数据清洗功能中的数据,无论成功与失败,所有数据都能够通过这张表查到。
清洗导入表与错误信息表相互关联 ,通过清洗ID可以查到某条数据对应的错误信息,或者直接查询到所有错误信息。同样,通过错误信息表也能方向查询出有哪些数据有错误。
清洗导入表与重复数据表相互关联 ,通过清洗ID可以查询到某条数据和它重复的数据信息,也可以直接查询所有重复数据。和错误信息表同理,也能够通过重复数据表直接筛选出有哪些重复的数据。
错误信息表与校验规则表相互关联 ,通过错误ID可以查询到这个错误字段关联的校验规则有哪些。
2.配置说明
创建主数据通常分为两个部分,一个是 数据建模 ,一个是 功能建模 ,这两部分中都有数据清洗相关的配置。首先从数据建模中说起,在编辑主数据信息的时候可以选择是否需要数据清洗功能,如下图所示:
如果选择了数据清洗,当跳转到数据建模页面中时,就需要配置字段关联的校验规则,之后的清洗过程就会按照配置的校验规则去执行。
接下来是功能建模,功能建模中配置的一个是数据清洗导出的策略,这个导出包括过程中导出和导出最终清洗结果。这个策略分为两种,分别为导出全批次成功和导出单批次全量。全批次成功导出的是所有批次下清洗成功的数据,单批次全量导出的是最后一个批次下的所有数据,如图所示:
功能建模配置的另一个是巡检匹配字段,也就是清洗数据重复校验的字段,如图所示:
3.实现步骤
数据清洗功能整体实现步骤如下:
1.完成数据清洗相关数据库表的动态生成。
2.完成数据清洗相关配置的功能,如:是否清洗,导出策略。
3.完成清洗数据的导入功能,又可细分为三部分: 常规数据的导入,错误数据的导入和重复数据的导入 。
4.完成清洗数据的详细信息查看功能。
5.完成清洗数据重复数据的查看和其它操作功能,如:排除重复数据和还原重复数据。
6.完成数据的过滤筛选功能,如:批次号过滤,错误字段过滤和校验规则过滤等。
7.完成清洗数据的导出功能,如:批次导出和导出最终结果。
功能介绍
在将数据导入到清洗功能中后可以对错误数据进行查看,有详细的错误信息可以查看,另外也可以查看重复数据,排除重复数据。除此之外还有过滤功能,可以通过字段和校验规则,过滤出相关的数据,下面的内容中将会对这些功能进行详细介绍。
1.数据清洗
在数据清洗功能点击查看数据,或者双击可以查看错误数据信息或者是重复信息。
清洗过滤可以通过字段和校验规则筛选出符合过滤条件的数据。
点击右上角的是否重复可以筛选出重复数据。
进入到数据详情页面可以查看重复数据的信息,包括常规的字段和重复的字段信息。在此可以进行重复数据的排除与反排除操作。
2.数据导入
数据导入主要分为两部分, 一部分是导入错误数据 ,这部分数据主要是通过对数据中配置校验规则的字段进行校验,不符合规则的数据将被过滤出来; 另一部分是导入重复数据 ,通过巡检规则将重复数据过滤出来,对于失败的数据可以进行导出,然后在Excel中进行修改,再导入到清洗表中,反复多次直到数据没有任何问题,然后可以选择导出到Excel,也可以同步到主数据中,然后分发到下游系统。
基本数据的导入主要是按照清洗导入表的结构进行导入,对Excel表格进行数据的读取。通过循环每一行中的每一个单元格将数据存入到大数据字段中,通过后台方法,到这里一条按数据导入完成,以此类推,完成清洗导入表的数据新增。
错误数据的导入需要在导入基本数据的过程中通过校验规则对每条数据的每个字段进行判断,不符合校验规则的标记为失败状态,最终对失败数据进行新增,错误字段为上面校验的字段,错误信息则是校验规则名称,通过后台方法对比判断,完成错误信息表数据的新增。
重复数据的导入需要在错误信息全部导入完成之后,将没有错误的数据整理到一起,再对这些数据进行循环读取,通过巡检规则来判断配置的字段是否存在值相同的情况,如果存在,修改清洗状态为失败,获取到重复的字段,然后将数据导入到重复数据表中。
3.清洗导出
清洗导出主要分为三种情况,第一种是选中数据进行导出,第二种是批次导出,第三种是导出清洗结果,导出功能通过freemarker模板将数据导出到Excel表格中,下面将对这三种清洗导入分别进行说明。主数据、参考数据统计:
导出Excel效果如下:
导出单批次全量:
结果导出为导出最终的清洗结果,同样也根据导出策略的不同分为导出全批次成功数据和单批次全量数据。
用途说明
在此对MDM数据清洗功能进行整体的一些用途进行说明,分为功能要点、功能价值、和后续的一些扩展进行述。
1.功能要点
MDM的数据清洗功能可以通过Excel的方式将数据导入进行清洗,通过反复导入导出调整再导入的方式得到最终的全部正常的数据, 不需要人为去判断 数据的不规则、是否重复、是否正确等。
2.功能价值
源头数据的数据清洗除了编码外,一般都需要进行数据触发式推送,在触发过程中实时的进行数据的回写,如果定时拉取会存在数据较多并且处理过程比较复杂,不利于数据的即时性。源头系统的数据清洗是在MDM将数据清洗完毕后进行的一个必要环节,如果数据不同步清洗,那么在后续数据修改过程中依旧会存在数据信息不匹配等。
3.后续扩展
后续着手于主数据平台的移动化开发,通过移动版平台可以使我们随时随地的进行主数据的治理,查看产品的实时信息。真正做到敏捷性和便捷性, 通过移动化的方式来适应时代潮流,不再是仅仅局限于PC端的网页操作 。
总结归纳
数字化转型是建立在数字化转换、数字化升级基础上 ,进一步触及公司核心业务,以新建一种商业模式为目标的高层次转型,开发数字化技术及支持能力以新建一个富有活力的数字化商业模式。推进数字化转型没有一刀切的模式,每个企业都有自己的特点和基本能力。只有满足企业的需求,兼顾企业自身特点和能力,才能实现数字化转型。
1.产品作用
MDM主数据平台的目的在于可以将各类杂乱无章的数据进行筛选、清晰、过滤,把最后的高质量数据留下来,保证数据的完整性,统一性。并支持对于其它系统数据与MDM主数据平台的同步分发,还可以根据需求搭配本公司其它产品进行组合使用,使数据治理变得游刃有余。
MDM打通各业务链条,消除不同部门重复录入数据造成的数据冗余。 统一数据语言,统一数据标准,实现数据同源、数据共享,最大程度提高数据的权威性 。MDM还实现了数据动态自动整理、复制,解决了各部门数据及版本不一致的问题,极大减少了人工整理数据的时间和工作量,提高工作效率。并且MDM打通企业业务系统之间的信息孤岛后还能够实现信息集成与共享,提高公司整体的战略协同力。
2.产品应用
MDM主数据平台侧重于对数据的治理方面,保证主数据在各个系统中的正确性、重用性和通用性。平台具有敏捷性,主数据管理功能配置简单,可根据用户需求自定义设置编码规则、字段校验等。 内置BPM工作流功能 ,允许用户自定义是否绑定工作流程,使主数据的管理维护能够适应各种业务流程审批场景,开发与配置过程可视化。
3.产品发展
平台是保障主数据治理方案落地的重要工具 ,平台在功能上满足主数据治理需求的同时,具备快速扩展能力,以适应不同业务场景的变化。并根据技术的发展及业务的演变,不断迭代升级。
通常选择的主数据管理平台要预置典型的模型功能、样例数据,这些数据可在项目中复用,节省时间。与公司的其他产品组合、搭配使用,满足绝大多数应用场景,更加灵活地适应企业业务需求的变化,解决不同的企业面临的问题,与其他产品组合形成不同的解决方案。
本文由 原创,欢迎转发,仅供学习交流使用,引用请注明出处!谢谢~
关键词:
数据清洗
错误信息
业务系统