元数据采集怎么做(好用的元数据管理工具是什
元数据是数据的“说明书”,元数据管理工具是企业数据治理的重要抓手,它可以帮助企业解决数据查找难、理解难等问题,促进数据的集成和共享。一个趁手的元数据管理工具是什么样的呢?
系统架构
从应用角度看,元数据管理平台可分为数据源层、元数据采集层、元数据管理层、元数据应用层四层架构,如图1所示。
亿信华辰元数据管理平台EsPowerMeta是基于B/S架构的软件平台,架构分为5层,数据源层、采集层、数据层、功能层和访问层。下图为亿信华辰元数据管理产品的整体架构图。
△亿信华辰元数据管理平台架构图
1. 数据源层
企业的元数据来自多个方面:
● 业务系统中的元数据,例如ERP、CRM、SCM、OA等;
● 数据管理平台中的元数据,例如数据仓库、ODS、数据湖等;
● 数据处理工具中的元数据,例如ETL工具的脚本元数据;
● 数据分析工具中的元数据,例如Cognos、Power BI中的元数据;
● 各种半结构化数据源,例如Word、PDF、Excel等各种格式化电子文件。
亿信华辰元数据管理平台提供直连多种不同类型的数据源,包括:数据库类型、ETL类型、文件类型、业务系统类型等。
2. 元数据采集层
元数据采集层主要通过对各类数据源的适配,实现元数据的统一采集,并将其存储于符合CWM标准的中央元数据仓库中。亿信华辰元数据管理平台针对不同数据源提供丰富的适配器,实现端到端的自动化采集。同时支持适配器扩展,实现最大限度的自动化采集。
3. 元数据数据层
元数据数据层是基于关系数据库的元数据存储,用于实现元数据和元模型的数据的物理存储。
4. 元数据功能层
元数据功能层提供了元数据管理产品的基本功能,包括元模型增删改查及版本发布功能、元数据增删改查及版本管理、元数据变更管理、元数据分析应用、元数据检核以及产品的系统管理功能。
5.元数据访问层
元数据访问层用于给用户提供访问控制服务。通过门户访问和后台访问,可以实现多种角色的访问控制。同时访问层还提供了多种形式的接口服务,可以很方便地与其它 IT 系统进行集成。
元数据采集
通过元数据管理平台可以将分散、异构的信息资源进行统一采集、描述、定位、检索、评估、分析,实现数据的结构化,为机器处理创造可能,从而大大降低数据治理的人工成本。
1. 采集内容
元数据采集内容主要包括业务元数据、技术元数据和操作元数据,详细说明见下表。
元数据采集内容说明
2. 采集方式
元数据管理工具是否强大,部分体现在其对各类数据源的采集能力上,支持的各类数据源类型越多,说明元数据采集能力越强大。元数据采集方式主要有两种:自动化采集和人工采集。
(1)自动化采集
自动化采集主要是通过元数据管理工具提供的各类适配器进行元数据采集。在元数据采集过程中,元数据采集适配器十分重要,元数据采集既要适配各种DB、各类ETL、各类数据仓库和报表产品,还要适配各类结构化或半结构化数据源。元数据采集适配器可以通过自动化的方式对企业各类数据源的元数据进行统一采集、统一管理。
亿信元数据管理平台内置57个采集适配器,让用户通过配置数据源参数及定时采集任务,进行自动化采集,实现直连数据源的端到端元数据采集。在保证自动化采集的同时,还支持对适配器进行扩展。
(2)人工采集
在元数据管理实践中,最难采集的往往不是技术元数据或操作元数据,而是业务元数据。由于企业缺乏统一的数据标准,业务系统竖井化建设,系统建设过程中没有对业务元数据进行统一定义,所以即使通过元数据适配器将业务系统的技术元数据采集到元数据仓库中,也很难识别这些表、视图、存储过程、数据结构的业务含义。这就需要采用人工的方式对现有数据的业务元数据进行补齐,以实现元数据的统一管理。
元数据管理
1. 元数据管理功能
亿信华辰元数据管理平台EsPowerMeta提供元数据检索、元模型管理、元数据维护、元数据变更管理、元数据版本管理、元数据核检等功能。
●元数据检索:提供对元数据的全文检索功能。检索支持对检索范围、检索类型、修改时间进行过滤,过滤条件支持保存,让用户可以将常用的过滤条件保存使用,以便能够更加快速浏览所需元数据。
●元模型管理:以 Meta Object Facility(MOF)规范为基础,支持 XMI格式的元模型导入和导出,同时内置大量技术元数据、业务元数据的元模型,用户可直接使用。
●元数据维护:提供对信息对象的基本信息、属性、被依赖关系、依赖关系、组合关系等元数据的新增、修改、删除、查询、发布等功能,以管理企业的数据标准。
●元数据版本管理:提供元数据的版本管理功能,对于元数据新增、修改、删除、发布和状态变更都有相应的流程,同时支持对元数据进行发布、查看历史版本、导出历史版本、版本对比操作等。
●元数据变更监控:支持实时对元数据变更进行监控,并提供变更订阅功能,将用户关 心的元数据的变更情况定期发送到用户邮箱。
●元数据核检:提供元数据质量检核功能,包括一致性检核、属性填充率检核和组合关系检核,是保障元数据质量的重要手段之一。
2. 元数据分析功能
亿信华辰元数据管理平台提供了丰富的分析应用,包括:血缘分析、影响分析、全链分析、 关联度分析、属性差异分析、对比分析等,同时支持将分析结果进行导出和收藏。
●数据资源地图:基于企业元数据生成并以拓扑图的形式展示企业数据资源的全景地图,方便用户清晰直观地查找和浏览企业数据资源。
● 血缘分析:也叫血统分析,采用向上追溯的方式查找数据来源于哪里,经过了哪些加工和处理。常用于在发现数据问题时,快速定位和找到数据问题的原因。
● 影响分析:功能与血缘分析类似,只是血缘分析是向上追溯,而影响分析是向下追踪,用来查询和定位数据去了哪里。常用于当元数据发生变更时,分析和评估变更对下游业务的影响。
● 全链分析:用来分析指定元数据前后与其有关系的所有元数据,不仅反映了元数据的来源与加工过程,也反映了元数据的使用情况,使用全链分析可清晰的了解该元数据的来龙去脉。
● 关联度分析:分析不同数据实体之间的关联关系,从而判断数据的重要程度。
● 属性差异分析:用来比较同类型元数据之间属性值的差异,方便用户识别相似元数据之间的存在的微小差距。
元数据管理的关键技术
一般来说,元数据管理项目需要用到众多技术,包括:高度灵活可扩展的架构、角色访问控制和分层、与其他系统的集成。
● 高度灵活可扩展的架构
企业数据环境中的数据杂乱,形态多样,标准不一,若要实现所有元数据的有效采集或者自动化采集和存储,必须有高度灵活可扩展的架构支撑,也意味着元数据的架构要能和企业的各种模型进行“交流”。
● 角色访问控制和分层
企业元数据管理涉及到很多不同的人员,优秀的元数据管理工具应该做好角色访问控制,具体实现方法可以归结为两种:
(1)在平台汇总建立角色分层机制/角色组,将企业中的不同角色按照具体需求分类到不同的角色组中,对不同角色组展示不同的功能。
(2)在工具内部建立角色与功能之间的映射,并且支持根据企业情况进行灵活配置(毕竟各企业的角色和所对应的功能不尽相同),根据映射对不同角色展示不同的功能。
●与其他系统的集成
要实现元数据驱动,除了元数据分类和模型的标准化,元数据管理工具是否与企业的其他系统(比如CRM、ERP、SCM、OA等系统,还有同与数据管理相关的数据标准系统、数据质量系统)集成,为其他系统提供元数据服务,是主要的关键点。
一种方法是向企业中的不同角色、不同用户、不同系统提供可以灵活配置的接口,实现全企业的而高效协作;另一种方法是将元数据管理工具直接集成到企业的portal中,在企业其他信息系统中保留元数据存储库的入口。
亿信华辰元数据管理平台是基于 B/S 架构的软件平台,研发过程中遵循软件工程迭代开发和面向对象设计思想,更是运用了先进的软件开发技术,包括但不限于:
SQL 解析技术
全文检索技术
采用 Meta Object Facility(MOF)规范
支持 XMI 数据交换标准
采用 RESTful 架构
支持标准的 OLAP 分析
遵循事实结构的星型数据仓库模型
用户 WEB 界面采用 AJAX 技术
使用国际化编码 UTF-8
所以
元数据管理工具提供了可靠、便捷的工具,能够对企业分散的元数据进行统一、集中化管理,帮助企业绘制数据地图、统一数据口径、标明数据方位、控制模型变更。利用元数据管理工具可以更好地获取、共享、理解和应用企业的数据信息,降低数据集成和管理成本,提高数据资产的透明度。
相关文章:
相关推荐: