元数据管理规范1.0(讨论版)
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
范文 范例 指导 参考 经营分析系统元数据管理规范 V1.0 (讨论稿) word版 整理 范文 范例 指导 参考 二○○三年十月 目录1 总则 ................................................................................................................... 1 1.1 概述............................................................................................................. 1 1.2 目标............................................................................................................. 2 1.3 适用范围 ..................................................................................................... 3 1.4 包含附件内容 ............................................................................................. 3 1.5 起草单位 ..................................................................................................... 3 word版 整理 范文 范例 指导 参考 1.6 解释权 ......................................................................................................... 3 2 元数据管理规范总体说明 ................................................................................. 4 2.1 规范涉及的元数据标准 .............................................................................. 4 2.2 元数据基本框架 ......................................................................................... 6 2.3 省级(包括一级经营分析系统)元数据管理架构 ................................... 8 2.4 中央元数据库管理架构 .............................................................................. 9 2.5 元数据管理系统拓扑图 ............................................................................ 11 3 经营分析系统核心元数据 ............................................................................... 14 3.1 概述........................................................................................................... 14 3.2 经营分析系统基础层元数据 .................................................................... 14 3.2.1 概述 .................................................................................................... 14 3.2.2 对象模型元数据 ................................................................................. 15 3.2.3 基础元数据 ........................................................................................ 19 3.2.3.1 概述 ................................................................................................ 19 3.2.3.2 业务信息 ......................................................................................... 21 3.2.3.3 数据类型 ......................................................................................... 22 3.2.3.4 表达式 ............................................................................................. 23 3.2.3.5 主键和索引 ..................................................................................... 24 3.2.3.6 系统部署 ......................................................................................... 25 3.2.3.7 类型映射 ......................................................................................... 28 3.3 经营分析系统数据获取层元数据 ............................................................ 29 word版 整理 范文 范例 指导 参考 3.3.1 概述 .................................................................................................... 29 3.3.2 ETL元数据 ............................................................................................. 30 3.4 经营分析系统数据存储层元数据 ............................................................ 37 3.4.1 概述 .................................................................................................... 37 3.4.2 数据仓库元数据 ................................................................................. 38 3.4.2.1 关系模型元数据 ............................................................................. 38 3.4.3 数据仓库管理元数据 ......................................................................... 41 3.4.3.1 仓库过程元数据 ............................................................................. 41 3.4.3.2 仓库操作元数据 ............................................................................. 44 3.5 经营分析系统数据访问层元数据 ............................................................ 47 3.5.1 概述 .................................................................................................... 47 3.5.2 OLAP元数据 ......................................................................................... 47 3.5.3 数据挖掘元数据 ................................................................................. 50 3.5.4 信息可视化 ........................................................................................ 53 3.6 其他可选元数据 ....................................................................................... 55 4 经营分析系统元数据库存储标准 ................................................................... 57 4.1 概述........................................................................................................... 57 4.2 元数据库存储标准 ................................................................................... 57 4.3 备份要求 ................................................................................................... 59 4.3.1 省级元数据备份要求 ......................................................................... 59 4.3.2 中央元数据备份要求 ......................................................................... 61 word版 整理 范文 范例 指导 参考 5 省级与集团公司元数据接口规范 ................................................................... 65 5.1 概述........................................................................................................... 65 5.2 集团公司职责 ........................................................................................... 65 5.3 各省公司职责 ........................................................................................... 66 5.4 各省元数据提交范围 ................................................................................ 66 5.5 各省元数据提交规定 ................................................................................ 66 5.6 接口文件传输要求 ................................................................................... 67 5.7 省级与集团公司元数据接口文件和描述文件命名方式 .......................... 68 5.8 省级元数据接口文件描述文件格式标准 ................................................. 70 5.9 省级-中央元数据库CORBA IDL接口 .................................................... 70 5.10 省级-中央元数据库XMI接口................................................................. 73 5.11 校验原则 ................................................................................................... 75 6 经营分析系统元数据库接口规范 ................................................................... 81 6.1 省级元数据库接口 ................................................................................... 81 6.1.1 概述 .................................................................................................... 81 6.1.2 集团公司职责 .................................................................................... 82 6.1.3 各省公司职责 .................................................................................... 82 6.1.4 各省元数据接口管理范围 ................................................................. 83 6.1.5 各省元数据XMI接口抽取规定 .......................................................... 83 6.1.6 省级元数据库XMI文件命名规则 ...................................................... 84 6.1.7 省级元数据接口文件描述文件格式标准 .......................................... 86 word版 整理 范文 范例 指导 参考 6.1.8 省级元数据库省级经营分析系统XMI接口内容与格式要求 ............ 87 6.1.9 省级元数据库CORBA IDL接口 ........................................................ 89 6.2 一级经营分析系统元数据库接口 ............................................................ 92 6.2.1 概述 .................................................................................................... 92 6.2.2 集团公司职责 .................................................................................... 92 6.2.3 一级经营分析系统元数据提交范围 .................................................. 93 6.2.4 一级经营分析系统元数据提交规定 .................................................. 93 6.2.5 接口文件传输要求 ............................................................................. 94 6.2.6 一级与集团公司元数据接口文件和描述文件命名方式 ................... 95 6.2.7 一级元数据接口文件描述文件格式标准 .......................................... 96 6.2.8 一级元数据接口文件内容格式标准 .................................................. 96 6.2.9 一级元数据库CORBA IDL接口 ........................................................ 99 6.3 中央元数据库接口 ................................................................................. 101 6.3.1 概述 .................................................................................................. 101 6.3.2 中央元数据接口管理范围 ............................................................... 102 6.3.3 中央元数据库与经营分析系统XMI接口内容与格式要求 ............. 103 6.3.4 中央元数据库CORBA IDL接口 ...................................................... 104 7 经营分析系统元数据管理规定 ..................................................................... 108 7.1 元数据质量要求 ..................................................................................... 108 7.1.1 概述 .................................................................................................. 108 7.1.2 本地元数据质量规定 ....................................................................... 108 7.1.3 接口文件数据质量规定 ................................................................... 110 word版 整理 范文 范例 指导 参考 7.1.4 传输过程元数据质量规定 ............................................................... 111 7.2 元数据管理平台功能说明 ...................................................................... 111 7.2.1 元数据获取 ...................................................................................... 112 7.2.2 元数据检索和浏览 ........................................................................... 113 7.2.3 元数据分析 ...................................................................................... 116 7.2.4 元数据维护 ...................................................................................... 118 7.2.5 权限管理 .......................................................................................... 120 7.2.6 版本控制 .......................................................................................... 121 7.2.7 中央元数据管理平台特殊要求 ....................................................... 123 7.3 经营分析系统元数据管理系统应用举例 ............................................... 124 7.3.1 数据时效性探察 ............................................................................... 124 7.3.2 指标和报表元素血缘分析 ............................................................... 125 7.3.3 元数据相关性分析 ........................................................................... 126 word版 整理 范文 范例 指导 参考 1 总则 1.1 概述 为使中国移动通信集团公司(以下简称中国移动)适应日趋激烈的市场竞争环境,有效并准确的使用经营分析系统提供的资源,从而对信息进行智能化加工处理,并最终为各级市场决策管理者提供及时、准确、科学的辅助决策依据,指导中国移动经营分析系统的元数据管理系统发展,依据《中国移动经营分析系统技术规范》和OMG组织的CWM国际标准与相关标准,并参考《中国移动一级经营分析系统需求说明书》、《二级经营分析系统需求说明书》、特制定《中国移动经营分析系统元数据管理规范》。 本规范包含对集团公司经营分析系统的元数据管理要求和各分公司经营分析系统元数据管理要求。 本规范是中国移动经营分析系统元数据管理和建设的基本要求。各省、自治区、直辖市公司依照本技术规范,进行经营分析系统的元数据建设。 从技术理论上讲,经营分析系统元数据涉及到经营分析系统数据仓库、ETL、联机分析处理、数据挖掘、前端展现等多方面内容,元数据贯穿经营分析系统始终。从技术实现上讲,元数据分布在仓库的不同组件中,业务规则和技术元数据是分离的,而且由不同系统以不同格式保存且用户界面不同,不利于业务人员和技术人员对于元数据的管理和使用。而根据从数据仓库的系统中获得的数据做出智能决策和采取信息化行动时,分析人员和决策者需要知道自己的需要与经营分析系统中数据的关系。因此集团公司制定了经营分析系统元数 word版 整理 范文 范例 指导 参考 据规范,使得技术人员和业务人员可以统一地对经营分析系统中的元数据进行管理和监督以及探查。 本规范囊括了中国移动通信公司经营分析系统中常见的元数据,首先描述了经营分析系统中元数据标准框架、各省元数据管理体系结构和省级元数据库与中央元数据库管理架构,明确了本规范的工作范围。其次定义了经营分析系统核心元数据涉及到的范围以及与CWM标准对应的对象类,并规定存储依据的标准,建立省级-中央,省级-本地,中央-本地等标准化接口和API接口,最后对元数据质量和元数据管理平台进行规定和说明。 本规范包含有关元数据四个接口规范、一个存储规范(逻辑模型)以及基于元数据库的几类基本应用等内容。各省、自治区、直辖市公司在实施经营分析系统过程中,可根据实际需要以本规范为基础进行扩充与细化,但务必保证核心元数据的内容和接口不能改变。 1.2 目标 本规范目的在于指导各省以及集团公司的元数据建设,由于元数据贯穿经营分析系统始终,在经营分析系统中各个系统元数据比较分散,不利于各省公司以及集团公司的管理,因此制定此规范用于指导约束各省公司的元数据接口、存储、管理。具体而言,目标有如下几点: 指导各省公司以及集团公司元数据库和管理平台的建设,规定元数据基本内容 定义经营分析系统元数据管理框架和流程 约束各省公司元数据库接口以及集团公司元数据接口和存储模型 word版 整理 范文 范例 指导 参考 对元数据管理平台提出基本的功能和规定 1.3 适用范围 本规范适用于集团公司元数据管理、一级经营分析系统元数据管理和中国移动各省(直辖市、自治区)经营分析系统元数据管理系统 1.4 包含附件内容 随本规范附件有省级-本地IDL接口定义(省级-本地IDL接口.zip),中央-本地IDL接口定义(中央-本地IDL接口.zip),省级-本地XMI接口定义(省级-本地XMI接口.dtd),中央-本地XMI接口定义(中央-本地XMI接口.dtd),省级-中央接口定义(省级-中央接口.dtd),一级-中央接口定义(一级-中央接口.dtd)。 包含的参考资料有CWM模型1.1标准(CWM标准.pdf),MOF 1.3标准(MOF标准.pdf),其他的参考资料可以查看www.omg.org上的相关涉及到的内容。 1.5 起草单位 本规范由中国移动通信集团公司负责起草。 1.6 解释权 本规范的增补、修订及解释权属中国移动通信集团公司。 word版 整理 范文 范例 指导 参考 2 元数据管理规范总体说明 2.1 规范涉及的元数据标准 本规范是基于OMG组织的元数据规范CWM 1.1而产生的,在CWM标准之上根据中国移动的本地化需要,在一些细节上进行调整。阅读此规范时,必须参阅CWM模型1.1版本1,该标准中有对于本规范规定的各类详细定义,关联以及属性详细定义进行的细致的说明。 CWM模型是OMG组织定义的数据仓库和相关系统的国际元数据标准,CWM标准的目的在于使得数据仓库和商业智能软件的元数据在分布异构的数据分析工具,数据仓库平台,元数据存储等系统之间交互。目前这个元数据标准得到了IBM、Unisys、NCR、Oracle、SAS等厂商的支持2。CWM模型涉及以下几个国际标准,在元数据管理规范中涉及到的接口、定义默认是遵循下列版本的国际标准: CWM 1.1 XMI 1.1 CORBA IDL(由MOF 1.3产生) MOF 1.3 UML 2.0 其中UML用来描述元数据模型本身和一些对象元数据,本规范中核心元数 1 2 http://www.omg.org/technology/documents/formal/cwm.htm 目前支持的厂商有IBM、Unisys、NCR、Oracle、SAS、Hyperion、UBS、Genesis、Dimension EDI、Deere、Sun、HP、 Data Access、InLine、Aonix、 Hitachi、Meta Integration、Adaptive等 word版 整理 范文 范例 指导 参考 据相关的类定义是借助UML语言进行表述的。MOF用来定义元数据存储标准且提供一个良好的CORBA IDL接口,是经营分析系统元数据的存储标准。CORBA IDL是一种基于中间件思想的接口定义语言,它可以支持java,C等流行的编程语言方便、无二义性地访问经营分析系统元数据存储内容。XMI是XML形式的元数据接口定义语言,它是经营分析系统元数据管理体系中元数据默认的交换文件形式。 CWM标准是本规范制定的重要参考标准,本规范参考的上述国际标准都是围绕着CWM标准而采纳的,CWM标准对于和数据仓库以及商业智能软件的元数据提取,交换,存储,访问提供了一系列的定义和要求。CWM标准涉及到的元数据模型结构如图2-1。 管理 仓库过程 OLAP 分析 数据 挖掘 仓库操作 信息可视化 分析 转换 业务术语 XML 资源 对象 关系型资源 记录型 多维 基础 业务信息 数据 类型 表达式 键 类型映射 软件发布 索引 对象模型 对象模型 图 2-1 本规范基于CWM标准对象模型层和基础层之上对于经营分析系统中获取层、存储层和访问层中的相关元数据描述和定义,CWM模型和经营分析系统 word版 整理 范文 范例 指导 参考 元数据的对应关系如表2-1,相关详细信息参见第三章中的有关内容。 经营分析系统中元数据 经营分析系统基础层元数据 CWM标准模型包 对象模型包,业务信息包,数据类型包,表达式包,键索引包,类型映射包,软件发布包 经营分析系统获取层元数据 经营分析系统存储层元数据 ETL元数据包 关系模型包,仓库过程包,仓库操作包 经营分析系统访问层元数据 OLAP模型包,数据挖掘模型包,信息可视化包 经营分析系统可选元数据 业务术语包,XML元数据包,记录包,多维包,对象数据库包 2.2 元数据基本框架 参见图2-2,集团核心元数据为全国各省、直辖市、自治区以及一级经营分析系统要统一的元数据格式。此部分元数据是全国统一必须严格遵守。 各省核心元数据为各省、直辖市、自治区元数据库,元数据管理必须遵守的规范,这部分由移动各省公司统一规定,集团公司不做要求。 各异元数据为各省内一些特殊或临时数据形成的元数据,这部分元数据可 word版 整理 范文 范例 指导 参考 以不进行统一规划。 图2-2中,由内至外集团公司强制统一的力度逐渐减弱。本规范规定的范围局限于集团核心元数据部分,各省在进行元数据库和元数据管理系统建设涉及到集团核心元数据时必须遵循本规范有关规定。 图 2-2 各 异 元 数 据 各省 核心 元数 据 集团核心元数据 word版 整理 范文 范例 指导 参考 2.3 省级(包括一级经营分析系统)元数据管理架构 省级(包括一级经营分析系统,以下略)元数据管理是以各省元数据库为中心展开,在规范中定义了元数据库的逻辑(对象)模型,其存储标准是按照OMG组织的MOF 1.3标准。图2-3中,经营分析系统各子系统元数据经过转换工具或者API转换为XMI文件或者调用元数据库的CORBA IDL接口将元数据导入各省元数据库。同时,元数据管理工具也可以通过CORBA IDL或者XMI文件的形式将省级元数据库中的元数据内容返回到各系统中,对经营分析系统各子系统的元数据进行调整。图中的转换工具或者API指的是经营分析系统子系统元数据不支持CWM模型情况下,需要进行双向转换,而支持CWM元数据标准的子系统则不需要转换直接和元数据库接口交互。 各省元数据库提供 CORBA IDL接口为本省元数据管理工具提供访问和管理接口,此接口与经营分析系统各子系统和元数据库交互的CORBA IDL接口是相同的,这是由CWM标准本身决定的,这也使得元数据管理工具有能力直接访问某些支持CWM标准的经营分析系统子系统。 各省元数据库与中央元数据库的接口为转换后的XMI文件,这里的转换指的是各省依据CWM标准导出的XMI文件后,需将所有对象名称前加入本省标识。详细步骤参见余后各章。 对于各省元数据管理工具规范提出几种基本需求,各省根据本省情况,在满足基本需求之上进行扩充。 word版 整理 范文 范例 指导 参考 元数据管理工具 中央元数据库 CORBA IDL 转换后XMI 文件 核心元数据 XMI 接口或CORBA IDL接口 直接访问或转换工具、API等 数据仓库元数据 ETL元数据 数据集市 OLAP SERVER …. 图 2-3 2.4 中央元数据库管理架构 中央元数据库管理架构如图 2-4所示。中央元数据库内容包括各省上报的元数据以及一级经营分析系统元数据。其中各省元数据和中央一级经营分析系统元数据是以XMI文件的形式导入中央元数据库。或者通过调用省级元数据库的CORBA IDL接口直接访问省级元数据库中的内容。 中央元数据库存储标准为MOF 1.3,中央元数据库为元数据管理工具提供CORBA IDL接口,在元数据管理平台上进行元数据管理。由于各省和一级经营分析系统导出XMI文件中的对象是经过编号后存储在中央元数据库中,这样,可在管理工具平台中对于各省不同对象进行分类和处理。 word版 整理 范文 范例 指导 参考 元数据访问 版本控制 元数据交换 权限控制等等 管理工具平台 XMI元数据接口 CORBA IDL接口 中央元数据库 中央XMI接口 一级经营分析系统 图 2-4 省级元数据XMI文件 省级元数据XMI文件 ….. word版 整理 范文 范例 指导 参考 2.5 元数据管理系统拓扑图 图 2-5 元数据管理系统拓扑图 元数据管理系统由各省元数据管理系统和中央元数据管理系统组成,省级元数据管理系统和中央元数据管理系统通过网络专线进行连接(蓝色线条)。 省级元数据管理系统由省级元数据抽取服务器、省级元数据管理平台、省级元数据存储服务器、省级元数据存储服务器组成。 省级元数据抽取服务器的主要功能是将符合CWM模型的各经营分析子系统的元数据(通过XMI文件获取或者通过CWM 兼容CORBA IDL读出)存入省级元数据存储服务器之中(绿色线条),如果有些系统不支持CWM模型则需要通过API或者其他手段获得其元数据并转换为CWM模型格式的元数据存储到省级元数据存储服务器内(红色线条)。有些元数据存储系统是自带元数据抽取功能,那么这部分服务 word版 整理 范文 范例 指导 参考 器的功能并入省级元数据存储服务器。 省级元数据存储服务器主要是接受省级元数据抽取服务器提供的元数据(接受提供XMI文件或者访问元数据存储服务器的CORBA IDL),并把这些元数据按照本规范的规定进行存储,省级元数据存储服务器必须提供符合CWM模型1.1标准的XMI接口和CORBA IDL接口以便省级元数据管理平台和中央元数据抽取服务器进行访问。 省级元数据管理平台提供对省级存储服务器中的元数据进行访问,查询,分析等功能,它本身应支持服务器客户端架构,支持多人,分角色对经营分析系统元数据进行访问。 中央元数据管理系统主要由中央元数据抽取服务器,中央元数据存储服务器,中央元数据管理平台组成。 中央元数据抽取服务器主要作用在于通过各省提交的XMI文件或者直接通过CORBA IDL接口访问各省元数据存储服务器的方式,采集各省经营分析系统元数据。中央元数据管理平台可以通过中央元数据抽取服务器对各省元数据存储服务器CORBA IDL接口进行直接访问。也可以中央元数据抽取服务器通过各省元数据存储服务器CORBA IDL接口将元数据抽取至中央元数据存储服务器内,或者抽取服务器将各省提交的XMI文件存储至中央元数据存储服务器内,然后让中央元数据管理平台进行访问。 中央元数据存储服务器主要是接受中央元数据抽取服务器提供的元数据(接受XMI文件或者接受访问元数据存储服务器的CORBA IDL),并把这些元数据按照本规范的规定进行存储,中央元数据存储服务器 word版 整理 范文 范例 指导 参考 必须提供符合CWM模型1.1标准的XMI接口和CORBA IDL接口以便中央元数据管理平台和中央元数据抽取服务器进行访问。 中央元数据管理平台提供对中央元数据库中的元数据进行查询,分析等功能,它本身应支持服务器客户端架构,支持多人,分角色对全国所有省份(包括一级)经营分析系统元数据进行访问。同时提供即时访问功能,即直接通过中央元数据抽取服务器将CORBA IDL的访问请求映射到相应省份的CORBA IDL的访问请求对各省元数据进行即时探查。 word版 整理 范文 范例 指导 参考 3 经营分析系统核心元数据 3.1 概述 经营分析系统核心元数据指的是经营分析系统中主要系统涉及到的元数据,包括了经营分析系统基础层元数据,经营分析系统获取曾元数据,经营分析系统存储层元数据和经营分析系统数据访问层元数据。 本章所涉及的元数据严格遵循CWM模型1.1标准,包括了CWM模型中两个底层部分的七个包。他们分别是对象层中的对象模型包,基础层中的业务信息包、数据类型包、表达式包、键和索引包、类型映射包和软件发布包。下面根据经营分析系统的需要,定义核心元数据涉及到的范围与标准,本章的相关内容可以参考附件CWM标准.pdf CWM模型1.1标准有关内容。 对于每一个元数据模块内部的元数据范围来讲,目前的范围规定在除临时表,临时变量以外的所有元数据信息,相关的元数据质量要求参见第7章的相关内容。 3.2 经营分析系统基础层元数据 3.2.1 概述 经营分析系统基础层元数据的内容是包括经营分析系统中所有其他元数据共享的表示概念和结构元数据。它包括对象模型和基础元数据两部份,对象模型描述的为每一个元数据元素(对象)的基本结构和相应的类型属性,而基础 word版 整理 范文 范例 指导 参考 元数据包括了所有上层(数据获取层、数据存储层,数据访问层)其他元数据包共性的元数据。 本节的相关内容可以参考附件CWM标准.pdf CWM模型1.1标准中第4章与第5章的有关内容。 3.2.2 对象模型元数据 经营分析系统中对象模型元数据对应CWM模型中最底层的对象模型包中的内容。它描述了经营分析系统其他元数据中最基本的元模型的类结构,是所有经营分析系统元数据模型的基础。任何一个元数据模型都是从对象模型衍生出来的。 经营分析系统中的对象模型元数据完全遵循CWM模型,其中的内容可以参看CWM模型1.1标准中的第四章 Object Model有关内容。这里提到的对象模型是UML的一个子集,仅涉及到与CWM模型相关的内容。这部分使得经营分析系统的元数据标准可以在遵循CWM模型的基础上以UML标准进行表述。其主要内容分为四部分:Core Metamodel、Behavioral Metamodel、Relationships Metamodel、Instance Metamodel。其中Core Metamodel是所有其他几个模型的基础,他们之间的关系如图3-1所示: word版 整理 范文 范例 指导 参考 图3-1 Core Metamodel Core Metamodel装载着其它经营分析系统元数据所用的类和关联。它严格遵循CWM模型中对象模型里面Core Metamodel的所有标准。其中所有的类和关系如 图3-2、图3-3所示。其中类和关联的详细定义与约束请参见附件 CWM标准.pdf CWM模型1.1标准中第4.3节的有关内容。 word版 整理 范文 范例 指导 参考 图 3-2 Core Metamodel 类关系图 参考附件CWM标准.pdf中 figure 4-2 图 3-3 Core Metamodel 支持类关系图参考附件CWM标准.pdf中 figure 4-3 word版 整理 范文 范例 指导 参考 Behavioral Metamodel Behavioral Metamodel描述了经营分析系统元数据中其他类和关联的行为类型以及提供一个记录特定行为请求的基础。它严格遵循CWM模型中对象模型里面Behavioral Metamodel的所有标准。其中所有的类和关系如 图3-4所示。其中类和关联的详细定义与约束请参见附件 CWM标准.pdf CWM模型1.1标准中第4.4节的有关内容 图 3-4 Behavioral 元模型的主类图和类之间关系 Relationships Metamodel Relationships Metamodel收集了描述经营分析系统元数据存储中对象和对象之间关系的所有类和关联。它严格遵循CWM模型中对象模型里面Relationships Metamodel的所有标准。CWM模型中Relationships Metamodel描述了两种关系:关联和继承。而CWM模型中的继承关系支持多继承,因此CWM模型的继承结构其实是一个由父节点到子节点的有向无环 word版 整理 范文 范例 指导 参考 图。Relationships Metamodel所有的类和关系如 图3-5所示。其中类和关联的详细定义与约束请参见附件 CWM标准.pdf CWM模型1.1标准中第4.5节的有关内容。 Instance Metamodel 在利用CWM标准正常的交换元数据的时候,有些情况随着元数据附加一些特定的具体数据实例是非常有用的。经营分析系统元数据对象模型中的Instance Metamodel就是用来描述这些附带在元数据后的具体数据的。Instance Metamodel严格遵循CWM模型中对象模型里Instance Metamodel所有标准,具体如 图3-6所示。其中类和关联的详细定义与约束请参见附件 CWM标准.pdf CWM模型1.1标准中第4.6节的有关内容。 3.2.3 基础元数据 3.2.3.1 概述 基础元数据的内容是包括经营分析系统中所有其他元数据共享的表示概念和结构元数据。一般来说,基础元数据包中的元数据是上层(数据获取层、数据存储层,数据访问层)其他元数据包共性的东西。 对于上层某一个具体的元数据包来讲,它所囊括的基础元数据不一定是整个经营分析系统的基础包中的元数据,它只需要包括自身包涉及到的基础元数据即可。 基础元数据的内容和对象模型元数据的内容是不同的,因为它是专为经营 word版 整理 范文 范例 指导 参考 分析系统所设计的元数据,而对象模型元数据从某个角度上来说是可以应用在很多其他领域(数据仓库领域之外,例如系统部署领域等)。 经营分析系统中的基础元数据模型完全遵循CWM模型,其中的内容可以参看CWM模型1.1标准中的第五章 Foundation有关内容。为了控制复杂性,基础元数据内部分为六个包,他们是业务信息包、数据类型包、表达式包、主键和索引包、类型映射包、系统部署包,分别对应CWM 1.1标准中Foundation部分中BusinesssInformation包、DataTypes包、Expressions包、KeyIndexes包、TypeMapping包、SoftwareDeployment包,它们之间的关系如图 3-7: 图 3-7 基础元数据结构图 (参考附件 CWM标准.pdf Figure 5-1) 经营分析系统基础元数据中,包与包之间的关系是在不牺牲共有目的的情况下可以单独的使用,例如,如果对于经营分析系统中自主开发某一个支持 word版 整理 范文 范例 指导 参考 CWM标准的数据仓库软件时,支持某种编程语言的元数据可能用到数据类型包、表达式包、类型映射包和软件发布包,而键索引和业务信息包就不需要了。对于某一个具体的系统(过程),也只包括和本身系统与周边系统相关的基础元数据,而不需要罗列所有基础元数据中出现的元数据。 3.2.3.2 业务信息 业务信息包给经营分析系统元数据的元素提供了和业务部门(或项目组)方面的信息。这里说的业务部门指的是支持数据仓库和商业智能系统的相关的业务部门或项目组而不是所有移动通信公司的业务部门。业务信息元数据包括: 业务部门的名称 联系方法(地址、e-mail、电话) 相关离线文档的标识 有关的描述信息 业务部门之间的关系可以通过类之间的关联来表示。经营分析系统业务信息元数据支持部门的层次关系,例如一个部和几个处之间的从属关系可以通过关联关系来表示。 7.1小节关于数据质量和一致性要求中对于经营分析系统的元数据内容(元数据的对象)要求必须具有的确切描述这项元数据内容的Description(每一个具体元数据的业务描述或功能描述)用到本节元数据中的描述一项,同时元数 word版 整理 范文 范例 指导 参考 据涉及到的系统负责人或者负责部门的内容利用本节关于ResponsibleParty的内容。具体对于数据质量的要求细节参见7.1小节。 业务信息元数据严格遵循CWM模型中基础元数据里面BusinesssInformation的所有标准。其中所有的类和关系如 图3-8所示。其中类和关联的详细定义与约束请参见附件 CWM标准.pdf CWM模型1.1标准中第5.3节的有关内容。 图3-8 业务信息主类图 (参考附件 CWM标准.pdf Figure 5-2) 3.2.3.3 数据类型 数据类型元模型提供经营分析系统中建立不同系统需要的数据类型的元数据模型定义。数据类型包严格遵循CWM模型1.1标准中基础模型里面 word版 整理 范文 范例 指导 参考 DataTypes包的所有标准。虽然数据类型包自身并不给出任何一种具体的数据类型的定义(它仅是给出定义这些数据类型的元数据的模型),但是大部分常用的数据类型作为数据类型包的具体实例在CWM模型1.1标准中已经给出,具体内容参见附件CWM标准.pdf CWM模型1.1标准中的19章 数据类型的全部内容。 数据类型元模型所有的类和关系如 图3-9所示。其中类和关联的详细定义与约束请参见附件 CWM标准.pdf CWM模型1.1标准中第5.4节的有关内容。 图3-9 数据类型主类图 (参考附件 CWM标准.pdf Figure 5-5) 3.2.3.4 表达式 表达式元模型提供了定义经营分析系统中所有表达式树的基本支持。表达 word版 整理 范文 范例 指导 参考 式包的作用在于为其他所有经营分析系统元数据和管理工具提供一个可以共享的表达式格式,使得可以让这些表达式在不同的系统中交换和跟踪。表达式元模型所有的类和关系如 图3-10所示。表达式包严格遵循CWM模型1.1标准中基础模型里面Expressions包的所有标准。其中类和关联的详细定义与约束请参见附件 CWM标准.pdf CWM模型1.1标准中第5.5节的有关内容。 图3-10 表达式模型主类图 (参考附件 CWM标准.pdf Figure 5-5) 3.2.3.5 主键和索引 键和索引包是为了方便访问所有经营分析系统数据实例而构造的包。在基础模型中,我们只给出了定义键和索引基本概念的元数据模型,具体的面向某些具体应用的键结构会在面向具体应用的包中给出。例如,关系模型的键和索引结构在这里没有给出完整的定义,这是因为在基础包中所有的元模型是上层 word版 整理 范文 范例 指导 参考 系统所共享的,关系模型的键和索引只是一种常见的键和索引结构,但是并不是所有系统(例如XML系统,面向对象系统)通用的键和索引结构,因此具体的关系模型的键和索引将在关系模型包中给出。 键和索引包模型包所有的类和关系如 图3-11所示。本包的所有内容严格遵循CWM模型1.1标准中基础模型里面KeysIndexes包的所有标准。其中类和关联的详细定义与约束请参见附件 CWM标准.pdf CWM模型1.1标准中第5.6节的有关内容。 图3-11 键索引模型主类图 (参考附件 CWM标准.pdf Figure 5-9) 3.2.3.6 系统部署 系统部署包是为了记录经营分析系统中系统和软件是怎样应用的。在基础模型中,不同的系统可能会用到不同的数据类型,系统之间的类型映射将在 word版 整理 范文 范例 指导 参考 3.3.3.7小节中讲述。系统部署包主要是为了管理和记录经营分析系统各个软件系统的分布和连接情况,具体内容包括: 系统软件 子系统类型 部署的组件和离散的组件 独立计算机 站点(地点) 数据管理者 数据提供者等 本节内容的元数据需要经营分析系统负责部门进行手工录入,描述经营分析系统各个软件的分布情况以及一个系统分布式的结构等。 系统部署包所有的类和关系如 图3-12所示,有关系统部署中数据接口的类和关联如 图3-13所示。系统部署包严格遵循CWM模型1.1标准中基础模型里面SoftwareDeployment包的所有标准。其中类和关联的详细定义与约束请参见附件 CWM标准.pdf CWM模型1.1标准中第5.7节的有关内容。 word版 整理 范文 范例 指导 参考 图3-12 系统部署主类图 (参考附件 CWM标准.pdf Figure 5-11) word版 整理 范文 范例 指导 参考 图3-13 系统部署数据接口主类图 (参考附件 CWM标准.pdf Figure 5-12) 3.2.3.7 类型映射 类型映射包的作用在于将不同的系统之间的数据类型一一映射起来。这些映射的目的在于使得不同系统之间可以兼容的数据类型对应起来,从而使得这些系统之间的数据可以进行交换。一对多的映射允许出现在任何一个映射对之间,而且在一对多映射的过程中必须确定一个最适合的类型作为首选。 类型映射包所有的类和关系如 图3-14所示。类型映射包严格遵循CWM模 word版 整理 范文 范例 指导 参考 型1.1标准中基础模型里面TypeMapping元模型的所有标准。其中类和关联的详细定义与约束请参见附件 CWM标准.pdf CWM模型1.1标准中第5.8节的有关内容。 图3-14 类型映射主类图 (参考附件 CWM标准.pdf Figure 5-14) 3.3 经营分析系统数据获取层元数据 3.3.1 概述 经营分析系统三层结构中的数据获取层功能是将数据从数据源经过必要的处理后加载到数据仓库系统中。这个过程主要涉及到ETL的过程本身元数据。ETL的数据源可能是生产系统中的关系数据库,文本文件,XML文件,对象数据库或是经营分析系统中的数据仓库,数据集市等。这些数据源通过ETL过程导入到经营分析系统或在经营分析系统中各系统之间进行转换。本章的元数据 word版 整理 范文 范例 指导 参考 主要涉及到和ETL过程相关中的元数据。其实ETL本身并不仅仅出现在数据获取层,在数据存储层、数据展现层只要在经营分析系统中出现由一个数据转换到另一个数据的地方就会出现ETL过程,那么就会有ETL的元数据。例如,在数据挖掘的数据准备过程中也会出现类似ETL的过程,这部分的元数据也必须遵循本章的规定。 ETL的过程是经营分析系统中的核心,因此这部分的元数据必须保证准确,具体的数据质量和一致性约束,参见第7.1小节。 3.3.2 ETL元数据 ETL过程出现在经营分析系统中三层结构中任何一处需要数据转换的地方。这使得ETL元数据比较复杂,而其本质是一种转换的过程。 因此,按照功能分,ETL元数据主要可以分为三部分: 数据转换和数据关系 数据分组和执行 特殊的转换关系 一般来讲ETL过程可以分为两种,一种是黑箱操作,一种是白箱操作。前两部分所指的内容主要是面向黑箱操作的,而第三种主要是在前两种的基础之上对白箱操作补充的内容。 ETL包中的数据源或者数据目标需要和相应系统中的元数据一一映射,这些系统的元数据可能是关系模型包中的或者OLAP,多维数据库或者是数据挖掘包中的元数据,他们必须和ETL过程中的元数据进行关联。而ETL包本身也 word版 整理 范文 范例 指导 参考 是OLAP,数据挖掘,仓库过程和仓库操作元数据中的内部包,在传递这些包中的元数据内容中不可避免的要传递相应的ETL元数据包中的有关信息。 在经营分析系统中,对于ETL元数据的要求是和最终生成的报表元素(包括由经营分析系统给出的集团公司报表,各省公司报表,各地市公司报表),以及由经营分析系统产生的各分析指标相关的所有ETL过程,必须按照白箱操作的内容把所有的转换源,转换的公式,转换方法和转换目标详细定义和描述等叙述清楚,相应的数据源和数据目标的元数据信息必须关联,其中的元数据质量和一致性约束必须遵循7.1小节的有关内容。 和ETL相关的元数据严格遵循CWM模型1.1标准中ETL元模型的所有标准,相关的定义和内容可以参照附件 CWM标准.pdf CWM 模型1.1标准第10章的有关内容。 下面根据功能三种不同分类进行介绍。 (一) 数据转换和数据关系 数据转换和数据关系元数据指的是和ETL相关的数据源,目标,约束,操作相关的元数据。包括 转换的过程表达式,以及描述 数据对象集,以及描述 数据转换步骤和约束、依赖 数据转换的任务 数据转换的每一个动作及其时间等 和转换原则相关的元数据都储存在这部分当中涉及到具体的类有: Transformation word版 整理 范文 范例 指导 参考 DataObjectSet TransformationUse TransformationSourc TransformationTarget DataObjectSetElemnt 具体类之间的关系参见图3-15和3-16。而每一个类的详细定义,属性的定义和约束可以参见附件 CWM标准.pdf CWM 模型1.1标准的第10章的内容。 word版 整理 范文 范例 指导 参考 图3-15 ETL数据转换和数据关系主类图 (参考附件 CWM标准.pdf Figure 10-2) word版 整理 范文 范例 指导 参考 图3-16 ETL数据转换和数据关系主类图2 (参考附件 CWM标准.pdf Figure 10-3) (二) 数据分组和执行 一般在ETL过程中,会把可以并行的导入加载过程分在同一个的逻辑单元,并行的执行这些逻辑单元来提高导入的效率。数据分组和执行部分中主要处理的是转换的分组情况来确定逻辑单元并且处理执行的先后顺序。这些元数据包括内容有: 转换加载计划及其描述 word版 整理 范文 范例 指导 参考 转换的步骤及其描述 转换的行为 转换的先前约束 每一步的先前约束等 在数据分组和执行的有关的类有: TransformationTask TransformationStep TransformationActivity PrecedenceConstratint TransformationTaskElement IverseTransformationTask TransformationStepTask, 具体类之间的关系参见图3-15和3-16。而每一个类的详细定义,属性的定义和约束可以参见附件 CWM标准.pdf CWM 模型1.1标准的第10章的内容。 (三)特殊的转换关系 在这部分当中的内容主要是对白箱操作特殊定义的元数据,白箱操作是经营分析系统中最常见的操作,它详细的描述了数据源到目标的转换过程和公式。一般由ETL工具产生的元数据都是白箱操作。这些元数据的内容有: 转换的映射图 分类器映射图 word版 整理 范文 范例 指导 参考 属性映射图 分类器属性映射图 分类器映射图源 分类器映射图目标 属性映射图源 属性映射图目标等 和白箱操作有关的元数据类有: TransformationMap ClassifierMap FeartureMap ClassifierFeatureMap TransformationTree ClassifierMapSource ClassifierMapTarget FeartureMapSource FeatureMapTarget CFMapClassifier CFMapFearture 具体类之间的关系参见CWM 模型1.1标准的第10章有关的类图,而每一个类的定义,属性的定义和约束可以参见附件 CWM标准.pdf CWM 模型1.1标准的第10章的内容。 以上是和ETL有关的元数据,这里只给出主要元数据的内容的大致功能, word版 整理 范文 范例 指导 参考 详细的类定义和属性定义以及关联关系和约束请参见附件 CWM标准.pdf CWM模型1.1标准的有关内容。 在具体执行过程中,有些不支持CWM模型的ETL工具的元数据则需要支持CWM模型的元数据管理工具从其中读出元数据并整理为符合CWM模型的形式进行存储,有关存储要求详见本规范第4章的有关内容。 3.4 经营分析系统数据存储层元数据 3.4.1 概述 经营分析系统中数据存储层元数据主要包括数据仓库和数据集市有关的元数据,目前来讲常用的数据源一般都是关系型,本规范中主要对关系型数据仓库和数据集市的关系描述和维度描述进行定义。在数据仓库管理元数据中,主要对于数据仓库的操作、管理元数据进行定义。 在经营分析系统中还有一些数据的存储不是关系型,例如普通的文件、磁带、XML、对象数据库等等,对于这些数据源的元数据定义在3.5节可选元数据中给出定义。各省根据自己的实际应用情况,选择使用,本规范对于3.5节中定义的元数据不做硬性提交要求,但是各省对于3.5节中的元数据,如果出现涉及到这些范围的元数据那么必须遵循本规范的规定,以免将来这些元数据纳入管理规范的范围内之后需要重新编排。 本章涉及的元数据严格遵循CWM模型 1.1标准,涉及到的具体内容可以参考附件CWM标准.pdf CWM模型1.1标准 第6章、第8章、第15章、第 word版 整理 范文 范例 指导 参考 16章、的内容,有关可选元数据的内容,参考CWM模型1.1标准的第7章、第9章的有关内容。 3.4.2 数据仓库元数据 3.4.2.1 关系模型元数据 目前经营分析系统中的数据仓库和数据集市都是关系型的。这里所说的关系型数据的定义是数据仓库或数据集市可以通过关系型界面例如关系型数据库管理系统、ODBC或者JDBC等进行存取的数据。无论是数据仓库还是数据集市,其本质都是关系型数据,其底层元数据都是相同的。 这部分的元数据用到了经营分析基础元数据中对象模型的内容、索引主键外键这些元数据,这也就是说在提交这部分的元数据的时候必须连同相关的元数据一起提交,具体的提交办法可以参见本规范第5章、第6章相应的内容。 本章所描述的元数据内容包括(下列未加说明的,默认指的是和经营分析系统相关的元数据内容): 描述表的元数据 描述视图的元数据 描述模式的元数据 描述过程的元数据 描述触发器的元数据 描述属性的元数据 word版 整理 范文 范例 指导 参考 描述属性数据类型的元数据 描述外键、主键和普通键的元数据 描述索引的元数据 和本节元数据相关的类有: Catalog CheckConstraint Column ColumnSet ColumnValue ForeignKey NamedColumnSet PrimaryKey Procedure QueryColumnSet Row RowSet Schema SQLDataType SQLDistinctType SQLIndex SQLIndexColumn SQLParameter word版 整理 范文 范例 指导 参考 SQLSimpleType SQLStructuredType Table Trigger UniqueConstraint View 整个关系元数据的类之间的关系结构如图3-17所示,这些类具体的定义,类的内部结构和描述以及相关的属性及其约束详见附件CWM标准.PDF中第6章的内容。本节的元数据严格遵循CWM模型1.1标准中的有关Relational的内容,其中元数据类之间的关系,约束,定义等请参见附件CWM标准.pdf中有关第6章的内容。 word版 整理 范文 范例 指导 参考 图3-17 关系元数据主类图 (参考附件 CWM标准.pdf Figure 6-1) 3.4.3 数据仓库管理元数据 3.4.3.1 仓库过程元数据 仓库过程元数据描述了经营分析系统数据仓库中执行ETL的一个流程。这个流程可以在每一步ETL活动或者是每一个独立的ETL步骤的高度来存储管理元数据。一个仓库过程的元数据会通过事件关联到很多ETL的元数据,实际上在经营分析系统中,这些ETL的转换过程是通过数据仓库的触发器来执行的。因 word版 整理 范文 范例 指导 参考 此在元数据导入导出时务必需要将数据仓库中的仓库过程元数据和ETL元数据定义对应上,具体的数据质量和一致性要求参见7.1节中的有关内容。 一个数据仓库过程表示一个ETL执行的过程,和ETL过程中的转换活动和转换步骤想对应,这个可以是数据仓库活动或者是数据仓库的步骤组成的。而一个仓库过程可以关联到很多的仓库事件,识别每一个事件都使得一个仓库过程进行初始化。同时一个或多个内部事件也会在仓库过程被终止时激发。 一个仓库事件被分为三种类型:计划型、外部型、内部型。和仓库过程相关的类有: CalendarDate CascadeEvent CustomCalendar CustomCalendarEvent ExternalEvent InternalEvent PointInTimeEvent ProcessPackage RecurringPointInTimeEvent RetryEvent ScheduleEvent WarehouseActivity WarehouseEvent WarehouseProcess word版 整理 范文 范例 指导 参考 WarehouseStep 它们之间的关系和关联如图3-18定义。 图3-18 仓库过程主类图 (参考附件 CWM标准.pdf Figure 15-1) 以上是有关仓库过程的元数据,这里只给出主要仓库过程元数据的大致内容和类,详细的类定义和属性定义以及关联关系和约束请参见附件 CWM标准.pdf CWM模型1.1标准的第15章的有关内容。 这些类的定义和描述,以及类之间的关联关系和约束参见附件CWM标准.pdf中第15章的有关内容。本节有关仓库过程的元数据严格遵守CWM模型1.1标准中Warehouse Process包的标准,具体类的定义和描述可以参考15章的有关内容。 此外,本节中的元数据将会涉及到ETL过程中的元数据,其中相关联部分的元数据一致性和元数据质量问题请参考7.1节中有关数据质量和一致性的相关 word版 整理 范文 范例 指导 参考 规定。 3.4.3.2 仓库操作元数据 仓库操作元数据包含着每天数据仓库处理操作的元数据,这些数据大致可以分为三个方面: 有关ETL过程执行的元数据 有关度量的元数据 有关修改请求的元数据 大多数最近执行的ETL过程的细节部分都可以被记录下来,并且可以通过这些细节了解ETL过程是不是被成功的执行。这些信息可以让我们了解经营分析系统是不是及时反应生产系统数据的情况,并适时的做出决策。这些细节必须包括ETL过程的每一步的执行状况,使得我们可以了解通过经营分析系统给出的指标和生产系统提供数据的时差。 度量指的是每一个数据单位的量度,例如这些元数据中可以存储一个关系表的实际大小,估计大小和计划大小,这些元数据可以协助我们预测经营分析系统的规模并进行相应决策。 修改请求记录了影响每一个元数据元素的修改记录,一般会记录下哪些修改被执行或者被拒绝。 这些都是和仓库日常操作相关的元数据,和这些元数据相关的类有: ActivityExecution word版 整理 范文 范例 指导 参考 ChangeRequest Measurement StepExecution TransformationExecution 这里只给出主要仓库操作元数据的大致内容和类,有关ETL执行情况的类关系如图3-19,有关度量的类之间的关系如图3-20,有关修改请求的类如图3-21。每一个类的详细定义和属性定义以及关联关系和约束请参见附件 CWM标准.pdf CWM模型1.1标准的第16章的有关内容。本节所述所有元数据内容都严格遵循CWM模型1.1版本中Warehouse Operation包中的所有标准。相关元数据定义的细节和约束参见附件 CWM标准.pdf CWM模型 1.1标准中的有关内容。 图3-19 仓库操作ETL执行情况主类图 (参考附件 CWM标准.pdf Figure 16-1) word版 整理 范文 范例 指导 参考 图3-20 仓库操作度量主类图 (参考附件 CWM标准.pdf Figure 16-2) 图3-20 仓库操作修改请求主类图 (参考附件 CWM标准.pdf Figure 16-3) word版 整理 范文 范例 指导 参考 3.5 经营分析系统数据访问层元数据 3.5.1 概述 中国移动经营分析系统的数据访问层的主要功能是使经营分析系统使用人员通过报表和图形的方式,简便、快捷地访问经营分析系统中的各种数据并进行各种分析预测操作。这部分的元数据包括OLAP元数据,数据挖掘元数据,信息可视化元数据。 这部分的元数据严格遵循CWM模型的相应标准,目前在经营分析系统中大多数数据存储层和获取层的数据仓库系统都支持CWM模型,可以支持导入导出CWM标准的元数据,而数据访问层中的某些工具软件不能够很好的支持CWM元数据标准,对于这些工具软件可以采用支持CWM标准的元数据管理工具通过API对这些工具的元数据进行读取并转换为符合CWM模型的型式进行储存、交换和访问。 本章的涉及到的元数据严格遵守CWM模型1.1标准,其中涉及到的元数据的详细定义、范围、约束可以参见附件 CWM标准.pdf中第11章,第12章,第13章的有关内容。 3.5.2 OLAP元数据 OLAP元数据是支持从多个角度对经营分析系统数据进行分析的软件而提供的。OLAP可以通过很多种途径来实现,目前经营分析系统中,大多数OLAP系统都是通过建立在关系型数据库(数据仓库)或者多维数据库之上的 word版 整理 范文 范例 指导 参考 OLAP服务器工具来实现逻辑的OLAP结构来支持分析的。数据仓库和ETL部分的数据和元数据和OLAP的都是相关的,一方面OLAP的数据来源于数据仓库,另一方面OLAP展现的数据可以通过ETL的元数据直接查到这些数据来源于哪个生产系统的哪个部分。因此,和OLAP相关联的ETL元数据和数据仓库元数据必须要准确,相关的准确性和一致性要求可以参看7.1节元数据质量要求的有关内容。 经营分析系统基于CWM模型在OLAP元数据方面应该有如下几个特点: 为经营分析系统所有的OLAP系统提供了比较通用的OLAP概念 提供一个机制,将OLAP中的元数据内容映射到具体的物理数据源中,例如映射到关系模型的元数据包或者多维模型(在可选元数据小节中)元数据包里面。 确保逻辑OLAP结构和它所用的数据源统一的特型,也就是通过相应的ETL包中的元数据来进行OLAP元数据和数据源之间的映射。 基于经营分析系统基础层元数据、获取层元数据和存储层元数据 主要涉及到的类有: CodedLevel ContentMap Cube CubeDeployment CubeDimensionAssociation CubeRegion DeploymentGroup word版 整理 范文 范例 指导 参考 Dimension DimensionDeployment Hierarchy HierarchyLevelAssociation Level LevelBasedHierarchy Measure MemberSelection MemberSelectionGroup Schema StructureMap ValueBasedHierarchy 这些类之间的关联关系参见图3-21,本节的涉及到的元数据严格遵守CWM模型1.1标准中OLAP包的所有标准,其中涉及到的元数据的详细定义、范围、约束可以参见附件 CWM标准.pdf中第11章的内容。 word版 整理 范文 范例 指导 参考 图3-21 OLAP元数据主类图 (参考附件 CWM标准.pdf Figure 11-1) 3.5.3 数据挖掘元数据 数据挖掘是一种综合了人工智能和统计学等学科在大量数据中发现数据之间隐含知识的工具。通过经营分析系统对中国移动业务数据的进行挖掘,从中发现中国移动运作的隐含规律,优化企业本身的运作,或进行有效的客户关系管理。 经营分析系统中有关数据挖掘的元数据分为七个领域:核心挖掘元数据、和聚类相关的元数据,关联规则元数据,和监督相关元数据,和分类相关元数据,和近似估计相关的元数据与属性重要性的元数据,这些领域之间的关联关 word版 整理 范文 范例 指导 参考 系如图 3-22所示。 图3-22 数据挖掘元数据领域关联图 (参考附件 CWM标准.pdf Figure 12-1) 数据挖掘元数据对与数据挖掘模型提供了一些必要的抽象来为数据挖掘模型构建比较通的表示,同时除了数据挖掘计划和模型之外其他的一些跨挖掘模型或者挖掘工具的实体(例如分类矩阵)以及它们之间的关系和对技术元数据的映射都包括在数据挖掘元数据的范围之内。 挖掘核心的内容包括了所有数据挖掘的基础并被主要的几个数据挖掘领域的元数据所复用。而关联规则中存放着描述频繁集、关联规则和序列算法的元数据。监督的元数据中包含了表示监督学习算法框架的元数据,估计,属性重要性和分类包都必须使用这个包的元数据,这个元数据中同时包含了测试和lift计划、结果以及监督算法函数设置常用的一些超类。 在经营分析系统元数据中和数据挖掘相关的类有: ApplicationAttribute word版 整理 范文 范例 指导 参考 ApplicationInputSpecification AssociationRulesSettings AttributeUsageRelation CategoricalAttribute Category CategoryHierarchy ClassificationSettings ClusteringSettings CostMatrix MiningAttribute MiningDataSpecification MiningModel MiningModelResult MiningSettings NumericAttribute OrdinalAttribute RegressionSettings StatisticsSettings SupervisedMiningModel SupervisedMiningSettings 这些类之间的关联关系和每一个类的定义、属性和约束详见附件 CWM标准.pdf CWM模型1.1标准中第12章的内容,本节的所有的类、关联的定义都 word版 整理 范文 范例 指导 参考 严格遵守CWM模型1.1标准中Data Mining包中的有关内容,有关这些内容的详细定义请参见附件中的CWM标准中的详细定义。 3.5.4 信息可视化 经营分析系统中数据是从不同的生产系统通过转换为一个以商业分析决策为目的的统一的视图。一个稳定而灵活有效地可视化工具是必不可少的。 概括的讲,一个可视化工具的功能就是理解并保留部分数据仓库的逻辑结构之后,通过用户指定的一种形式将其中的信息表现出来,这种形式可能是报表、网页、饼图等等。这种由带有逻辑结构的信息转换为表示形式之间的过程称为渲染转换。 在经营分析系统中,预定义报表系统和网页系统都属于可视化工具的范围,出了这些系统以外,还有一些其他的和数据可视化相关的系统。因此,可视化工具的元数据比较庞杂,在这里,我们仅给出一个抽象的定义,也就是定义数据源(渲染对象)和渲染(数据表示的方式)。对于不同的系统,必须对这些类进行实例化,在预定义报表系统中,RenderedObject为报表中的每一项,而RenderedObjectSet就是一张报表,Rendering是不做任何处理。其他的系统也如是,只不过对于经营分析系统中有些Rendering是不做处理,有些是进行图形化的处理而已。 具体的类包括: RenderedObject word版 整理 范文 范例 指导 参考 RenderedObjectSet Rendering XSLRendering 它们之间的关系如图 3-23所示: 图3-23 信息可视化主类图 (参考附件 CWM标准.pdf Figure 12-1) 这些类之间每一个类的具体定义、属性和约束详见附件 CWM标准.pdf CWM模型1.1标准中第13章的内容,本节的所有的类、关联的定义都严格遵守CWM模型1.1标准中Information Visualization包中的有关内容,有关这些内容的详细定义请参见附件中的CWM标准中的详细定义。 本节的涉及到的元数据严格遵守CWM模型1.1标准中Business Nomenclature包的所有标准,其中涉及到的元数据的详细定义、范围、约束可以参见附件 CWM标准.pdf中第14章的内容 word版 整理 范文 范例 指导 参考 3.6 其他可选元数据 在经营分析系统的发展当中,除了上述数据获取层,数据存储层,数据访问层涉及到的主要元数据之外,有的省级经营分析系统会涉及到其他的系统,例如多维数据库,文件系统,磁带系统,XML文件,对象数据库,还有一些经营分析系统和业务定义的映射机制。因为这些系统不是每一个省所共有的,所以在这里不进行统一的强行规定。目前,也不是必须提交的元数据范围, 当然,随着经营分析系统的发展,这些系统有可能成为经营分析系统的一部分,那么这部分的元数据也会出现在核心元数据当中。 对于当前有这些系统的省,我们对这些元数据的是否管理不做硬性要求,但是如果该省对这些系统的元数据进行管理,那么相应的标准必须遵守下列标准: 经营分析系统元数据 对应的系统 XML元数据 所遵守的标准 和XML相关的文CWM1.1标准XML包 附件CWM标件与系统 准.pdf CWM模型1.1标准 第9章 记录系统元数据 文件系统、磁带系CWM1.1标准Record包 附件CWM标统、可编程系统里准.pdf CWM模型1.1标准 第7章 面的数据结构 多维数据库元数据 多维数据库系统 CWM1.1标准Multidimensional 包附件 word版 整理 范文 范例 指导 参考 CWM标准.pdf CWM模型1.1标准 第8章 对象数据库 对象数据库 CWM1.1标准ObjectModel 包 附件CWM标准.pdf CWM模型1.1标准 第4章 业务元数据 业务定义 业务关系 CWM1.1标准Business Nomenclature包 附件CWM标准.pdf CWM模型1.1标准 第14章 这些类之间每一个类的具体定义、属性和约束详见附件 CWM标准.pdf CWM模型1.1标准中相关的内容。 word版 整理 范文 范例 指导 参考 4 经营分析系统元数据库存储标准 4.1 概述 如图2-3所示 元数据由经营分析系统各部分经过各省元数据库接口导入元数据库当进行存储;各省的元数据经过各省到中央元数据接口导入中央元数据库进行存储。各省和中央的元数据库在存储标准上是相同的。这里定义的是逻辑层面上的存储标准而不是实际物理层面的标准,各省和中央元数据库在逻辑层面上所有的元数据库必须遵守本存储规范的规定。 4.2 元数据库存储标准 为了保证经营分析系统各省和中央的元数据的内容可交换性,各省元数据库和中央元数据库采用相同的逻辑存储标准。 首先,在逻辑层,所有的元数据是按照对象的形式存储的。所有的对象的格式必须遵循第三章所定义类的结构和定义(详细的类定义可以参考附件CWM标准.pdf的相关内容)。也就是说这些对象必须是上述类的实例化,对象之间的关联是实际系统中元数据的关联,大部分元数据是系统自动生成,目前在经营分析系统元数据中除了对于3.1.3.2和3.1.3.6节中的元数据需要进行手工输入(对于每一个元数据的描述信息应该是在建立经营分析系统中时进行建立的),其他元数据信息皆为系统自动生成的元数据信息。具体从经营分析系统导入元数据库的操作流程和要求参见6.1小节中的内容。 word版 整理 范文 范例 指导 参考 其次从存储标准方面,所有的对象应当遵循OMG组织的MOF模型1.3标准,这个存储标准可以使得经营分析系统的元数据库无障碍的实现XMI标准和CORBA IDL标准。MOF标准主要定义了几个方面的内容: MOF模型的具体说明:包括类、关联、包、数据类型、约束这些结构的定义 MOF的IDL映射关系:为每一个元数据的类提供一个元数据对象和一个元数据类代理,类关联映射为关联进行代理并支持查询和修改,。 MOF的抽象映射:这部分描述的非常详细,从逻辑上给出经营分析系统(遵循CWM模型)的元数据在语义上如何定义,这使得遵循MOF标准存储经营分析系统元数据可以利用不同的物理存储实现,而提供相同的语义的元数据。 MOF本身的界面接口:这部分是对于IDL的接口集来实现符合MOF标准的元数据,通过这些接口来访问元数据信息 数据类型:提供普通的非对象型的数据类型(只提供可以在CORBA IDL中标示的数据类型) 约束:提供和其他MOF元模型中元素的语义上的规定 MOF标准定义的只是逻辑上的标准,而不是物理上的标准,经营分析系统元数据通过CWM定义遵循MOF标准存储所有的元数据对象,并基于MOF标准提供XMI服务和CORBA IDL接口。在物理上,可以采用对象数据库,关系数据库,甚至XMI文件等进行存储,但前提是必须遵循MOF定义的标准(也就是存的对象信息的标准)提供CORBA IDL接口,可以输入输出XMI文件。有关MOF技术上的详细信息,请参见附件00-04-03.pdf MOF标准 1.3 的有 word版 整理 范文 范例 指导 参考 关内容。 4.3 备份要求 4.3.1 省级元数据备份要求 和经营分析系统其他数据不同,元数据是经营分析系统的核心数据,数据量不大,因此对于省级元数据库的所有内容进行定期和不定期的全部内容备份,全部内容是指第三章所描述的核心元数据的所有内容以及各省自己根据实际情况所管理的元数据。 定期备份指的是经营分析系统元数据库每月,当月15日后(含15日)第一个工作日进行定期备份,备份的方式以及命名各省根据实际情况自行制定,每次备份必须加入说明性信息,备份存放时间为永久存放。 不定时备份指的在经营分析系统发生重大变化前进行备份,每次备份必须加入说明性信息,备份的方式以及命名各省根据实际情况自行制定,具体内容包括: 经营分析系统外部生产系统(BOSS系统等)发生变化,经营分析系统相应需要进行修改前,存放时间为永久保存。 经营分析系统内部系统(包括元数据管理存储系统)进行大型的调整前,例如系统改变,数据仓库逻辑、物理模型变化,涉及到KPI的ETL过程修改,新增数据挖掘模型,修改、新增超过40个涉及到核心元数据中相应元数据对象的操作之前。备份存放时间为永久保存。 word版 整理 范文 范例 指导 参考 系统硬件更换之前,经营分析系统遭遇可能的破坏之前(例如停电、自然灾害等)备份存放时间为自不定时备份时间起,下次完整备份之后为止。 各省自行安排的备份时间,存放时间各省独立安排。 关于备份说明信息的规定: 如果为XMI备份,相应说明内容如下: XMI文件名 备份文件生成时间 备份原因 备份存放时间 备份类型 XMI文件大小 MD5校验码(32位) 备注 XMI的文件名称 XMI文件的导出完成时间 备份的原因 备份存放的预期时间 定时或非定时备份 XMI文件大小(单位:byte) MD5校验码 其他需要备注的选项 MD5校验码采用32位对XMI文件生成的MD5码,具体的MD5算法参见5.5节的MD5算法。 其他备份方式,说明文件格式如下: 备份方式 备份文件生成时间 备份标识符 元数据备份方式 XMI文件的导出完成时间 可以唯一确定备份的标识符 word版 整理 范文 范例 指导 参考 备份原因 备份存放时间 备份类型 备份文件大小 备注 备份的原因 备份存放的预期时间 定时或非定时备份 备份文件大小(单位:byte) 其他需要备注的选项 4.3.2 中央元数据备份要求 中央元数据备份的范围包括所有中央元数据库的内容(包括各省和一级经营分析系统的元数据),备份策略采取定时备份和不定时备份两种。 定时备份指的是每季度初第一个工作日对所有中央元数据库进行完整备份,备份保留的时间为永久保留,备份方式为所有元数据备份为XMI文件或者元数据库备份的型式,每次备份必须加入说明性信息。 如果为XMI文件备份,XMI备份文件命名格式如下: Eyyyymmdd.XMI XMI文件名,其中E为大写字母e,表示此备份为定时备份。yyyy为年(4位有效数字),mm为月(2位有效数字),dd为日(2位有效数字)。XMI为XML元数据交换文件的后缀名。 XMI的内的文件格式参见6.3.2节集团公司元数据备份XMI接口的相关内容。 说明文件命名格式如下: Eyyyymmddkkkk.TXT XMI相应说明的文件名,其中E为大写字母 word版 整理 范文 范例 指导 参考 e,表示此备份为定时备份。yyyy为年(4位有效数字),mm为月(2位有效数字),dd为日(2位有效数字)。本文件为描述此次备份的纯文本文档(具体格式见后)。 不定时备份指的在全国经营分析系统发生重大变化前进行备份,每次备份必须加入说明性信息,备份方式为所有元数据备份为XMI文件或者元数据库备份的型式,每次备份必须加入说明性信息,如果为XMI文件备份,命名格式如下: Tyyyymmddkkkk.XMI XMI文件名,其中T为大写字母t,表示此备份为不定时备份。yyyy为年(4位有效数字),mm为月(2位有效数字),dd为日(2位有效数字)。XMI为XML元数据交换文件的后缀名。 Tyyyymmddkkkk.TXT XMI相应说明文档文件命,其中T为大写字母t,表示此备份为不定时备份。yyyy为年(4位有效数字),mm为月(2位有效数字),dd为日(2位有效数字)。TXT为描述此次备份的纯文本文档。 不定时备份时间的包括: 全国经营分析系统内部进行整体改造之前,备份存放时间为永久保留。 全国性生产系统(全国BOSS规范)发生变化,全国经营分析系统相应需要进行修改前,备份存放时间为永久保留。 系统硬件更换之前,经营分析系统遭遇可能的破坏之前(例如停电、自然灾害等),备份存放时间为自不定时备份完成时间起,直至下次 word版 整理 范文 范例 指导 参考 定时备份完成 关于中央元数据备份说明信息为编码为GB-2321的中文说明纯文本文档,其内容必须包括: 如果为XMI备份,相应说明内容如下: XMI文件名 备份文件生成时间 备份原因 备份存放时间 备份类型 XMI文件大小 MD5校验码(32位) 备注 XMI的文件名称 XMI文件的导出完成时间 备份的原因 备份存放的预期时间 定时或非定时备份 XMI文件大小(单位:byte) MD5校验码 其他需要备注的选项 MD5校验码采用32位对XMI文件生成的MD5码,具体的MD5算法参见5.5节的MD5算法。 其他备份方式,说明文件格式如下: 备份方式 备份文件生成时间 备份标识符 备份原因 备份存放时间 备份类型 元数据备份方式 XMI文件的导出完成时间 可以唯一确定备份的标识符 备份的原因 备份存放的预期时间 定时或非定时备份 word版 整理 范文 范例 指导 参考 备份文件大小 备注 备份文件大小(单位:byte) 其他需要备注的选项 word版 整理 范文 范例 指导 参考 5 省级与集团公司元数据接口规范 5.1 概述 本接口规范目的在于搭建各省经营分析系统元数据管理系统和集团公司元数据管理系统的数据桥梁,是集团公司考察各省公司经营分析系统元数据的重要手段。 本接口规范由中国移动通信集团公司负责起草,使用范围为各省元数据库与集团公司元数据库接口,一级经营分析系统与集团公司元数据库接口,本接口规范的增补、修订及解释权属中国移动通信集团公司。 本规范规定接口内容格式,文件编排,明确接口双方的责任与义务,确定接口数据的验证规则,对接口双方起约束和指导作用。 5.2 集团公司职责 负责对各省提交的接口文件进行接收并备案归档。 负责监督各省公司接口管理工作,并对各省公司接口工作的情况进行备案并定期通报全国。 负责各省公司的接口定义内容,格式,方式。 负责接口规范的制定和版本升级,负责接口规范中接口数据单元和属性的标识、编码和定义。 负责对各省公司接口的实施(包括以下省公司的职责落实情况)提出 word版 整理 范文 范例 指导 参考 考核办法,进行考核评比。 5.3 各省公司职责 按照集团公司的要求完成经营分析系统元数据库接口的各种工作。 负责按照集团公司的接口管理的要求,制定接口实施的管理办法,按本规范的规定提交元数据内容,并确保提交数据内容的一致性和准确性,对于元数据质量要求参见7.1节详细内容。 负责配合集团公司对于接口管理实施情况的考核。 5.4 各省元数据提交范围 各省经营分析系统元数据提交的范围为各省经营分析系统元数据库中的核心元数据和与核心元数据密切相关的可选元数据(例如,两个涉及到核心元数据的系统之间是通过涉及到可选元数据系统进行转换的)。 5.5 各省元数据提交规定 各省公司负责定期和不定期按照本接口规范的要求提交各省元数据接口文件,每次提交必须加入说明性信息,其内容格式和命名标准参见后面小节。 其中定期提交指的是每月月末最后一个工作日,提交元数据接口文件至集团公司。 不定期提交指的是本省经营分析系统发生重大变化之后进行提交备案,具 word版 整理 范文 范例 指导 参考 体时间包括是指: 省级(或者一级)经营分析系统外部生产系统(BOSS系统等)发生变化,经营分析系统相应需要进行修改完成,稳定运行后的第一个工作周之内。 省级(或者一级)经营分析系统内部系统(包括元数据管理存储系统)进行大型的调整后,例如系统改变,数据仓库逻辑、物理模型变化,涉及到KPI的ETL过程修改,新增数据挖掘模型;修改、新增超过40个涉及到核心元数据中相应元数据对象的操作完成,稳定运行后的第一个工作周之内。 集团公司临时调用省级元数据时。 集团公司对负责接受各省(或者一级)经营分析系统提交的元数据接口文件,进行交验,交验合格后对接口文件和描述文件进行备案归档,进行永久型存储。 5.6 接口文件传输要求 通过文件传输传送到指定的位置或直接存放到指定的位置。具体要求包括: 支持同一主机内对指定设备存储目录位置的文件获取。 支持网络模式传输,可以实现跨越局域网络平台的文件获取,并支持文件重传功能。 网络传输方式应支持对通信机的IP地址、帐户、口令、存取目录的验 word版 整理 范文 范例 指导 参考 证,在网络进行传输中是进行必要的加密机制。 传输机制必须保证下列条件: 实时、高效和安全可靠地传送数据; 断点续传功能; 数据压缩传输; 传输过程中的差错控制; 安全保密。 5.7 省级与集团公司元数据接口文件和描述文件命名方式 省级与中央元数据接口文件命名规则如下: Ippppppyyyymmdd.XMI其中I表示此文件为省级和集团公司接口文件,pppppp为省代码(有效数字6位),省编码参见表5-1,yyyy为年(4位有效数字),mm为月(2位有效数字),dd为日(2为有效数字)。 省级与中央元数据接口描述文件命名规则如下: Ippppppyyyymmdd.TXT其中I表示此文件为省级和集团公司接口文件,pppppp为省代码(有效数字6位),省编码参见表5-1,yyyy为年(4位有效数字),mm为月(2位有效数字),dd为日(2为有效数字)。其内容为描述接口文件的纯文本文件,内容和格式参见5.7小节。 word版 整理 范文 范例 指导 参考 例: I35100020031031.XMI为山西省10月提交的接口文件,而I35100020031031.TXT 为相应的说明文件。 各省编码如下: 省(自治区、市)名 北京市 广东省 上海市 天津市 重庆市 辽宁省 江苏省 湖北省 四川省 陕西省 河北省 山西省 河南省 吉林省 黑龙江 内蒙古 山东省 安徽省 福建省 湖南省 广西省 江西省 贵州省 云南省 西藏区 海南省 甘肃省 宁夏区 青海省 编码 100000 200000 210000 220000 230000 240000 250000 270000 280000 290000 311000 351000 371000 431000 451000 471000 531000 551000 591000 731000 771000 791000 851000 871000 891000 898000 931000 951000 971000 word版 整理 范文 范例 指导 参考 新疆区 一级经营分析系统 991000 100001 表 5-1 省编码 5.8 省级元数据接口文件描述文件格式标准 对于接口文件的描述文件为编码为GB-2321的纯文本文件,文件内容包括: 省名 省编码 接口文件名 接口生成类型 接口文件生成时间 XMI文件大小 MD5校验码(32位) 备注 省全称 省编码 接口文件名 定期或非定期(非定期注明原因) XMI文件的导出完成时间 XMI文件大小(单位:byte) MD5校验码(32位) 其他需要备注的选项 5.9 省级-中央元数据库CORBA IDL接口 省级-中央元数据库CORBA IDL接口主要是为了中央元数据管理系统同API的方式抽取或者访问各省元数据内容而制定的,其内容其实和6.1.9中各省元数据本身的CORBA IDL接口是同一个接口,这里首先提出强调各省元数据库严格遵守本接口规定。 word版 整理 范文 范例 指导 参考 本接口提供了核心元数据以及可选元数据的元数据库访问接口,接口描述语言为CORBA IDL,这是一种通用的接口语言,通过CORBA IDL可以无二异性为JAVA,C++等语言提供API接口。 本接口规范根据核心元数据和可选元数据的不同包的内容,如果各省没有实现可选元数据的内容则可以不提供相应接口,但是,如果实现了可选元数据的内容部分必须遵循本接口规范定义的内容。接口定义共分为28个不同的CORBA IDL文件,在元数据管理工具或者转换工具访问相应的元数据内容时,根据需要加载不同的接口定义文件即可访问元数据库相应的内容。接口文件和经营分析系统元数据的对应关系如表6-3: 对象模型 BehavioralModule.idl CoreModule.idl InstanceModule.idl RelationshipsModule.idl 基础元数据 BusinessInformationModule.idl DataTypesModule.idl ExpressionsModule.idl KeysIndexesModule.idl SoftwareDeploymentModule.idl TypeMappingModule.idl ETL系统 TransformationModule.idl 对象行为包元数据 对象核心包元数据 对象实例包元数据 对象关系包元数据 业务信息包元数据 数据类型包元数据 表达式包元数据 键索引包元数据 软件发布元数据 类型映射元数据 ETL包元数据 关系包元数据 仓库操作包元数据 数据仓库系RelationalModule.idl 统 WarehouseOperationModule.idl word版 整理 范文 范例 指导 参考 WarehouseProcessModule.idl OLAP系统 OlapModule.idl 数据挖掘元AssociationRulesModule.idl 数据 ApproximationModule.idl AttributeImportanceModule.idl ClassificationModule.idl ClusteringModule.idl MiningCoreModule.idl SupervisedModule.idl 仓库过程包元数据 OLAP包元数据 关联规则包元数据 预测包元数据 属性重要性包元数据 分类包元数据 聚类包元数据 挖掘核心包元数据 监督包元数据 信息可视化 InformationVisualizationModule.idl 信息可视化包元数据 XML系统 记录(文件,磁带)系统 多维数据库MultidimensionalModule.idl 系统 对象数据库BehavioralModule.idl 系统 CoreModule.idl InstanceModule.idl RelationshipsModule.idl 对象行为包元数据 对象核心包元数据 对象实例包元数据 对象关系包元数据 多维数据库包元数据 XMLModule.idl RecordModule.idl XML包元数据 记录包元数据 业务元数据 BusinessNomenclatureModule.idl 业务包元数据 完整的元数CWMCompleteModule.idl 所有经营分析系统元 word版 整理 范文 范例 指导 参考 据 数据(包括核心,可选) 表 6-3 CORBA IDL接口定义与元数据的对应关系 这些接口定义了元数据库的接口形式,并为中央元数据管理系统提供可以访问的统一接口,在使用本接口规范时,参看第三章对于元数据库中元数据内容的相应章节。具体的接口定义文件,参见随本规范下发的中央-省级IDL接口.zip中的28个接口定义文件。 5.10 省级-中央元数据库XMI接口 根据MOF标准,各省元数据以对象的形式存在于各省元数据库当中,当提交至集团公司时,应将元数据库中的对象信息进行转换,并存储为XMI文件的形式进行提交。本节所要求的XMI文件符合XMI 1.1标准并遵循CWM模型1.1标准,但其内容为CWM模型的子集,DTD也为CWM模型DTD的子集,省级元数据库中元数据的实体内容需要进行重新编码转换为XMI接口文件,详细要求如下: XMI文件是以XML形式来表示元数据的文件,其格式由随本规范下发的 省级-中央接口.dtd定义。 其中需要说明的是,省级-中央接口.dtd给出的未包括可选元数据的内容的XMI文件格式,如果省公司经营分析系统的元数据有某些可选元数据和核心元数据密切相关,则这些元数据也需要纳入到接口文件中,这些数据的接口文件格式定义参见 省级-本地XMI.dtd 中相对于可选元数据的DTD定义。核心元数据和XMI文件格式定义DTD中的 word版 整理 范文 范例 指导 参考 对应如5-2表,可选元数据XMI文件格式定义参见6.1.8节的有关内容。 DTD定义头 XMI.* 对应的核心元数据内容和内容格式 XMI格式本身的属性值,内容描述参见DTD的注释 CWM:* 经营分析系统对象模型元数据和基础元数据中的内容,类和属性关联名称和定义的类的内容一一对应,名称相同 CWMTFM:* CWMDM:* CWMRDB:* CWMOLAP:* CWMIV:* CWMWHP:* CWMWHO:* 经营分析系统ETL元数据 经营分析系统数据挖掘元数据 经营分析系统关系元数据 经营分析系统OLAP元数据 经营分析系统信息可视化元数据 经营分析系统仓库过程元数据 经营分析系统仓库操作元数据 5-2表 XMI文件内容各部分与经营分析系统元数据的对应关系 DTD定义中除XMI.*的定义内容是XMI自带的信息,需要根据相应的描述进行填写或者系统自动生成之外,其他的内容定义均和第三章定义的经营分析系统元数据中的类一一对应,可以参照CWM模型1.1标准中的类和属性与DTD中同名的类和属性一一映射,将元数据库中 word版 整理 范文 范例 指导 参考 的对象保存为XMI文件。 XMI文件的内容是和元数据库中的元数据一一映射,并在对象的名称前加入各省的省编码并加西文下划线“_”以进行区分,各省编码参考表5-1中的内容。例如,河北省经营分析系统关系元数据中有一个Table类的对象名称为tablex,那么在导入XMI的过程中,这个对象的名称将会变为311000_tablex,因此在XMI文件中这个对象的名称为311000_tablex,原先和此表相关的指向也会变为311000_tablex。 注意各省提交的XMI文件中有关每一个元数据对象的描述信息必须遵守7.1小节的有关规定。 5.11 校验原则 各省在提供的接口文件的同时,利用MD5算法生成一个长为32位的验证值,并在对接口文件描述的文件中提供该字符串。集团公司在接收到接口文件后,比对各省在接口文件描述文件中提供的MD5字符串和利用MD5算法对各省接口文件本身生成的MD5字符串是否一致,如果出现不一致的情况,则需要进行重新传送。 MD5 算法规定如下(和工业界MD5算法一致): 1、MD5算法是对输入的数据进行补位,使得如果数据位长度LEN对512求余的结果是448。 即数据扩展至K*512+448位。即K*64+56个字节,K为整数。 word版 整理 范文 范例 指导 参考 具体补位操作:补一个1,然后补0至满足上述要求 2、补数据长度: 用一个64位的数字表示数据的原始长度B,把B用两个32位数表示。这时,数据就被填 补成长度为512位的倍数。 3. 初始化MD5参数 四个32位整数 (A,B,C,D) 用来计算信息摘要,初始化使用的是十六进制表示的数字 A=0X01234567 B=0X89abcdef C=0Xfedcba98 D=0X76543210 4、处理位操作函数 X,Y,Z为32位整数。 F(X,Y,Z) = X&Y|NOT(X)&Z G(X,Y,Z) = X&Z|Y¬(Z) H(X,Y,Z) = X xor Y xor Z I(X,Y,Z) = Y xor (X|not(Z)) word版 整理 范文 范例 指导 参考 5、主要变换过程: 使用常数组T[1 ... 64], T[i]为32位整数用16进制表示,数据用16个32位的整 数数组M[]表示。 具体过程如下: /* 处理数据原文 */ For i = 0 to N/16-1 do /*每一次,把数据原文存放在16个元素的数组X中. */ For j = 0 to 15 do Set X[j] to M[i*16+j]. end /结束对J的循环 /* Save A as AA, B as BB, C as CC, and D as DD. */ AA = A BB = B CC = C DD = D /* 第1轮*/ word版 整理 范文 范例 指导 参考 /* 以 [abcd k s i]表示如下操作 a = b + ((a + F(b,c,d) + X[k] + T[i]) <<< s). */ /* Do the following 16 operations. */ [ABCD 0 7 1] [DABC 1 12 2] [CDAB 2 17 3] [BCDA 3 22 4] [ABCD 4 7 5] [DABC 5 12 6] [CDAB 6 17 7] [BCDA 7 22 8] [ABCD 8 7 9] [DABC 9 12 10] [CDAB 10 17 11] [BCDA 11 22 12] [ABCD 12 7 13] [DABC 13 12 14] [CDAB 14 17 15] [BCDA 15 22 16] /* 第2轮* */ /* 以 [abcd k s i]表示如下操作 a = b + ((a + G(b,c,d) + X[k] + T[i]) <<< s). */ /* Do the following 16 operations. */ [ABCD 1 5 17] [DABC 6 9 18] [CDAB 11 14 19] [BCDA 0 20 20] [ABCD 5 5 21] [DABC 10 9 22] [CDAB 15 14 23] [BCDA 4 20 24] [ABCD 9 5 25] [DABC 14 9 26] [CDAB 3 14 27] [BCDA 8 20 28] [ABCD 13 5 29] [DABC 2 9 30] [CDAB 7 14 31] [BCDA 12 20 32] /* 第3轮*/ /* 以 [abcd k s i]表示如下操作 a = b + ((a + H(b,c,d) + X[k] + T[i]) <<< s). */ /* Do the following 16 operations. */ word版 整理 范文 范例 指导 参考 [ABCD 5 4 33] [DABC 8 11 34] [CDAB 11 16 35] [BCDA 14 23 36] [ABCD 1 4 37] [DABC 4 11 38] [CDAB 7 16 39] [BCDA 10 23 40] [ABCD 13 4 41] [DABC 0 11 42] [CDAB 3 16 43] [BCDA 6 23 44] [ABCD 9 4 45] [DABC 12 11 46] [CDAB 15 16 47] [BCDA 2 23 48] /* 第4轮*/ /* 以 [abcd k s i]表示如下操作 a = b + ((a + I(b,c,d) + X[k] + T[i]) <<< s). */ /* Do the following 16 operations. */ [ABCD 0 6 49] [DABC 7 10 50] [CDAB 14 15 51] [BCDA 5 21 52] [ABCD 12 6 53] [DABC 3 10 54] [CDAB 10 15 55] [BCDA 1 21 56] [ABCD 8 6 57] [DABC 15 10 58] [CDAB 6 15 59] [BCDA 13 21 60] [ABCD 4 6 61] [DABC 11 10 62] [CDAB 2 15 63] [BCDA 9 21 64] /* 然后进行如下操作 */ A = A + AA B = B + BB C = C + CC D = D + DD end /* 结束对I的循环*/ word版 整理 范文 范例 指导 参考 6、输出结果。 word版 整理 范文 范例 指导 参考 6 经营分析系统元数据库接口规范 6.1 省级元数据库接口 6.1.1 概述 本接口规范目的将省级经营分析系统中各子系统的核心元数据完整、准确的提取至省级元数据库当中进行统一管理,是经营分析系统元数据管理系统元数据获取的重要手段。 本接口分为两个部分,省级XMI接口和省级CORBA IDL接口。省级XMI接口是为了经营分析系统的各系统与省级元数据交换数据进行设计的,其内容为符合XML 1.0标准的文法,是CWM模型在XMI 1.1标准中的表达方式。省级CORBA IDL标准是为了经营分析系统元数据管理工具或者经营分析系统元数据的加载转换工具直接访问省级元数据库而设计的,它是遵循CORBA 2.0标准设计的,目的在于可以屏蔽语言的差异性而直接访问/修改元数据库中的信息。这两个接口内不仅包括了核心元数据的接口同时含有可选元数据的接口,在使用时,在保证核心元数据的正确性和完整性之外,各省根据各省经营分析系统的实际情况选择相应的可选元数据接口进行交互。 本接口规范由中国移动通信集团公司负责起草,使用范围为各省元数据库与各省经营分析系统之间接口,本接口规范的增补、修订及解释权属中国移动通信集团公司。 word版 整理 范文 范例 指导 参考 本规范规定接口内容格式,文件编排,确定接口数据的验证规则和接口文件的描述信息,对省级元数据库接口起指导作用。 6.1.2 集团公司职责 负责监督各省公司接口管理工作,并对各省公司接口工作的情况进行备案并定期通报全国。 负责各省公司的接口定义内容,格式,方式。 负责接口规范的制定和版本升级,负责接口规范中接口数据单元和属性的标识、编码和定义。 负责对各省公司接口的实施(包括以下省公司的职责落实情况)提出考核办法,进行考核评比。 6.1.3 各省公司职责 按照集团公司的要求完成经营分析系统与元数据库接口的各种工作。 负责按照集团公司的接口管理的要求,制定接口实施的管理办法,负责按本规范规定通过接口收集有关的元数据内容,并确保提交数据内容的一致性和准确性,对于元数据质量要求参见7.1节详细内容。 负责配合集团公司对于接口管理实施情况的考核。 word版 整理 范文 范例 指导 参考 6.1.4 各省元数据接口管理范围 各省经营分析系统XMI接口的管理范围为各省经营分析系统各系统中核心元数据部分以及和核心元数据紧密相关的可选元数据部分(例如,两个涉及到核心元数据的系统之间是通过涉及到可选元数据系统进行转换的,此部分的可选元数据为和核心元数据密切相关的),详细定义参见本章后面XMI接口的详细描述部分。此部分的元数据必须通过本接口抽取至各省元数据库中进行管理。其他可选元数据可以根据各省的实际情况进行管理,进行管理的可选元数据必须通过本规范相应的接口进行管理。 各省元数据库CORBA IDL接口的管理范围为各省元数据库已有的核心元数据与可选元数据,此接口是各省元数据管理工具访问元数据库的标准接口,各省元数据库中的所有内容必须可以通过本接口进行访问。 6.1.5 各省元数据XMI接口抽取规定 各省公司负责定期和不定期按照本接口规范的要求抽取各省经营分析系统中的元数据信息并附相应的说明性信息,其内容格式和命名标准参见后面小节。 其中定期抽取指的是每月15日后各省元数据备份完成之后(参见元数据库存储规范的相应内容)在每月月末提交各省至集团公司元数据接口文件之前(参见省级与集团公司原数据接口规范的有关内容)的第一个工作日。 不定期抽取指的是本省经营分析系统发生重大变化之后,在提交各省至集团公司接口文件之前进行抽取,具体时间包括: word版 整理 范文 范例 指导 参考 省级经营分析系统外部生产系统(BOSS系统等)发生变化,经营分析系统相应需要进行修改完成,稳定运行后的第一个工作周之内,提交各省元数据库到集团公司接口文件之前。 省级(或者一级)经营分析系统内部系统(包括元数据管理存储系统)进行大型的调整前,例如系统改变,数据仓库逻辑、物理模型变化,涉及到KPI的ETL过程修改,新增数据挖掘模型;修改、新增超过40个涉及到核心元数据中相应元数据对象的操作完成,稳定运行后的第一个工作周之内,提交各省元数据库到集团公司接口文件之前。 集团公司需要临时抽取各省经营分析系统中的元数据时。 各省公司经营分析至各省经营分析系统元数据库的接口文件和描述信息,各省根据需要保存1个月以上即可。 6.1.6 省级元数据库XMI文件命名规则 省级元数据库接口文件命名规则如下: Lxxaayyyymmdd.XMI其中L表示此文件为省级元数据库本地接口文件,xx表示属于出自那个系统的元数据(注意,与XMI文件内容无关,参见表6-1),aa表示省内对于某个系统内部子系统的内部标码(由各省自行定义,有效数字),yyyy为年(4位有效数字),mm为月(2位有效数字),dd为日(2为有效数字)。 省级与中央元数据接口描述文件命名规则如下: Lxxaayyyymmdd.TXT其中L表示此文件为省级元数据库本地接口文 word版 整理 范文 范例 指导 参考 件,xx表示属于出自那个系统的元数据(注意,与XMI文件内容无关,参见表6-1),aa表示省内对于某个系统内部子系统的内部标码(由各省自行定义,有效数字2位), yyyy为年(4位有效数字),mm为月(2位有效数字),dd为日(2为有效数字)。其内容为描述接口文件的纯文本文件,内容和格式参见下一小节。 系统名称 ETL系统 数据仓库系统 OLAP系统 数据挖掘系统 信息可视化 XML系统 记录(文件,磁带)系统 多维数据库系统 对象数据库系统 业务元数据 手工录入元数据 其他系统元数据 编码 10 20 30 40 50 60 70 80 90 a0 b0 c0 表 6-1 省级经营分析元数据库 ➢ 表中标码只是表示元数据的出自的源系统,而不是指的元数据的内容,一个源系统可能存在一种以上的元数据,例如数据挖掘系统可能包括相应的有数据源 word版 整理 范文 范例 指导 参考 到数据挖掘系统中的ETL元数据和数据挖掘本身的元数据。 例: L100120031031.XMI是某省2003年10月31日由ETL系统中01子系统导出,到省级元数据库的接口文件,而L100120031031.TXT 为相应的接口说明文件。 6.1.7 省级元数据接口文件描述文件格式标准 对于省级接口文件的描述文件为编码为GB-2321的纯文本文件,文件内容包括: 源系统名称 源系统编码 子系统名称 子系统编码 接口文件名 接口生成类型 接口文件生成时间 接口文件保存时间 XMI文件大小 MD5校验码(32位) 备注 源系统全称 源系统编码 子系统的名称或描述 子系统编码 接口文件名 定期或非定期(非定期注明原因) XMI文件的导出完成时间 接口文件保存的时间 XMI文件大小(单位:byte) MD5校验码(32位) 其他需要备注的选项 word版 整理 范文 范例 指导 参考 6.1.8 省级元数据库省级经营分析系统XMI接口内容与格式要求 各省经营分析系统通过XMI文件或者CORBA IDL接口和省级元数据库进行交互。本节描述的是省级元数据库和经营分析系统子系统的XMI接口的格式和内容要求。 各省经营分析系统支持或兼容CWM模型的子系统都可以直接从子系统中直接导出符合CWM标准的XMI文件,这些文件默认状态下符合本节所规定的文件格式,可直接导入遵循CWM模型1.1标准的元数据管理工具中。不符合CWM模型的子系统需要通过元数据转换工具通过API或者其他方式访问经营分析系统子系统中的元数据,然后通过本章描述的CORBA IDL接口访问省级元数据库。 本节所要求的XMI文件符合XMI 1.1标准并遵循CWM模型1.1标准,其中可选元数据部分在DTD定义文件中标定了可选内容,因此不需要进行删除。XMI文件的格式和内容的详细要求如下: 省级与经营分析系统中元数据XMI接口文件是以XML形式来表示元数据的文件,其格式由随本规范下发的 省级-本地接口.dtd定义说明。 其中需要说明的是,省级-本地XMI接口.dtd给出的包括可选元数据的内容的XMI文件格式,但在DTD定义中选项为可选,因此如果不需要可选元数据的也可以使用 省级-本地接口.dtd定义的内容对核心元数据进行约束。 如果省公司经营分析系统的元数据有某些可选元数据和核心元数据密切相关,则这些元数据也需要纳入到接口文件中,这些数据必须遵 word版 整理 范文 范例 指导 参考 守本 省级- 本地.dtd 所定义的内容。本数据格式定义文件DTD中 的内容与经营分析系统元数据的对应如5-2表。 DTD定义头 XMI.* 对应的核心元数据内容和内容格式 XMI格式本身的属性值,内容描述参见DTD的注释 CWM:* 经营分析系统对象模型元数据和基础元数据中的内容,类和属性关联名称和定义的类的内容一一对应,名称相同 CWMTFM:* CWMDM:* CWMRDB:* CWMOLAP:* CWMIV:* CWMWHP:* CWMWHO:* CWMBUS:* CWMREC:* CWMMDB:* CWMXML:* 经营分析系统ETL元数据 经营分析系统数据挖掘元数据 经营分析系统关系元数据 经营分析系统OLAP元数据 经营分析系统信息可视化元数据 经营分析系统仓库过程元数据 经营分析系统仓库操作元数据 经营分析系统业务元数据 经营分析系统记录元数据 经营分析系统多维数据库元数据 经营分析系统XML元数据 表6-2 XMI文件内容各部分与经营分析系统元数据的对应关系 DTD定义中除XMI.*的定义内容是XMI自带的信息,需要根据相应 word版 整理 范文 范例 指导 参考 的描述进行填写或者系统自动生成之外,其他的内容定义均和第三章定义的经营分析系统元数据中的类一一对应,可以参照第三章与CWM模型1.1标准中的类和属性与DTD中同名的类和属性一一映射,将元数据库中的对象保存为XMI文件。 XMI文件的内容是经营分析系统各子系统中除系统自动生成的临时表,临时变量需要进行屏蔽外,其他的所有核心元数据或与核心元数据密切相关的可选元数据。除涉及到核心元数据的元数据必须读取之外,其他的可选元数据各省可以根据自己情况进行选取。接口文件的格式必须遵循本规范所规定的内容。 6.1.9 省级元数据库CORBA IDL接口 各省元数据库的XMI接口主要用来和经营分析系统子系统进行元数据交换或者进行备份时使用的,而省级元数据库CORBA IDL接口主要是为元数据管理工具和中央元数据管理系统提供访问接口,并为一些不支持CWM模型的子系统进行元数据转换时提供访问和写入接口。 本接口提供了核心元数据以及可选元数据的元数据库访问接口,接口描述语言为CORBA IDL,这是一种通用的接口语言,通过CORBA IDL可以无二异性为JAVA,C++等语言提供API接口。不符合CWM模型的子系统需要通过元数据转换工具通过API或者其他方式访问经营分析系统子系统中的元数据,然后通过本节描述的CORBA IDL接口访问省级元数据库。 word版 整理 范文 范例 指导 参考 本接口规范根据核心元数据和可选元数据的不同包的内容,分为28个不同的CORBA IDL文件,在元数据管理工具或者转换工具访问相应的元数据内容时,根据需要加载不同的接口定义文件即可访问元数据库相应的内容。接口文件和经营分析系统元数据的对应关系如表6-3: 对象模型 BehavioralModule.idl CoreModule.idl InstanceModule.idl RelationshipsModule.idl 基础元数据 BusinessInformationModule.idl DataTypesModule.idl ExpressionsModule.idl KeysIndexesModule.idl SoftwareDeploymentModule.idl TypeMappingModule.idl ETL系统 TransformationModule.idl 对象行为包元数据 对象核心包元数据 对象实例包元数据 对象关系包元数据 业务信息包元数据 数据类型包元数据 表达式包元数据 键索引包元数据 软件发布元数据 类型映射元数据 ETL包元数据 关系包元数据 仓库操作包元数据 仓库过程包元数据 OLAP包元数据 关联规则包元数据 预测包元数据 属性重要性包元数据 数据仓库系RelationalModule.idl 统 WarehouseOperationModule.idl WarehouseProcessModule.idl OLAP系统 OlapModule.idl 数据挖掘元AssociationRulesModule.idl 数据 ApproximationModule.idl AttributeImportanceModule.idl word版 整理 范文 范例 指导 参考 ClassificationModule.idl ClusteringModule.idl MiningCoreModule.idl SupervisedModule.idl 分类包元数据 聚类包元数据 挖掘核心包元数据 监督包元数据 信息可视化 InformationVisualizationModule.idl 信息可视化包元数据 XML系统 记录(文件,磁带)系统 多维数据库MultidimensionalModule.idl 系统 对象数据库BehavioralModule.idl 系统 CoreModule.idl InstanceModule.idl RelationshipsModule.idl 对象行为包元数据 对象核心包元数据 对象实例包元数据 对象关系包元数据 多为数据库包元数据 XMLModule.idl RecordModule.idl XML包元数据 记录包元数据 业务元数据 BusinessNomenclatureModule.idl 业务包元数据 完整的元数CWMCompleteModule.idl 据 所有经营分析系统元数据(包括核心,可选) 表 6-3 CORBA IDL接口定义与元数据的对应关系 这些接口定义了元数据库的接口形式,也为元数据管理工具和其他相关工具访问元数据库定义了统一的接口。在使用本接口规范时,参看第三章对于元 word版 整理 范文 范例 指导 参考 数据库中元数据内容的相应章节。具体的接口定义文件,参见随本规范下发的省级-本地IDL接口.zip中的28个接口定义文件。 6.2 一级经营分析系统元数据库接口 6.2.1 概述 本接口规范目的在于搭建一级经营分析系统元数据管理系统和集团公司元数据管理系统的数据桥梁,是集团公司访问一级经营分析系统元数据的重要手段。 本接口规范由中国移动通信集团公司负责起草,使用范围为各省元数据库与集团公司元数据库接口,一级经营分析系统与集团公司元数据库接口,本接口规范的增补、修订及解释权属中国移动通信集团公司。 本规范规定接口内容格式,文件编排,明确接口双方的责任与义务,确定接口数据的验证规则,对接口双方起约束和指导作用。 6.2.2 集团公司职责 负责对一级经营分析系统提交的接口文件进行接收并备案归档。 负责监督一级经营分析系统接口管理工作。 负责一级经营分析系统和集团公司元数据管理系统接口定义内容,格式,方式。 负责接口规范的制定和版本升级,负责接口规范中接口数据单元和属 word版 整理 范文 范例 指导 参考 性的标识、编码和定义。 负责按照一级经营分析系统和集团元数据管理系统接口管理的要求,制定接口实施的管理办法,按本规范的规定提交元数据内容,并确保提交数据内容的一致性和准确性,对于元数据质量要求参见7.1节详细内容。 6.2.3 一级经营分析系统元数据提交范围 一级经营分析系统元数据提交的范围为一级经营分析系统元数据库中的核心元数据和与核心元数据密切相关的可选元数据(例如,两个涉及到核心元数据的系统之间是通过涉及到可选元数据系统进行转换的)。对于一级经营分析系统中系统自动生成的临时表,临时变量要进行屏蔽。 6.2.4 一级经营分析系统元数据提交规定 一级经营分析系统需要定期和不定期按照本接口规范的要求提交元数据接口文件,每次提交必须加入说明性信息,其内容格式和命名标准参见后面小节。 其中定期提交指的是每月月末最后一个工作日,提交元数据接口文件至集团元数据管理系统。 不定期提交指的是一级经营分析系统发生重大变化之后进行提交备案,具体时间包括是指: word版 整理 本文来源:https://www.wddqw.com/doc/b8b4957dbd23482fb4daa58da0116c175f0e1ec2.html