数据仓库和ETL学习笔记

发布时间 : 星期三 文章数据仓库和ETL学习笔记更新完毕开始阅读

5、数据转换的主要类型

(1格式修正。如数据类型和字段长度。

(2字段解码。解决相同数据项用过多字段值描述的问题。如性别有的远系 统用1、2表示,有的用M、F表示。 (3计算值和导出值。

(4单个字段的分离。字段拆分。

(5信息的合并。将来自不同数据源的对同一实体的描述信息合并,成为一 个新的实体。 (6特征集合转化

(7度量单位的转化。将不同标准的度量单位转换成相同的标准度量单位。 (8日期/时间转化。将日期和时间转换成统一格式。

(9汇总。创建装载数据仓库的汇总,而不是载入大部分的低粒度数据。 (10键的重新构造 6、高质量数据的特征

(1准确性。存储在系统中的关于一个数据元素的值是这个数据元素的正确 值。

(2域完整性。一个属性的数值在合理且预定义的范围之内。

(3数据类型。一个数据类型的值通常是根据这个属性所定义的数据类型来 存储的。

(4一致性。一个数据字段的形式和内容在多个源系统之间是相同的。 (5冗余性。相同的数据在一个系统中不能存储在超过一个的地方。 (6完整性。系统中的属性不应该有缺失的值。 (7重复性。完全解决一个系统中记录的重复性的问题。

(8结构明确。在数据项的结构可以分成不同部分的任何地方,这个数据项 都必须包含定义好的结构。

(9数据异常。一个字段必须根据预先定义的目的来使用。

(10清晰。一个数据元素可能拥有数据质量的所有其他特征,但是如果用户 不能清楚地了解它的含义,那么元数据对于用户就毫无含义。正确的命名习惯可以帮助用户更好地理解数据元素。

(11时效性。用户决定了数据的时效性。如果用户希望客户维度数据不要超 过一天,那么源系统中的客户数据的变化就必须每天都应用到数据仓库中。 (12有用性。数据仓库中的每一个数据元素必须满足用户的一些需求。数据 元素可能是正确的、高质量的,但是如果对于用户没有价值,那么数据仓库中的这个数据元素就是完全没用的。

(13符合数据完整性的规则。源系统中的关系数据库中存储的数据必须符合 实体完整性和及参照完整性。允许使用空值作为主键的任何数据表都不具备实体完整性。参照完整性迫使正确地建立父子关系。在一个客户和订单的关系中,参照完整性保证了数据库中一个客户所有订单的存在。

7、数据质量问题类型列表

(1字段中的虚假值 (2数据值缺失

(3对字段的非正规使用。姓名字段不能放性别。 (4晦涩的值

(5互相冲突的值。源系统中有一些相关字段的值必须是兼容的。如地区和 邮政编码必须匹配。

(6违反商业规则。如一年不能超过365或366天。 (7主键重用。

(8标志不唯一。如同一个产品在销售系统和库存系统产品代码不一样。 (9不一致的值。如性别在不同的系统中编码不一样。 (10不正确的值 (11一个字段多种用途 (12错误的集成 8、数据污染的来源 (1系统转换

(2) 数据老化 (3) 复杂的系统集成 (4) 拙劣的数据库设计 (5) 数据输入的不完整信息 (6) 输入错误 (7) 国际化/本地化 (8) 欺诈 (9) 缺乏相关政策 9、

数据清洗工具所能完成的一些典型的错误发现

功能 方便快捷地识别重复记录 辨认出那些超出合法域值范围的数据项 找出不一致的数据 检查允许值的范围 检查不同来源的数据项的不一致性 允许用户辨认和确定

数据质量问题的数量 监考数据质量虽时间变化的趋势 向用户报告分析所用数据的质量 解决关系数据库管理系统数据参照完整性问题 10、 数据清洗工具所能完成的一些典型的错误修正功能

规范不一致的数据 改善不同数据源中数据

的合并过程 对属于同一个家庭的客户记录进行分群和关联 提供数据质量的衡量指标 使允许的数值生效

联系合同范文客服:xxxxx#qq.com(#替换为@)