主页 IT生产力指南 1 小时 练习评估 Leanx 数据质量

随着组织从“直觉”转向基于数据的决策,数据质量比以往任何时候都更加重要。正如Forrester所说:“洞察力是当今企业的引擎。一家公司的价值可以通过其数据的表现来衡量。作为经理,您必须每天根据数据做出决策;因此,您想知道的一件事是您是否可以信任数据,因为每天都在创建越来越多的数据。

在本文中,我们为您提供了一种快速简便的方法来评估您的数据质量,并与一些团队成员合作,以及更多背景信息。该方法基于Thomas C. Redman的“星期五下午测量”,我将在后面介绍。

不良数据的维度

在开始之前,重要的是要认识到不良数据有不同的维度。我们遵循由全球数据管理专业人员社区 DAMA(DAMA 组成的维度)。

1. 完整性

数据完整性既可以指可用记录与潜在记录的比例(例如,100% 的客户在数据库中有记录),也可以指每条记录的可用值(例如,80% 的必填字段在记录上填写)。

2. 独特性

现实世界中的每件事都应该只在数据库中记录一次。ACME Inc. 公司应由一条记录表示。重复数据删除解决方案将帮助您解决此问题。

3. 及时性

某个时间点的数据是否反映了同一时间点的现实世界?例如,当销售代理仅在每周结束时进入其会议和呼叫记录时,前几天的数据并不及时。

4. 有效性

如果数据遵循其定义的语法,则该数据有效。电子邮件地址的语法为本地part@domain。本地部分和域都有特定的准则。

5. 准确性

准确性是关于数据是否正确描述现实世界的问题。如果你的主要数据显示Mike Wazowski是“Monsters Inc.”的“恐吓主管”,但他实际上是“怪物大学的首席恐吓官”,那么“角色”和“公司”字段的数据是不准确的。

6. 一致性

一致性描述了不同数据库中现实世界的更多表示的相同程度。如果您的 CRM 声明客户出生于 1981 年,但您的电子商务系统声明 1980 年,则您的数据不一致。

数据质量评估 – “周五下午测量”

现在我们知道了如何识别不同类型的不良数据,是时候按照Thomas C. Redman描述的过程来查看数据质量评估了:

  • 30 分钟:会议准备
  • 1小时:与团队进行数据评估会议
  • 1小时:个人数据评估
  • 30分钟:结果分析

计划一次简短的会议(最多 1 小时),与要从中收集意见的部门的几个成员。在本次会议上,我们将侧重于完整性、及时性和有效性。唯一性、准确性和一致性需要更多的时间来评估,并将单独检查。

第 1 步:准备

通过收集部门处理对象的 100 条随机数据记录来准备会议。将这些导出到 Excel 或 Google 电子表格工作表中。

第 2 步:焦点栏

在会议中,第一步是确定 10-15 个最重要的列。删除其他列,并在每列后添加额外的“字段 A 正确、字段 B 正确等”列。您将获得诸如“名字正确,姓氏正确,电子邮件地址正确等”等列。此外,添加名为“完美记录”的最后一列。

SFB_1-hour-Data-Quality_1

步骤 3:标记记录

逐个演练记录。使用错误数据类型标记您添加的列中的错误字段。当记录上的字段被标记为不正确时,还要将“完美记录”列标记为“否”。现在,您已经从会议中收集了所需的所有数据。

SFB_1-hour-Data-Quality_2

第 4 步:准确性、一致性和独特性

在同事的帮助下,您收集了有关完整性、及时性和有效性的数据质量信息。在第 4 步中,我们将评估唯一性、准确性和一致性。

准确性和一致性

从 100 条随机记录中,选取 20 条记录的子集。将这些记录与现实世界的最新信息进行比较;例如,执行LinkedIn搜索以查看联系人或潜在顾客是否具有准确的关联公司和角色。如果您的组织将同一对象上的数据存储在不同的数据集中,请在这些记录之间进行比较。使用您的发现更新电子表格。

唯一性

您无法评估包含 100 条随机记录的数据集中的唯一性。如果存在重复记录,则在 100 条随机记录中同时选择两者的可能性非常渺茫。

为了评估唯一性,我们建议对对象运行基本的重复查找作业。使用基本的开箱即用 的 重复管理功能更高级的解决方案来执行此操作。

若要指示重复项数,只需使用基本方案。重复的实际数量可能更高,但它会给你一个指示。

步骤 5:分析

分析在步骤 3 和步骤 4 中收集的结果。使用简单的数据透视表,您可以看到应首先解决哪些字段和哪种类型的错误数据。重复的数字必须单独评估。

SFB_1-hour-Data-Quality_3

第 6 步:改进

不要尝试一次改进所有对象、字段和错误的数据类型。选择几个开始,然后从那里继续。

第一步是进行根本原因分析。了解数据如何进入系统以及之后谁接触了数据。尝试在流程中尽早进行干预(最好在 Web 表单中验证输入,而不是在 CRM 中修复输入)。通过培训员工并实施用于验证、格式化和重复数据删除的解决方案,无需花费大量资金即可改善数据。

总结

业务需求会随着时间的推移而变化。将 3 小时的数据评估计划为重复事件,以确保您保持领先地位。获得免费的重复检查记录验证试用版和我们专家的建议,以充分利用您的数据质量工作。