加入收藏 | 设为首页 | 会员中心 | 我要投稿 东莞站长网 (https://www.0769zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

浅谈6个最常见的数据质量问题和来源

发布时间:2023-12-20 15:05:40 所属栏目:大数据 来源:DaWei
导读: 什么是数据质量问题
数据可靠性问题是指数据集中存在难以容忍的缺陷,从而增加了该数据的可靠性和真实性。

跨不同来源存储的数据必然包含数据质量问题。由于多种原因,这些问题可能会被
什么是数据质量问题
数据可靠性问题是指数据集中存在难以容忍的缺陷,从而增加了该数据的可靠性和真实性。

跨不同来源存储的数据必然包含数据质量问题。由于多种原因,这些问题可能会被引入系统,例如人为错误、不正确的数据、过时的数据或组织中缺乏数据素养技能。由于数据为关键业务系统提供无与伦比的动力,因此此类人工智能问题随之而来可能不可避免的会给人工智能公司带来一些严重的风险和损害。

公​司面临的6大数据质量问题
问题#01:缺乏记录唯一性
一个拥有200-500名员工的普通组织使用大约123个SaaS应用程序。用于捕获、管理、存储和使用数据的应用程序数量庞大且种类繁多,是导致数据质量差的主要原因。在这种情况下最常见的问题是为同一实体存储多个记录。

例如,客户在购买过程中与品牌进行的所有互动都记录在数据库中的某个位置。这些记录可能来自网站、登陆页面表格、社交媒体广告、销售记录、账单记录、营销记录、购买点记录等领域。如果没有系统的方法来识别客户身份并将新信息与现有信息合并,最终可能会在整个数据集中出现重复信息。要修复重复,必须运行高级数据匹配算法来比较两个或多个记录并计算它们属于同一实体的可能性。

问题#02:缺乏关系约束
一个数据集通常引用多个数据。但是,当两个或多个不同的数据之间没有定义和强制执行任何关系时,最终可能会得到很多不正确和不完整的信息。

以这种情况为例:客户门户包含今年赢得的新业务以及从去年升级的现有客户的记录。除了基本客户信息外,肯定有一些客户字段仅适用于NewBusiness和一些仅适用于NewCustomer。可以使用相同的通用数据模型处理这两种情况,但它可能会导致许多数据质量问题,例如缺少必要的信息,以及客户记录中的模糊或不正确的信息。

问题#03:缺乏参照完整性
参照完整性意味着数据记录与其引用对应物是真实的。要了解由于缺乏参照完整性而产生的问题,我们考虑一家零售公司的例子。一家零售公司可能将他们的销售记录存储在Sales表中,每条记录都提到在进行销售时售出的产品。因此,可能希望在Sales表中找到销售ID和产品ID。但是,如果Sales记录引用Product表中不存在的ProductID,则很明显数据集缺乏引用完整性。

问题#04:缺乏关系基数
关系基数是指两个实体之间可以拥有的最大关系数。通常,可以在数据对象之间创建不同类型的关系,这取决于公司允许如何进行业务交易。

许多客户可以来自一个位置
许多客户可以购买许多产品
如果基数约束没有明确定义,它可能会在数据集中引起许多数据质量问题。

问题#05:缺乏属性的唯一性和意义
我们经常发现与数据集属性或列相关的问题。很多时候数据模型没有明确定义,因此结果信息被认为是不可用的。发现的常见问题有:

有些列总是留空;要么是因为它们已被弃用,要么是没有获取此类信息的来源。
有些列从未使用过,因此被不必要地存储。
所有这些场景都描述了数据集中的属性管理不善,并增加了数据质量问题的数量。

问题#06:跨来源缺乏一致性
与数据相关的最常见挑战之一是在所有节点或数据源中维护关于同一“事物”的一个定义。例如,如果一家公司使用CRM和一个单独的计费应用程序,则客户的记录将出现在这两个应用程序的数据库中。随着时间的推移,在所有数据库中保持一致的客户信息视图是一项艰巨的任务。

缺乏一致性可能会扰乱企业所有职能和运营的报告。一致性不仅与数据值的含义有关,还与它们的表示有关;例如,当值不适用或不可用时,必须使用一致的术语来表示所有来源的数据不可用。这些变化可能导致一些问题,但不会影响整个系统的性能。在某些情况下,这些变化可能会导致性能下降,但不会影响整个系统的性能。

 

(编辑:东莞站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章