加入收藏 | 设为首页 | 会员中心 | 我要投稿 东莞站长网 (https://www.0769zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

商业智能的发展趋势及关键技术盘点

发布时间:2021-08-04 13:06:05 所属栏目:大数据 来源:互联网
导读:商业智能的发展趋势 从应用和技术需求上看,商业智能的发展趋势可以归纳为以下方面。功能上具有可配置性、灵活性、可变化性。BI系统的使用范围从特定部门到企业

    ETL是Bl/DW(Business Intelligence)的核心和灵魂,它在商业智能系统中占据举足轻重的作用。在整个BI项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%。可见ETL的重要性,ETL设计的正确性和合理性,直接影响整个BI项目的效率和质量。

 

 

    数据清洗和转换

 

 

    ETL过程中最复杂的是数据清洗和转换,它通常是与业务需要和后期的数据分析和数据挖掘直接相关的,也是BI项目中资源密集程度最高的步骤。数据清洗的目的是除去数据中的“噪声(noise)”和不相关的信息。数据转换的目的是将源数据的数据值与类型转换为同一的格式。数据清洗和转换通常包括以下处理。

 

 

    数据类型的转换:这是数据转换中最简单的任务,由需要通常将布尔类型转换为整数类型;或连续的数据类型根据一定原则转变为离散的值;对数据进行归一化等。

 

 

    数据分组:有时可能有许多不同的值(状态)出现在离散列中,为了减少模型的复杂性需要把这些值分组,例如职业可能有几十种不同的值,如软件工程师、电子工程师、硬件工程师、顾问等,我们可以用一个“工程师’’来对其进行归纳,以减少模型的复杂度。

 

 

    数据聚集:聚集计算的结果是根据用户可能的查询预先计算好的汇总数据。比如希望通过每个客户的详细通话记录对客户进行细分,派生出呼叫次数和平均通话时间等属性列。

 

 

    离群点的处理:离群点称为孤立点,是数据集中的异常事例,这些事例是少数的情况,但却影响一般数据分析模型的准确性,需要对它们单独进行处理。通常情况是直接删除这些孤立点,对正常数据进行建模。但有时候对这些点的分析却有非常重要的意义,比如信用卡欺诈检测和网络入侵检测等。

 

 

    缺失值处理:从不同数据源集成过来的数据,由于多方面原因存在很多的缺失的数据,这些空值的存在严重影响了正常的数据分析工作,必须对其进行处理。目前有一些方法来处理这种问题,利用平均值代替或者用常见的值代替或者直接产出带空值的记录,无论使用怎么的方法,都必须看实际业务对数据的要求和对模型准确性的要求程度。

 

 

    还有其它的数据清洗和转换任务,在具体操作中,我们需要使用相应的工具来解决业务问题,确保数据的正确性及可用性。

 

 

    ETL的挑战

 

 

    ETL系统是一个复杂的系统工程,虽然ETL已经进入实用阶段,但还有许多阻碍其应用的情况。主要体现在异构数据源的结构差别和数据源数据质量方面。ETL的各个数据源位于不同的网络和操作系统,在数据格式定义,数据结构和接口方面都存在很大差异,给数据提取工作带来很多的麻烦。而且现有不同数据库系统存在无法解决的脏数据,包括命名格式不规范,滥用缩写词、惯用语、数据录入错误、数据重复、数据丢失、单位尺度不一致等。其中对数据集成和清洗影响最大的是以下问题。

 

 

    (1)数据冗余不一致。数据库系统设计时可能从方便或效率方面的考虑,将一种数据分别保存在不同的地方别进行维护,数据的修改得不到及时的反馈和统一,造成了数据之间的不一致,及增加了数据冗余度,也很难分辨数据的正误。

 

 

    (2)数据关联错误。由于数据库设计的不合理,很多情况下会存在数据之间的关联和依赖,包括属性关联即两个属性分别可以由对方推导计算出来,或实体关联即实体间使用关联属性来关联连接。这种设计方式会产生数据之间的不一致、实体关联性丢失甚至出现实体关联错误。

 

 

    (3)数据本身错误。由于在数据库设计时没有进行数据的约束设计,或者用户输入数据时的个人疏忽等原因造成数据源中存在不满足要求的数据以上问题给ETL的设计和实施增加了不同程度的困难,有时只有牺牲数据的准确性来达到系统效率和项目进度的要求。解决这些问题,还需要加强企业工作过程的规范化管理,改善企业的数据库结构等,随着企业信息化水平的提高,这些困扰ETL实施的问题会逐渐得到改善和解决。

 

 

    三、 联机分析处理(OLAP)

 

 

    OLAP的理解

 

 

    OLAP是Online Analytic Process(联机分析处理)的缩写,E.ECodd于1 993年首次提出这个概念。从字面上看OLAP是对联机数据访问和分析,它是为了满足更高效地进行多维分析的需求而产生的。OLAP的主要功能是根据用户所选择的分析,从多个角度(维)度对信息进行快速、一致、稳定地交互访问,使用户可以在短时间内从各种不同的角度审视业务的经营情况。OLAP是一种技术,它最大的特点是其机动性和快速性。OLAP技术是弥补关系数据库在统计及综合查询分析方面的不足,迎合人们对数据的复杂查询和对于数据分类别及层次等高级分析需求而产生的,能在短时间内响应非专业人员的复杂查询。可以利用OLM)技术从多种角度对业务数据进行多方面的汇总统计计算,还可以利用数据挖掘技术自动发现其中隐含的有用理解了OLAP与OLTP的区别,也就对OLAP的特点,功能和使用方式有了感性的认识,OLAP作为一种分析和存储技术,表现出它独特的优势。随着数据仓库的发展,数据仓库(DW)系统正成为新的决策管理系统解决方案。DW系统以OLAP为核心,但包括更为广泛的内容。

 

 

[page]    OLAP操作

 

 

(编辑:东莞站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!