加入收藏 | 设为首页 | 会员中心 | 我要投稿 东莞站长网 (https://www.0769zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 服务器 > 安全 > 正文

平安证券刘宏霞:教你如何保障大数据质量

发布时间:2021-01-13 00:07:48 所属栏目:安全 来源:网络整理
导读:《平安证券刘宏霞:教你如何保障大数据质量》要点: 本文介绍了平安证券刘宏霞:教你如何保障大数据质量,希望对您有用。如果有疑问,可以联系我们。 作者简介: 刘宏霞 平安证券 大数据测试组负责人 2014年加入平安证券,正值互联网金融潮流兴起,组织并参与
副标题[/!--empirenews.page--]

《平安证券刘宏霞:教你如何保障大数据质量》要点:
本文介绍了平安证券刘宏霞:教你如何保障大数据质量,希望对您有用。如果有疑问,可以联系我们。

作者简介:

刘宏霞

平安证券 大数据测试组负责人

2014年加入平安证券,正值互联网金融潮流兴起,组织并参与大数据自动化以及监控体系的搭建、应用和优化.熟悉券商核心业务,对数据有着浓厚的兴趣,并把相关的技术应用到数据质量上,不断地探索券商数据质量之路.

前言

这两年对于大数据来讲,大家看到有很多产品出来,很多公司也在利用数据做些东西,包括现在的一些电影.

前两天的时候,同事给我推荐一部叫做《庭审专家》的美剧,大概花了一天时间把它看完,故事讲的很简单:在美国庭审当中包含陪审团概念,通过大数据分析陪审团行为模式,然后预测他们的想法.这样来讲,大数据应用完全掌握在拥有数据的人身上.

那如果数据质量本身存在问题,就会导致数据分析出现误差,甚至错误的预测或者误导性的描述.所以今天我给大家分享的主题是券商的大数据保障之道 .

在分享券商大数据保障之道之前,我们先看一下平安证券在大数据方面都做了哪些.

1、平安大数据做些什么

经常使用平安证券 APP 炒股的人会发现,我们平安证券 App 过去一年变化非常大,在刚刚过去不久,由证券日报主办的第十二届证券市场年会中,我们平安证券 App 被评为最佳金融 App 大奖.

我们为用户提供个性化的服务,比如 App 功能上有一些千人千面,猜你喜欢的内容,推送的一些功能.其中包括资产收益的功能,这些数据是来自用户大数据,帮助更好为用户推荐产品,也帮助用户更方便获取信息.

在行情方面我们也会做一些股价预警,智能选股等等,可以帮助用户化繁为简,准确操盘.另外是我们的资讯,炒股人都知道,资讯很重要,帮助用户获取最新、最全的金融资讯.

我们还有大数据产品,比如牛人牛股,帮助用户追踪牛人们在买卖什么股票.还有收益类的计算器,辅助客户进行投资决策.

另外比如客户不知道要买股票还是买基金,或者买其他产品,我们也会提供智能化服务,这些都是为客户提供个性化的服务,这是一些大数据相关的产品.

除此之外,我们平安证券还会利用大数据为我们的业务人员做一些科学的决策,依据自动化的数据平台.

比如自动化报表平台,大数据自助分析平台等.我们做了这么多事情,最大的问题是怎么保障这些数据的准确性.

我首先给大家介绍一下系统,我们大数据的组成部分,其次我们在测试数据中面临哪些挑战,之后是我们解决思路是什么,最后是总结以及未来的规划.

2、平安大数据系统的组成部分

先看一个最简单的情况,比如我现在有一个需求,西红柿炒鸡蛋,可能大家都比较熟悉这个场景,我给你一个需求是西红柿炒鸡蛋,你怎么做?

  • 一种方式直接拿了西红柿和鸡蛋放锅里炒,那这是不是西红柿炒鸡蛋,是的.但是你吃的时候可能有蛋壳和西红柿皮.
  • 另外一种方式通过各种工序,鸡蛋和西红柿清洗干净,鸡蛋加点盐打散,西红柿去到蒂部,切成块,锅里放油,加入材料,也是一盘西红柿炒鸡蛋;

大家会吃哪盘西红柿炒鸡蛋也就一目了然了.

同样的道理,平安证券自己常用的系统大概在50个左右,另外还有数据来源于平安旗下其他子公司.如果每个分析人员都根据自己的需求直接取源数据,你会发现同一个需求不同的人做,结果都不对等的.

另外比如重复的工作量、低效的工作,无法快速响应业务需求等等问题,为了解决这些问题,我们实现了统一底层,对各个系统提供的数据都来自于统一底层.由统一底层来保障数据的质量.

看下我们统一底层的框架,从下往上看,最底层是数据源,数据源来自平安证券的所有系统(比如账户系统、交易系统、基金系统、个股期权、融资融券等等)以及部分平安旗下其他子公司的数据.

  • RAW 层
    所有数据的处理都由统一底层进行,统一底层分为四层,最底层是raw层,也是数据同步层,数据采集过来会放到raw,raw层的数据与源数据一样,不做任何的操作.
  • MID 层
    数据采集完成后,会到 MID 层,MID 层是数据的清洗层,MID 层会根据源数据的特性做相应的清洗,比如:日期类型的转换、身份证15位到18位的转换、空格、null 值等处理.在清洗层对于常用的清洗方式,我们会通过自定义的函数进行清洗,以保证不同的开发人员清洗后的结果一致.
  • BASE 层
    数据清洗完成后,就到我们的 base 层,base 层是业务流水层,base 层根据主题进行设计,比如客户主题,交易主题,产品主题等等.
  • FACT&VIEW层
    Fact 层和 view 层是业务实现层,在这个层级上根据业务的需求进行指标的产生、指标的聚合、汇总等等.固化的业务数据在fact层,未固化业务数据在view层.

我们当前已完成指标有8万多个,这些指标是指以客户为方向,每个客户涉及标签有8万多个,每天还有不断新增的指标.

我们重点关注的是中间这部分,因为我们只有保证这部分数据准确性,我们才能保证对外提供的数据准确.

3、实施大数据面临的挑战

那我们怎么保证中间这一层数据准确性呢?同样我们也面临着很大的挑战.

挑战一:指标繁多

8万多指标,仅仅用一年把它全部加进去的,对于我们测试人员来讲,8万多个指标涉及到业务,涉及到底层的很多表,那我们怎么进行处理,这是我们面临的挑战.

挑战二:数据的准确性

如果数据错了,我们往外提供的数据就是有问题的,如果每天都有业务人员跟你讲,指标好像有问题,如果把所有精力都在回答大家的问题,根本没有精力做测试.

挑战三:数据稳定性

(编辑:东莞站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!