加入收藏 | 设为首页 | 会员中心 | 我要投稿 东莞站长网 (https://www.0769zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 资本 > 正文

【IDCC2019】腾讯栗权:腾讯智维平台与数据中心运营体系结合

发布时间:2019-12-23 12:53:49 所属栏目:资本 来源:中国IDC圈
导读:副标题#e# 大数据时代,数据呈现爆炸式的增长,全球掀起了兴建数据中心的热潮。在新时代,未来数据中心如何建设运营,又将呈现出怎样的发展趋势?2019年12月19日,第十四届中国IDC产业年度大典(IDCC2019)第二日精彩继续,行业专家和企业代表云集IDC建设与
副标题[/!--empirenews.page--]

大数据时代,数据呈现爆炸式的增长,全球掀起了兴建数据中心的热潮。在新时代,未来数据中心如何建设运营,又将呈现出怎样的发展趋势?2019年12月19日,第十四届中国IDC产业年度大典(IDCC2019)第二日精彩继续,行业专家和企业代表云集“IDC建设与发展论坛”,为数据中心未来的建设与发展献计献策。腾讯天津滨海数据中心经理栗权先生在会上为与会者进行了《腾讯智维平台与数据中心运营体系结合》的主题演讲。

腾讯天津滨海数据中心经理栗权

腾讯天津滨海数据中心经理栗权

大家上午好,很高兴能够参加今天的分享。我今天分享的主题是腾讯的智维平台是如何实际应用到数据中心的市场运营过程中的。

首先做一下自我介绍。我是来自腾讯按天津滨海数据中心的经理栗权。天津滨海机房是腾讯第一个自建机房,而是腾讯运营中单体体量最大的一个园区。天津滨海这个机房单体服务器数量已经超过10万台,机架数量5400架左右。

我今天分享的主要有三个议题。首先跟大家一起回顾一下腾讯的智维平台发展历程。其次跟大家详细介绍一下腾讯智维平台在日常运营以及数据分析方面对运营过程发挥了哪些作用。三是智维平台的优势和落地的应用。

腾讯2000年建立了自己第一个数据中心,当然那个时候我们是跟深圳电信租赁的一个机房,直到2006年腾讯有了第一个正式算作IT机房的数据中心,在深圳宝安机房。到2011年腾讯有了第一个在天津自建的数据中心,就是我所运营的机房。时间很快,到2013年腾讯发布了第三代以微模块为主导的MDC的数据中心技术。2015年推出了第四代T—BLOCK集装箱式的数据中心。到现在我们已经经历了四代数据中心的发展历程。在这么多年的建设和运营过程中,有一点体会是非常深刻的:一套高效可用的管理平台,对整个数据中心的运营质量和运营效率来说是能够带来指数级的帮助的。所以,基于这个理念,我们在2014年自主研发并且上线了一套腾讯智维平台的前身。

数据中心在运营过程中会遇到不同的挑战,有四点我总结的日常运营过程中我们可能会面临的最大的几个挑战:管人、管物、管好服务以及控制好成本。智维平台针对这四个模块都进行了核心能力的打造。DCOM,在腾讯内部我们把它定义成日常的运营流程平台,所有的事件变更、维护维保都是通过DCOM来驱动的,它的主要目的是为了管好我们外包人员,进行人的管理。现场运营着数万台的设备,有几十万个监控测点,每天产生数T的数据。如何应用和分析这些数据,让它最大化产生价值,是在DCRM平台进行扩充和分析的。此外,由于腾讯云会对外提供很多托管的业务。所以,我们给用户提供的服务目录的管理,会在DCIM平台进行管控。所有的运营过程中,所发生的物料以及资源成本,我们都会在DCSM模块进行统一监管。

下面我分别展开跟大家介绍一下。DCIM平台是腾讯智维整个产品的核心。五年之前,就是已经跟BA等厂商打通了底层的数据接口,把数据中心内50万个测点全部通过标准的接口进行对接,并且自己进行统一的存储。基于这些数据,我们制定N多种运营场景,为每种运营场景设置一个模型。这个数据模型分别可以应用到我们的可视化试图以及告警分析、智能分析中,这样说可能会比较抽象,后面大家可以看两个具体的例子。

分享一个腾讯天津数据中心三号楼的一个实时数据,因为我们已经切了节约模式,所以功率法算出的实时PUE是1.18,负荷是12.4兆瓦。每一天作为运营管理人员,可以通过这个页面对整个机房当前的运营容量,以及外室电,以及当前机架的使用情况有一个整体的了解。进一步可以通过采集上来的监控数据,对外室电的供电质量以及每一台变压器的质量和供电质量进行跟踪。这些数据都可以经过简单的模型处理,在运营综合视图里展现出来。

采集到的50多万条数据如何应用到综合视图里,我们会进一步把它应用到监控告警中。由于传统的监控告警只是进行纸回执的监控,设置一个上下限,描述物理过程,但是腾讯智维平台很早就实现了基于拓扑的逻辑收敛。会把从室电进线到中压侧到UPS直到末端全部都进行数字化的转译,我们把每一个设备之间的元器件建立起来一个拓扑关系,从空开状态到采集值。基于这个拓扑关系设置我们的告警策略。这样一旦源头有任何的告警产生,我们都可以通过拓扑关系以及所设定的告警策略进行告警的收敛以及快速的故障定位,用这种方式来防止告警泛红,以及帮助一线人员快速进行故障处理和响应。

第二个例子是健康管理。单单有这些告警数据还是不够的,因为告警往往已经有一个滞后效应了。被管理人员看到,被处理的时候,说明已经造成了一定的影响。我们基于现场海量的数据,除了进行被动的告警响应以外,还会进行很多主动的健康状态的预警检测。这里分享的是我们对于电池健康状态检测的案例。我们除了会对电池的温度、内阻和电压传统的三类相量进行监控以外,,还引入了机器学习、监督学习的AI算法,通过整组以及落后电池分析多种AI分析的方法,帮助我们发现哪些电池虽然表象上目前的容量和电压都正常,但是它确实在历次放电中或者在运营过程中是存在落后的风险,或者落后的隐患的。我们也累计了半年的数据进行分析。通过AI的方式发现的电池故障或者电池异常的准确率要高于我们对传统电压和内阻监控而发现的准确率。

下一个智维平台的亮点是关于容量的管理。容量对于数据中心运营安全来说是非常重要的,但传统的IDC如果要做到精细化的容量管理可能要借助非常多的报表,或者在末端部署非常多的智能PDU。但是基于腾讯DCIM接口,我们可以进行电压电流的检测,所有检测上来的数据可以绘制一张容量视图中。通过平面图,再结合当前CMBD里面机架机位实际的空闲状态,就可以马上绘制出来一张综合了电量以及机位的物理状态资源表,根据这张表就可以进一步进行后续设备上架时所使用的资源状态的分配。

我们不但做了容量管理,还可以基于现有空闲的容量,未来对于不同型号的服务器,再上架新设备也做了一个预测的模型。这个模型可以给到我们后续的资源分配以及资源上架进行预估的指导,模型的准确率高达90%以上。

还有一个亮点是能耗分析。首先我们可以基于刚刚提到的18个测点的采集和监控,对现场所发生的每一个千瓦,甚至每一台设备它的实际能耗以及它对整个能耗的成本到底有什么贡献,以及有什么弊端,做一目了然的分析和统计。分析完这些数据,最终的目的可能是要将能耗进行合理的控制。腾讯仿照Google的一个做法,使用了基于网络的算法,在数据中心之内做了一个PUE节能的预测。首先我们导出了历史五年所有的从BA冷站到末端到服务器,AI负载的将近70多维度的历史数据。对所有的数据按照影响因子进行建模和排序,这里的影响因子变化量非常多。其中一个重要的参考量就是我刚刚提到的这张拓扑,因为我们每一台设备,不管是通过管路连接起来的也好,还是通过冷冻水能量形式连接起来的也好,内在都有一种关联关系。我们根据这些关联关系的疏与密,可以排列出来一个影响因子。

(编辑:东莞站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

推荐文章
    热点阅读