加入收藏 | 设为首页 | 会员中心 | 我要投稿 东莞站长网 (https://www.0769zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 服务器 > 安全 > 正文

专家观察 | 汤人杰:“浙江移动DCOS规模实践与演进”

发布时间:2021-01-16 06:02:52 所属栏目:安全 来源:网络整理
导读:《专家观察 | 汤人杰:“浙江移动DCOS规模实践与演进”》要点: 本文介绍了专家观察 | 汤人杰:“浙江移动DCOS规模实践与演进”,希望对您有用。如果有疑问,可以联系我们。 由工业和信息化部指导,中国信息通信研究院主办,业界知名组织云计算开源产业联盟(OS
副标题[/!--empirenews.page--]

《专家观察 | 汤人杰:“浙江移动DCOS规模实践与演进”》要点:
本文介绍了专家观察 | 汤人杰:“浙江移动DCOS规模实践与演进”,希望对您有用。如果有疑问,可以联系我们。

由工业和信息化部指导,中国信息通信研究院主办,业界知名组织云计算开源产业联盟(OSCAR)承办的2017全球云计算开源大会于4月19日-20日在北京国家会议中心顺利召开.本文为本届大会嘉宾分享的大会演讲速记内容,敬请浏览.

嘉宾介绍:汤人杰

公司职务:中国移动通信集团浙江有限公司高级架构师

大会演讲速记

非常荣幸有机会来这里跟大家分享我们浙江移动在云计算方面的实践.我主要分享的议题是DCOS,可以说谷歌很早就有,在运营商内部我们自主研发这个平台还是做得比较早.先讲一下整个驱动力,云计算的驱动力有很多种说法,把大家也都说得云里雾里.

有很多的名词,比如像去IOE、DevOps敏捷开发,在这些东西的背后,云计算最根本的商业驱动力是什么,更高的效率、更低的成本以及更敏捷的业务响应,这样就能支撑我们降低TCO,第二是小前台、大前台的快速业务敏捷的变化.

为了达到云计算的效果,我们浙江公司这几年来从传统的IT孤岛到最后的DCOS化,中间也经历了一个漫长的历程,前前后后七八年总是有的.
最早的时候我们用的都是小型机和高端存储,在上面独立做应用,都是孤岛的程序,每一套应用有很多套,每套都是独立的,机器也百花齐放,有用惠普的芯片,也用Spark的芯片,还有用IBM的,各不相同.

那时候我们做了标准化,都用了X86芯片.再接下来我们在IaaS层做了资源池化,我们当时用VMware软件做了虚拟化,我们实现了虚拟机级的弹性伸缩,超过单台物理机就没办法弹性伸缩了,所以是非常有局限的.后来我们又做了PaaS化,做了集群级的弹性伸缩,通过集群间的负载均衡,做了PaaS的云化,我们在中间件这个层面做了切换.

最后我们参考了谷歌和阿里云的架构,做了DCOS化,真正做到细粒度的资源贡献,实现大云,这时候我们资源调度和弹性伸缩不再局限单台物理机,而是在整个浙江移动的数据中心就可以快速切换,实现了数据中心级的弹性伸缩,这也就是DCOS名称的来源.这种级别的弹性伸缩和资源隔离是DCOS化一个非常大的特点.

这个历程里面,IaaS层云化不足的问题有几个地方,一个是部署是静态的,快速的应用部署受到很大的制约.

其实说到底,虚拟化无非就是装了个VMware软件,上面把它格成几个虚拟机,跟在物理机上除了管理方便一点,没有特别大的区别,可能资源的利用率更细一点,大的区别没有,因为它的应用还是要完全重新部署的.

弹性伸缩更加谈不上,在一个虚拟机内部弹性伸缩,客观上讲,当时我们甚至没有在物理机内部做弹性伸缩,没有必要,找不到任何的驱动.利用率低,CPU平均利用率10%.

在这个情况下,我们提出了我们整个云平台的蓝图,我们要构建我们的大云,我们要建浙江移动自主研发的大云,做我们的DCOS.这个DCOS大概是在2015年、2016年这个时间完成的,大概分成这么几个部分.底层还是IaaS层,IaaS层不细讲了,重点讲PaaS层.PaaS层上面我们做了一个弹性计算服务平台,其实跟阿里的飞天是一样的.

我们做了一套分布式协调服务、分布式调度服务和负载均衡的一套东西,整个一套东西能够实现我们在数据中心层面的资源调度.上面我们到底调度了什么进程,比如说有中间件的进程,有数据库服务平台,还有大数据的一些服务,这是在它之上的承载的一些服务,网管的支撑系统,业务的支撑系统,还有管理信息系统等,这个是大类,不重点展开了.需要去运维的东西还有一个云管理平台,通过这个云管理平台我们可以做一些一站式的开发,可以做一些运维、配置管理等等,包括一些容量的管理.

什么是DCOS,数据中心操作系统,是整个移动公司所有的异地的机房全部加进去,所有机房里的所有服务器我当成一个大型计算机来调度.

通过这个思路,我们打破静态隔离,实现资源共享.云化有两个重要的特点,一个是资源调度,一个是资源隔离.在资源调度方面,DCOS实现了数据中心级的资源调度.

在资源隔离方面,我们也抛弃了传统虚拟机比较笨重的模式,采用容器进行资源隔离.

下面是个互联网的图,不同的几种运算模式,可能有些说是晚上运算比较密集,有些说白天比较密集,如果联合起来统一的资源调度,整体的CPU利用率就会非常高,削峰填谷,云化的集约效果真正体现出来了,不像以前纯粹的虚拟化模式下,CPU利用率仍然非常低.

这一页是我们当初1.0版本的DCOS平台整体架构,可以看到核心是采用Mesos这个平台,用马拉松作为一个任务型的调度器,Mesos作为一级调度,去分配资源,通过MesosSlave启我的一个任务,里面的Container主要做仲裁的一些功能.

(编辑:东莞站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!