一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解

发布时间：2019-05-16 22:40:12 所属栏目：教程来源：中国联通大数据

导读：副标题#e# 在上一篇文章【一篇运维老司机的大数据平台监控宝典(1)】中，我们介绍了目前联通大数据监控平台由Grafana+Influxdb+Prometheus+Alertmanager等组件组成，并且着重详述了以Grafana为核心的图形化展示功能。本文继续针对运维监控体系的另一重要内

可以用一个业务场景来解释该特点：某大数据集群由于网络问题大面积瘫痪，上百个datanode触发断开告警，如果按照传统监控模式的话，收到的将是上百条的告警短信形成短信轰炸。但如果使用分组特性，Alertmanager会将具有共同属性的告警归为一条发送到接收端，清晰明了。

(2) 抑制

还是用业务场景来解释该特点：某主机上运行了一个mysql实例，若该主机宕机，则会收到多条关于mysql各项监控的告警信息，但如果配置了抑制用法，只要触发该主机的宕机告警，上面mysql所触发的告警便会被抑制掉。

(3) 沉默

举例来说，某主机硬件主板损坏，但厂商反馈要2天后才能更换主板，一般情况下在更换主板前，该警报会一直大量重复发送。如果此时利用沉默功能，在页面上配置沉默选项即可暂停此告警，待修复完成后取消沉默规则即可。

一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解

3. 配置

global: 
  resolve_timeout: 5m 
templates: 
  - 'template/*.tmpl'                 
route: 
  group_by: ['cluster'] 
  group_wait: 10s                
  group_interval: 20s                            
  repeat_interval: 30m         
  receiver: 'host'                   
 
  routes: 
###############example#################### 
  - receiver: 'example' 
    match: 
      cluster: example 
    continue: true 
- name: 'example' 
  webhook_configs: 
  - url: 'http://localhost:8180/dingtalk/ops_dingding/send' 
 
inhibit_rules:                         
  - source_match: 
  - source_match_re: 
    target_match_re: 
           equal: ['ipAddress']

四、钉钉-最终告警接收查阅

运维人员常用的发送告警工具有短信、邮件、企业微信和钉钉，之所以选择钉钉的原因如下：

短信：一般是通过往oracle插入告警信息走短信网关发送;优点是及时高效，但缺点是oracle支持的并发量有限。
邮件：邮件告警的及时性是一个很大的问题，并且如果没有合理设置阈值，邮件轰炸会影响其他工作邮件的阅读。
企业微信：企业微信不存在短信网关的并发限制，但弊端在于告警条数有限。
钉钉：有强大的分组功能且不限制告警条数;可按项目创建告警群，也方便解除。

使用钉钉作为告警接收工具，简单来说就是在钉钉群聊中配置机器人，每个机器人会有一条唯一的webhook，当接收到来自Alertmanager的告警后就可以发送到手机端。本文不再详述钉钉机器人的配置，感兴趣的同学可以自行到网上查阅资料。

五、补充知识点

作为运维人员，做得最多的工作就是日常巡检、故障恢复。公司集群规模越庞大，故障发生率和故障实例数也会成倍增加，相信每个运维人都体会过节假日被临时召唤修复故障的经历。这里，笔者额外贡献一条“自动化恢复”小贴士，解放随时等待召唤的运维er，你值得拥有：

自动化简易流程：通过采集分析Prometheus里的告警数据，利用fabric或ansible等多线程安全并发远程连接工具，执行相关角色实例的恢复工作。

一篇运维老司机的大数据平台监控宝典（2）-联通大数据集群平台监控体系详解

（编辑：东莞站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

笔记本电脑卡,教您笔记	amr文件用什么打开,教
桌面图标有蓝底,教您桌	无线网卡驱动怎么安装