加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

运维老司机:问题排查经验总结

发布时间:2018-12-09 14:17:17 所属栏目:外闻 来源:今日头条
导读:副标题#e# 看似无章可循问题进行排查时可以说是世界上最紧张且难度、强度最大的工作之一,尤其面对极高收入的业务、海量服务运营,带来极大的恐慌感并引发肾上腺素飙升,压力的存在可能诱发我们犯下的低级失误。克服这种白痴般的本能,我们需要克制自己快要
副标题[/!--empirenews.page--]

看似无章可循问题进行排查时可以说是世界上最紧张且难度、强度最大的工作之一,尤其面对极高收入的业务、海量服务运营,带来极大的恐慌感并引发肾上腺素飙升,压力的存在可能诱发我们犯下的低级失误。克服这种白痴般的本能,我们需要克制自己快要爆发的一腔怒火、强迫自己以有条不紊的方式逐一开展尝试。其实做运维练就的是一种心态,足够淡定遇事而不乱,从容应对才是真。

排查出问题并找到根本原因加以解决,个人认为是一件很成就感的事情。曾经有人问过我:“你是怎么想到问题出现在xxx的?又是怎么确认根本原因是xxx的?”,我只能轻描淡写的回答:“靠经验”,然后感觉这个逼装得还可以。其实这里说的“靠经验”是很模糊的,一直以来大家可能都觉得排查问题要靠经验,但是又说不出具体通过什么样的经验排查出了问题,最后让排查问题逐渐变成了一门玄学。其实问题排查工作往往遵循一些通用且不成文的实践规则,并不是一门所谓的玄说,结合自身经历、总结,希望能为大家的实际工作带来助益。

运维老司机:问题排查经验总结

从入行到现在,遇到过各式各样,千奇百怪的问题,然而每个业务形态和系统均不一样,我们往往能搜索到很多某一个或一类问题解决办法,但个人觉得认知方法、经验难复制,所以抽(套)象(路)说说关于“问题排查”的方法论,希望能与您产生更多的共鸣。

排查问题犹如破案

运维排查线上问题犹如警察破案一样,是一个不停分析线索,推理的过程,但在准备排查问题之前,我们应该明白三个认知:

认知,几乎是人和人之间唯一的本质差别。 —— 傅盛《认知升级三部曲》

系统出现异常是正常

时至今日计算机系统已经变得异常复杂,一次用户请求可能要经过发送请求,DNS解 析,运营商网络,负载均衡,服务器,虚拟机(容器),视业务逻辑的复杂程度可能 还要调用组件,缓存,存储和数据库等。每个环节都可能出现问题,有的组件又是分布式的,大大增加的排查问题的难度,所以出现问题后不要慌,保持好的心态。

首要任务是恢复系统

“飞机在发生紧急情况下,飞行员的首要任务是保持飞机飞行,相比保证乘客与飞机安全着陆,故障定位和排除是次要目标”,所以恢复线上系统是首要任务,而不是立马找到它发生的原因。

真相永远只有一个计算机是一门科学,而且计算机的世界里都是由0或1组成,在这个世界里只有是或否,没有中间地带,所以在计算机世界凡事都有根本原因,没有偶然发生,一切都是必然。

了解案情,评估大小

先评估出这个问题的影响范围,是全网,某些地区,还是某条链路不可用的问题,还是很多业务线都出现问题,评估出案情的大小,到底是普通的民事案件,还是刑事案件。

理清线索,整理分析

理清手头已得到的信息或线索,比如监控上有网络报警,有用户反馈无法访问,有开发人员反馈服务器有问题,同时间段有做变更等等,尽量不要漏掉这些看似无关紧要的线索,把这些线索先整理下来,后面一并分析。

推理的过程,就是根据已知线索,通过合理的想象、推断得出一个唯一的结果。线索是整个推理过程的起点,线索给出的好有不好、是否有错误,直接会影响推理的质量,因此是最基础、也是最重要的一环。线索的梳理,最常犯错误就是信息不足,主观臆断。

扩大你的信息量

主动扩大信息的接收面,比如问询一下开发或算法同学,今天有没有做线上改动,网络组有无重大调整。从中获取到有价值的信息点,对于排查问题至关重要。查看监控,细看某个监控项的变化,追踪日志和调试信息都是扩大信息量的手段。

拓展知识面,闲暇时间多些了解相关联系统,比如架构,部署,逻辑等。一旦故障发生,讨论中也可提供你解决办法的思路,举一反三,推进问题的排查与解决。

分析证词,甄别对错

如果是外部提出的问题,比如业务投诉,用户反馈等信息,有时候是可信的,有时候人却是不可信的,举个例子之前有开发反馈效果有问题,有些广告位bias异常,有些正常,让我们帮查查系统的问题,但是最后是代码调用一处动态配置造成的。有些时候反馈的信息,是经过描述者过滤加工过的信息,他的排查和分析有可能把你带偏了,在收集信息同时需要以审视、怀疑的态度,分析每个人的证词。

每个人的学习能力其实都很强的,随着经验的积累,,甄别证词能力也会逐渐提升。

看清问题本质

“听到马蹄声时,猜马,不要猜斑马”看到一件现象或一件事情,要看实质而不只是表面的东西,听到马蹄声时候猜是什么马,是什么人的马,是来干什么的而不是猜它是斑马还是白马还是黑马。

排查问题也一样切忌先入为主,有时候看似不可能发生、极其简单的事情可能就是最终原因,不要轻易的排除掉某项原因,比如“宇宙射线引发SSD数据错误”。

很早之前碰到过一个某svr耗时高问题,查了很久也做了一些调优依然不见效,最后发现其实是网卡跑满了。

确定方向,开展定位

确定侦查方向,如从大到小,从上到下排查步骤,从大到小先看比如IDC网络,机房状态等比较宏观的地方是否有问题,逐一排除,逐步缩小问题范围。从上到下先从现象发生的顶端调用链逐一排查,逐步向下深入。

并不是所有问题都从大到小从上到下,宏观问题只有达到一定量级才会引发”质变”,从而引起的注意,在通往质变过程中,你的业务可能已经收到某中影响而表现的很明确,此时需要微观分析,然后再逐渐到宏观来诊断。

总结记录,破案归档

好记性不如烂笔头,然而在一片混乱问题分析当中,让运维心平气和地记录下问题与判断确实有点不切实际。但即使如此,我们仍然可以在事情结束后为保留一份分析资料,总结并记录处理过程中的执行步骤以及解决途径,则能帮助自己和团队积累宝贵的处理经验。

以上方法流程翻译成运维术语:

运维老司机:问题排查经验总结

吃一堑长一智

出了问题并不可怕,怕的是我们从问题中学不到什么,怕的是类似的问题重现,提高问题定位的效率,有哪些值得去做,比如:

建立长效错误码机制,使用具统计、可视意义的数字来简短描述错误含义和范畴,正所谓浓缩就是精华,这一点在错误码屡试不爽。

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读