大规模集群故障处理，能抗住这3个灵魂拷问算你赢

发布时间：2019-10-12 18:49:19 所属栏目：优化来源：小火牛

导读：副标题#e# 我相信每一个集群管理员，在长期管理多个不同体量及应用场景的集群后，都会多少产生情绪。其实这在我看来，是一个很微妙的事，即大家也已经开始人性化的看待每一个集群了。既然是人性化的管理集群，我总是会思考几个方向的问题：集群的特别之处

对此问题，我们通过 hadoop fsck –delete 命令清除了 miss 的 block。然后逐库通过 hbase hbck –repair 命令来修复 hbase 在修复某个库的时候在尝试连接 ZK 环节长时间卡死(10 分钟没有任何输出)，被迫只能中断命令。

然后发现故障表只有 999 个 region，并且出现 RIT，手动 assign 无效后，尝试了重启库及再次 repair 修复，均无效。

目前在 HDFS 上查看该表 region 目录总数为 1002 个，而 Hbase UI 上是 999 个，正常值为 1000 个。

问题处理：后续检查发现在整个集群的每张 HBase 表都有 region un-assignment 及 rowkey 存在 hole 问题(不是单张表存在问题)。

运行 hbase hbck -details -checkCorruptHFiles 做集群状态检查，检查结果如下：

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

搜索引擎优化是啥意思	企业网站SEO优化为什
如何在招投标中进行项	网站不发文章不发外链