大规模集群故障处理,能DDoS高防抗住这3个灵魂拷咨询算你赢-墨者安全-墨者盾
DDOS防御_CC防护_高防CDN服务器_【墨者安全】—墨者盾墨者盾—你的网站贴身保镖!
QQ:800185041
高防免费接入:400-0797-119

渠道合作:156 2527 6999

主页 > CC防护 > 大规模集群故障处理,能DDoS高防抗住这3个灵魂拷咨询算你赢

大规模集群故障处理,能DDoS高防抗住这3个灵魂拷咨询算你赢

小墨安全管家 2020-05-22 19:20 CC防护 89 ℃
DDoS防御

1)调优参数配置:

集群经常生啥病?

进入Hive所在的MySQL数据库执行,修改Hive库下SDS表下的location信息,涉及条数9739行。把指定IP的location替换成nameservice ;

阅读RPC源码:动态代理机制+NIO通信模型。

解决手段:

寻常集群容易生啥病,都有哪些隐患呢?

… ERROR: Region { meta => index_natip201712,#\xA0,1512009553152.00d96f6b2de55b56453e7060328b7930., hdfs => hdfs://ns1/hbase_ipsource3/data/default/index_natip201712/00d96f6b2de55b56453e7060328b7930, deployed => } not deployed on any region server. ERROR: Region { meta => index_natip201711,Y`,1509436894266.00e2784a250af945c66fb70370344f2f., hdfs => hdfs://ns1/hbase_ipsource3/data/default/index_natip201711/00e2784a250af945c66fb70370344f2f, deployed => } not deployed on any region server. … ERROR: There is a hole in the region chain between \x02 and \x02@. You need to create a new .regioninfo and region dir in hdfs to plug the hole. ERROR: There is a hole in the region chain between \x04 and \x04@. You need to create a new .regioninfo and region dir in hdfs to plug the hole. 

回退方案:从备份的mysqldump文件中恢复mysql hive元数据库 mysql -uUsername -pPassword hive < hivedump.sq。

深入了解Spark源码:在shuffle时期会有read 和 write操作。

灵魂拷咨询1

配置多版本Python环境,并搭建私有第三方库。

1)优化系统参数配置:

报错表象为shuffle时期拉取数据操作连接超时。默认超时时刻为120s。

数据生命周期治理:

大规模集群故障处理,能DDoS高防抗住这3个灵魂拷问算你赢

大规模集群故障处理,能DDoS高防抗住这3个灵魂拷问算你赢

配置明细接口机监控,优化接口机负载。

Kafka集群节点数50+,集群使用一般SATA盘,存储能力2000TB,千亿级日流量,经常会浮上个别磁盘IO打满,导致生产断传,消费延迟,继而引发消费offset越界,单个节点topic配置记录过期等咨询题。

ipc.server.handler.queue.size; 

咨询题处理:后续检查发如今整个集群的每张 HBase 表都有 region un-assignment 及 rowkey 存在 hole 咨询题(不是单张表存在咨询题)。

解决方案:

落副本之后再把集群的拷贝副本所用的cpu核数落低,能够由num.replica.fetchers=6落低为num.replica.fetchers=3。磁盘IO使用的num.io.threads=14升为num.io.threads=16。num.network.threads=8升为num.network.threads=9。此参数不过临时压榨机器性能,当数据量递增时仍会发生故障。

spark.shuffle.manager(sort),spark.shuffle.consolidateFiles (true),spark.network.timeout(600s)。报错解决,运行耗时缩短一小时。

建议假如能落低大部分topic的副本,那个想法是简单有效的。

3、xx集群由于承载对外多租户,面对各个租户提出的集群生产环境的需求都不一致,造成集群环境复杂化,yarn资源打满,同时容易浮上负载过高的接口机,加重运维成本。

查 HMaster 后台日志,发觉是某个 RegionServer(DSJ-signal-4T-147/10.162.0.175)的连接数超多造成连接超时。重启该 RegionServer 后再次运行 hbck -repair -fixAssignments -fixMeta 顺序结束,并成功修复了所有表的 region un-assignment、hole 及 HBase:meta 咨询题。

参数调优:小文件合并优化,内存内核调优,并发量调优,防止数据倾歪。

6、yarnJOB造成节点负载过高阻碍了其他job运行。

9、某HBase集群无法PUT入库咨询题处理。

计算引擎优化 :MR转Spark。

块大小治理:小文件做合并,增加block大小为1GB,减少小文件块数量。

配置多版本Spark,Kafka环境。

假如落低副本收效甚微,思量到目前集群瓶颈要紧在个别磁盘读写IO达到峰值,是因磁盘的topic分区分配不合理导致,建议首先做好针对topic分区级别IO速率的监控,接着形成规范合理的topic创建分区规则(数据量,流量大的topic先创建;分区数*副本数是磁盘总数的整数倍),先做到磁盘存储的均衡,再挑出来个别读写IO到达瓶颈的磁盘,依照监控找出读写异常大分区。

1、底层计算引擎老旧,业务加工占用大量资源且异常缓慢。


DDoS防御

当前位置:主页 > CC防护 > 大规模集群故障处理,能DDoS高防抗住这3个灵魂拷咨询算你赢

标签列表
DDoS防御
网站分类
X
 

QQ客服

400-0797-119