全网独家大数据集群节点和硬件规划

大数据研习社

2024-04-29 帮助1人

1.大数据集群节点规划

1.1 数据存储总量预估

比如业务系统数据量每天增量 50T，保留周期为 30 天，那么 HDFS 存储容量为 50T * 30 天 * 3 副本 * 2 倍（数据源清晰加工） = 9000T = 8.79P

1.2 DataNode节点规模预估

每个机器的磁盘是 4T * 10 = 40T, 每台机器的可用存储容量为 40T * 0.75 = 30T，节点预估数量= 9000T / 30 = 300 节点，所以 datanode 的节点最小数量为 300 个，也是 YARN 的 nodemanager 的节点数

1.3 NodeManager节点规模预估

根据任务量和性能评估 YARN 的节点数是很难的，难以评估，所以 NodeManager节点数可以和datanode节点数保持一致，如果算力负载过高，根据实际情况再扩容即可。

1. 4 HBase节点规模预估

HBase 节点规划：一般开始搭建是根据 HDFS 存储公式计算即可，增加并发的考虑，一般一个 RegionSever 并发为 5000 ~2 万（优化后并发更高），可以根据业务实际并发估计节点数量

1.5 Kafka节点规模预估

Kafka 节点规划：一般开始搭建是根据类似 HDFS 存储公式计算，一般一个 broker 并发为 5 万（优化后并发更高），可以根据业务实际并发估计节点数量

1.6 Zookeeper节点规模预估

Zookeeper 节点规划：集群开始搭建时 3 节点就够用了，如果发现 zookeeper 负载过高或有超时现象时可以考虑扩展到 5 节点集群中的每个组件要做高可用，一般国企会用 CDH，互联网公司会用开源社区版演化自己平台

1.7 NameNode内存规划

NameNode 内存一般 100 万个 block 对应 1G 的堆内存，比如我们最大的一个集群的 block 达到了 9000 万，会占内容 90G，NameNode 的内存不只存放 block，我们产线环境配置的是 200G

2.集群硬件规划

2.1 HDFS 节点配置

主节点 NameNode 主要 CPU/内存配置高些，系统盘做 RAID1，hdfs 要安装在系统盘上，如果有其他的数据盘，可以做 RAID5，容量所需不大，500G~ 1T 即可

学新通

从节点 datanode 内存/CPU/磁盘都有要求，我们产线存储每服务器 4T*10=40T 台

学新通

2.2 YARN 节点配置

主节点 ResourceManager 主要 CPU/内存配置高些，系统盘做 RAID1，hdfs 要安装在系统盘上，如果有其他的数据盘，可以做 RAID5，容量所需不大， 500G~1T 即可

学新通

从节点 NodeManager 对 CPU 和内存都有要求

学新通

2.3 HBase 节点配置

主节点 Master CPU 内存中配就行

学新通

从节点 RegionServer 内存可以大些

学新通

2.4 Kafka 产线配置

学新通

3.大数据运维真经

3.1 标准生产集群建设

学新通

3.2 标准生产集群调优

学新通

3.3 生产集群问题

学新通

3.4 集群监控部署

学新通

更多大数据运维真经，扫描下方二维码

这篇好文章是转载于：学新通技术网

全网独家大数据集群节点和硬件规划

1.大数据集群节点规划

1.1 数据存储总量预估

1.2 DataNode节点规模预估

1.3 NodeManager节点规模预估

1. 4 HBase节点规模预估

1.5 Kafka节点规模预估

1.6 Zookeeper节点规模预估

1.7 NameNode内存规划

2.集群硬件规划

2.1 HDFS 节点配置

2.2 YARN 节点配置

2.3 HBase 节点配置

2.4 Kafka 产线配置

3.大数据运维真经

3.1 标准生产集群建设

3.2 标准生产集群调优

3.3 生产集群问题

3.4 集群监控部署

更多大数据运维真经，扫描下方二维码

photoshop保存的图片太大微信发不了怎么办

《学习通》视频自动暂停处理方法

word里面弄一个表格后上面的标题会跑到下面怎么办

Android 11 保存文件到外部存储，并分享文件

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

TikTok加速器哪个好免费的TK加速器推荐

怎样阻止微信小程序自动打开