• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

全网独家大数据集群节点和硬件规划

武飞扬头像
大数据研习社
帮助1

1.大数据集群节点规划

1.1 数据存储总量预估

比如业务系统数据量每天增量 50T,保留周期为 30 天,那么 HDFS 存储 容量为 50T * 30 天 * 3 副本 * 2 倍(数据源 清晰加工) = 9000T = 8.79P 

1.2 DataNode节点规模预估

每个机器的磁盘是 4T * 10 = 40T, 每台机器的可用存储容量为 40T * 0.75 = 30T, 节点预估数量= 9000T / 30 = 300 节点,所以 datanode 的节 点最小数量为 300 个,也是 YARN 的 nodemanager 的节点数 

1.3 NodeManager节点规模预估

根据任务量和性能评估 YARN 的节点数是很难的,难以评估,所以 NodeManager节点数可以和datanode节点数保持一致,如果算力负载过高, 根据实际情况再扩容即可。

1. 4 HBase节点规模预估

HBase 节点规划:一般开始搭建是根据 HDFS 存储公式计算即可,增加并 发的考虑,一般一个 RegionSever 并发为 5000 ~2 万(优化后并发更高), 可以根据业务实际并发估计节点数量 

1.5 Kafka节点规模预估

Kafka 节点规划:一般开始搭建是根据类似 HDFS 存储公式计算,一般一 个 broker 并发为 5 万(优化后并发更高),可以根据业务实际并发估计节点 数量

1.6 Zookeeper节点规模预估

Zookeeper 节点规划:集群开始搭建时 3 节点就够用了,如果发现 zookeeper 负载过高或有超时现象时可以考虑扩展到 5 节点 集群中的每个组件要做高可用,一般国企会用 CDH,互联网公司会用开源 社区版演化自己平台 

1.7 NameNode内存规划

NameNode 内存一般 100 万个 block 对应 1G 的堆内存,比如我们最大 的一个集群的 block 达到了 9000 万,会占内容 90G,NameNode 的内存不 只存放 block,我们产线环境配置的是 200G

2.集群硬件规划

2.1 HDFS 节点配置 

主节点 NameNode 主要 CPU/内存配置高些,系统盘做 RAID1,hdfs 要安装在系统盘上,如果有其他的数据盘,可以做 RAID5,容量所需不大,500G~ 1T 即可 

学新通

从节点 datanode 内存/CPU/磁盘都有要求,我们产线存储每服务器 4T*10=40T 台

学新通

2.2 YARN 节点配置 

主节点 ResourceManager 主要 CPU/内存配置高些,系统盘做 RAID1,hdfs 要安装在系统盘上,如果有其他的数据盘,可以做 RAID5,容量所需不大, 500G~1T 即可 

学新通

从节点 NodeManager 对 CPU 和内存都有要求

学新通

2.3 HBase 节点配置 

主节点 Master CPU 内存中配就行

学新通

从节点 RegionServer 内存可以大些

学新通

2.4 Kafka 产线配置

学新通

3.大数据运维真经

3.1 标准生产集群建设

学新通

3.2 标准生产集群调优

学新通

3.3 生产集群问题

学新通

3.4 集群监控部署

学新通

更多大数据运维真经,扫描下方二维码

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhghchjj
系列文章
更多 icon
同类精品
更多 icon
继续加载