• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

开源数据台框架-数据仓库设计

武飞扬头像
开源数据中台
帮助1

学新通

 图1.开源多组件数据中台架构图

  书接上回,下面分享数据仓库层的建设:

  4.数据仓库建设

数据仓库(Data Warehouse)是一个面向主题的(Subject-Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、包含历史数据(Time Variant)的数据集合,用于支持决策支持系统(Decision Support System)和联机分析处理(Online Analytical Processing)。数据仓库里的数据是来源于多个操作型系统的,而且在引入数据到数据仓库的时候,会对数据进行清洗和集成,保证数据的一致性。数据仓库是BI系统的核心,是为数据分析和报告而构建的。它是一个将数据转化为信息并及时提供给用户以发挥作用的过程。决策支持数据库(数据仓库)与组织的操作数据库分开维护。

数据中台建设的核心之一就是数据仓库建设,数据中台正是因为能采集、治理、融合数据,才能对外提供数据服务,数据相当于是生产资料,没有生产资料,一切都毫无意义。为什么一定要建数据仓库?举个栗子:一个加工工厂,一定要有个生产仓库,里面堆放了各种生产原材料、半成品、产品,进出都能管理,才能支持大工厂的运行。数据仓库就好比工厂的生产仓库,各种工具好比工厂的设备。

学新通以上是推荐的数据仓库架构设计图。它的底层数据库推荐使用PostgreSQL,其次是Oracle、Mysql以及其他。数据仓库连接的数据资源可以是库表、文件和接口数据,从不同渠道进来的数据资源。

本文推荐使用的数据仓库(数据存储)架构图。主要也分为数据贴源层(ODS)、基础明细层(DWD)、轻度汇总层(DWS)、主题应用层(DM)。其中:

  1. 数据贴源层(ODS)主要负责采集数据,包括从各个业务系统、数据库或者其他数据源中获取数据。

  2. 基础明细层(DWD)是数据仓库中的一个核心层,主要用于支撑数据仓库的核心业务需求。在这一层中,会将从数据源层获取的数据按照主题建立各种数据模型,包括基础的明细数据、维度数据等,以支撑数据仓库中的多维分析和数据挖掘任务。

  3. 轻度汇总层(DWS)是数据仓库中的一个过渡层次,主要用于对DWD层的生产数据进行轻度综合和汇总统计。轻度汇总层的主要功能是对DWD层的数据进行汇总和统计,将其转换为更易于分析和挖掘的格式,以支撑分析型应用的需求。

  4. 主题应用层(DM)是数据仓库中的一个应用层,主要用于支撑主题业务需求。在这一层中,会将从数据源层获取的数据按照主题建立各种数据模型,包括基础的明细数据、维度数据等,以支撑主题业务需求。

数据仓库建设要遵循一套方法论,不然表名命名不规范、层次设计不合理等问题都会极大的影响数据治理效率,下面重点介绍下数据仓库建设应注意的几点:

  1. 数据仓库层级命名:PostgresSQL和Oracle数仓建议放在同一库内,不同层级用不同模式命名,如ODS、DWD、DWS、DM;Mysql数仓不同层级建议用不同的库。。

  2. 库表命名:建议统一采用“层级_ 业务大类名称_业务明细表”方式命名,如:ods_hlw_spxx (贴源层 _互联网 _商品信息)。

  3. DWD层定期备份:基础明细层具备时间属性,实际操作就是要定期备份数据,使业务应用层可以查询到指定时间的业务数据,同时也可以支撑包含时间属性的数据分析,如不同月份的总量变化趋势。建议定期备份使用dbswitch定期全量分表备份ods层核心业务数据,表名用时间来区分,如ods_hlw_spxx定期分表备份:dwd_hlw_spxx_20230526。

  4. 不同层级之间的数据治理任务配置:建议使用Kettle的作业及转换组合搭配来实现,可以本地定时调度,也可使用Kettle在线调度。一般项目只需要启动实时任务、定期任务 —每天、定期任务—每周、定期任务—每月,效果如下:

学新通学新通学新通任何数据治理任务执行都需要时间,实时任务的时间间隔建议设成执行时间 60s左右即可。

 学新通

以下资源是博主实际项目中整理出来的关于数据仓库建设的心得及方法,供大家学习参考:

 数据仓库建设相关资源:链接:百度网盘 请输入提取码,提取码:微信搜索“开源多组件数据中台”,关注后,发送“sjck”即可获取。

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhghfhib
系列文章
更多 icon
同类精品
更多 icon
继续加载