因为最近项目需要对将近千亿级别的数据处理,如果按照全量,根本就跑不出来。在有索引分区的情况下,对数据分批处理。
按照不同的日期维度(年,月,日),分别处理完ODS层的数据,然后生成相应的DW,DS,DM,ADS数据,和汇总数据。
业务数据库的数据模型(mysql,mongdb,oracle数据源)===>也叫src层
ODS(可操作数据层)
DW(数据仓库层)
DWD层 (数据明细层)
负责数据的最细粒度的数据
经过了ODS层清洗(去空),去重,去燥,去除大于或者小于一定阈值的明细数据。
DWM层 (数据中间层)
在DWD层基础上,进行轻度汇总,结合常用维度(时间,地点,组织层级,用户,商品等)
DWS层(数据汇总层)宽表
面向主题的汇总,维度相对来说比较少
高度聚合的指标
DAS(数据应用服务层)
业务主题,提供业务应用的数据准备