您当前的位置: 首页 >  大数据

wespten

暂无认证

  • 0浏览

    0关注

    899博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

大数据数仓项目实战

wespten 发布时间:2022-10-07 17:50:26 ,浏览量:0

一、数仓项目需求及架构设计

数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。

数据仓库是出于分析报告和决策支持目的而创建的,为需要业务智能的企业,提供指导业务流程改进、监控时间、成本、质量以及控制。

1、项目需求分析
  1. 数据采集平台搭建;
  2. 实现数据仓库分层的搭建;
  3. 实现数据清洗、聚合、计算等操作;
  4. 统计各指标,如统计通过各地址跳转注册的用户人数、统计各平台的用户人数、统计支付金额topN的用户; 
2、项目框架

1)技术选型

  1. 数据存储:Hdfs
  2. 数据处理:Hive、Spark
  3. 任务调度:Azkaban

2)流程设计

框架版本选型: 

如何选择Apache/CDH/HDP版本?

Apache∶运维麻烦,组件间兼容性需要自己调研。(一般大厂使用,技术实力雄厚,有专业的运维人员)。

CDH∶国内使用最多的版本,但CM不开源,但其实对中、小公司使用来说没有影响(建议使用)。

关注
打赏
1665965058
查看更多评论
立即登录/注册

微信扫码登录

0.0380s